GLM: वितरण और लिंक फ़ंक्शन की पसंद की पुष्टि करना


14

मेरे पास एक सामान्यीकृत रैखिक मॉडल है जो एक गाऊसी वितरण और लॉग लिंक फ़ंक्शन को गोद लेता है। मॉडल को फिट करने के बाद, मैं अवशिष्टों की जांच करता हूं: क्यूक्यू प्लॉट, अवशिष्ट बनाम अनुमानित मान, अवशिष्ट के हिस्टोग्राम (यह मानते हुए कि सावधानी बरतने की जरूरत है)। सब कुछ अच्छा लग रहा है। यह मुझे (मेरे लिए) सुझाव देता है कि गौसियन वितरण का विकल्प काफी उचित था। या, कम से कम, कि अवशिष्ट मेरे मॉडल में उपयोग किए गए वितरण के अनुरूप हैं।

Q1 : यह बताने के लिए बहुत दूर होगा कि यह वितरण की मेरी पसंद को मान्य करता है?

मैंने एक लॉग लिंक फ़ंक्शन को चुना क्योंकि मेरी प्रतिक्रिया चर हमेशा सकारात्मक होती है, लेकिन मैं कुछ प्रकार की पुष्टि चाहता हूं कि यह एक अच्छा विकल्प था।

Q2 : वितरण की पसंद के लिए अवशिष्टों की जांच जैसे कोई परीक्षण हैं, जो लिंक फ़ंक्शन के मेरी पसंद का समर्थन कर सकते हैं? (लिंक फ़ंक्शन चुनना मेरे लिए थोड़ा मनमाना लगता है, क्योंकि एकमात्र दिशानिर्देश जो मुझे मिल सकते हैं वे काफी अस्पष्ट और हाथ-लहरदार हैं, संभवतः अच्छे कारण के लिए।)


2
Q1। आप अन्य वितरणों को आज़मा सकते हैं और देख सकते हैं कि क्या वे बेहतर प्रदर्शन करते हैं। Q2। सकारात्मक भविष्यवाणियों को सुनिश्चित करने के लिए एक लॉग लिंक का चयन करना मेरे लिए मनमाना नहीं लगता है। यह एक तर्क है। लेकिन क्या आपको पहचान लिंक के साथ नकारात्मक भविष्यवाणियां मिलेंगी और बदले में आपके पास मौजूद डेटा की जाँच की जा सकती है। नीचे पंक्ति: आप यह स्पष्ट नहीं कर सकते कि अन्य मॉडल तब तक बेहतर नहीं होंगे जब तक आप उन्हें आज़मा नहीं लेते।
निक कॉक्स

1
Yexp(η)R2

2
आर2

जवाबों:


13
  1. यह अक्सर पूछे जाने वाले प्रश्न का एक प्रकार है कि क्या आप अशक्त परिकल्पना पर जोर दे सकते हैं। आपके मामले में, अशक्त यह होगा कि अवशिष्ट गाऊसी हैं, और आपके भूखंडों (क्यूक-प्लॉट्स, हिस्टोग्राम्स आदि) का दृश्य निरीक्षण 'परीक्षण' का गठन करता है। (अशक्त करने के मुद्दे के सामान्य अवलोकन के लिए, यह मेरे उत्तर को यहाँ पढ़ने में मदद कर सकता है: क्यों सांख्यिकीविदों का कहना है कि गैर-महत्वपूर्ण परिणाम का अर्थ है "आप अशक्त को अस्वीकार नहीं कर सकते" अशक्त परिकल्पना को स्वीकार करने का विरोध करते हैं? ) अपने विशिष्ट मामले में, आप कह सकते हैं कि प्लॉट दिखाते हैं कि आपके अवशेष आपके सामान्यता की धारणा के अनुरूप हैं, लेकिन वे धारणा को "मान्य" नहीं करते हैं।

  2. आप विभिन्न लिंक फ़ंक्शंस का उपयोग करके अपने मॉडल को फिट कर सकते हैं और उनकी तुलना कर सकते हैं, लेकिन अलगाव में एक भी लिंक फ़ंक्शन का परीक्षण नहीं है (यह स्पष्ट रूप से गलत है, देखें @ Glen_b का जवाब )। लॉजिट और प्रोबेट मॉडल के बीच अंतर करने के लिए मेरे जवाब में (जो पढ़ने लायक हो सकता है, हालांकि यह काफी समान नहीं है), मेरा तर्क है कि लिंक फ़ंक्शन को इसके आधार पर चुना जाना चाहिए:

    1. प्रतिक्रिया वितरण का ज्ञान,
    2. सैद्धांतिक विचार और
    3. डेटा के लिए अनुभवजन्य फिट।

    YYनकारात्मक बनने से, यह वक्रतापूर्ण संबंध को एक विशिष्ट आकार भी देता है। अवशेषों बनाम सज्जित मूल्यों का एक मानक कथानक (शायद कम फिट ओवरलेड के साथ) आपको यह पहचानने में मदद करेगा कि क्या आपके डेटा में आंतरिक वक्रता लॉग लिंक द्वारा लगाए गए विशिष्ट वक्रता के लिए एक उचित मेल है। जैसा कि मैंने उल्लेख किया है, आप यह भी कोशिश कर सकते हैं कि जो भी अन्य परिवर्तन आपके सैद्धांतिक मानदंडों को पूरा करता है, जो आप चाहते हैं और सीधे दो फिट की तुलना करें।


16

यह बताने के लिए बहुत दूर होगा कि यह वितरण की मेरी पसंद को मान्य करता है?

यह इस बात पर निर्भर करता है कि आप वास्तव में 'मान्य' से क्या मतलब रखते हैं, लेकिन मैं कहूँगा 'हाँ, यह बहुत दूर जाता है' उसी तरह से कि आप वास्तव में यह नहीं कह सकते कि "अशक्त को सत्य दिखाया गया है", (विशेष रूप से) बिंदु नल के साथ, लेकिन कम से कम कुछ अर्थों में अधिक आम तौर पर)। आप केवल वास्तव में कह सकते हैं "ठीक है, हमारे पास मजबूत सबूत नहीं हैं कि यह गलत है"। लेकिन किसी भी मामले में हम अपने मॉडल को सही होने की उम्मीद नहीं करते हैं, वे मॉडल हैं । क्या मायने रखता है, जैसा कि बॉक्स और ड्रेपर ने कहा, " कितना गलत है कि उन्हें उपयोगी नहीं होना चाहिए? "

या तो इन दो पूर्व वाक्यों के:

यह मुझे (मेरे लिए) सुझाव देता है कि गौसियन वितरण का विकल्प काफी उचित था। या, कम से कम, कि अवशिष्ट मेरे मॉडल में उपयोग किए गए वितरण के अनुरूप हैं।

बहुत अधिक सटीक रूप से वर्णन करता है कि आपके निदान क्या संकेत देते हैं - यह नहीं कि लॉग लिंक के साथ एक गाऊसी मॉडल सही था - लेकिन यह उचित था, या डेटा के अनुरूप था।

मैंने एक लॉग लिंक फ़ंक्शन को चुना क्योंकि मेरी प्रतिक्रिया चर हमेशा सकारात्मक होती है, लेकिन मैं कुछ प्रकार की पुष्टि चाहता हूं कि यह एक अच्छा विकल्प था।

यदि आप जानते हैं कि यह सकारात्मक होना चाहिए तो इसका मतलब सकारात्मक होना चाहिए। यह समझदार है कि ऐसा मॉडल चुनें जो कम से कम उसके अनुरूप हो। मुझे नहीं पता कि क्या यह एक अच्छा विकल्प है (बेहतर विकल्प हो सकता है), लेकिन यह एक उचित काम है; यह मेरा शुरुआती बिंदु हो सकता है। [हालांकि, यदि चर स्वयं आवश्यक रूप से सकारात्मक है, तो मेरा पहला विचार गॉसियन के बजाय लॉग-लिंक के साथ गामा बनना होगा। "आवश्यक रूप से सकारात्मक" दोनों तिरछापन और विचरण का सुझाव देता है जो माध्य के साथ बदलता है।]

Q2: वितरण की पसंद के लिए अवशिष्टों की जांच जैसे कोई परीक्षण हैं, जो लिंक फ़ंक्शन के मेरी पसंद का समर्थन कर सकते हैं?

ऐसा लगता है कि आपको "औपचारिक परिकल्पना परीक्षण" के रूप में 'परीक्षण' से मतलब नहीं है, बल्कि 'नैदानिक ​​जांच' के रूप में है।

किसी भी मामले में, जवाब है, हाँ, वहाँ हैं।

एक औपचारिक परिकल्पना परीक्षण प्रीगिबोन की गुडनेस ऑफ लिंक टेस्ट [1] है।

यह बॉक्स-कॉक्स परिवार के लिंक फ़ंक्शन को एम्बेड करने के लिए बॉक्स-कॉक्स पैरामीटर की परिकल्पना परीक्षण करने के लिए आधारित है।

ब्रिसलो (1996) [2] में प्रीगिबोन के परीक्षण की संक्षिप्त चर्चा भी देखें ( पृष्ठ 14 देखें )।

हालाँकि, मैं दृढ़ता से नैदानिक ​​मार्ग से चिपके रहने की सलाह दूंगा। यदि आप एक लिंक फ़ंक्शन की जांच करना चाहते हैं, तो आप मूल रूप से लिंक-स्केल पर यह दावा कर रहे हैं कि,η=जी(μ) में रैखिक है एक्सयह मॉडल में है, इसलिए एक मूल मूल्यांकन भविष्यवक्ताओं के खिलाफ अवशिष्ट के एक भूखंड को देख सकता है। उदाहरण के लिए,

काम कर रहे अवशेष आरमैंडब्ल्यू=(yमैं-μ^मैं)(ημ)

(जो मैं इस मूल्यांकन के लिए झुकूंगा), या शायद आंशिक अवशिष्टों में रैखिकता से विचलन को देखकर, प्रत्येक भविष्यवक्ता के लिए एक भूखंड के साथ (उदाहरण के लिए देखें, हार्डिन और हिल्बे, सामान्यीकृत रैखिक मॉडल और एक्सटेंशन, दूसरा संस्करण। 4.5। .4 p54, परिभाषा के लिए),

आरमैंटी=(yमैं-μ^मैं)(ημ)+एक्समैंβ^

=आरमैंडब्ल्यू+एक्समैंβ^

ऐसे मामलों में जहां डेटा लिंक फ़ंक्शन द्वारा परिवर्तन को स्वीकार करता है, आप रैखिक प्रतिगमन के साथ एक ही फैशन में रैखिकता की तलाश कर सकते हैं (हालांकि आप मेरे तिरछेपन और संभवतः विषमलैंगिकता छोड़ चुके हैं)।

श्रेणीबद्ध भविष्यवक्ताओं के मामले में लिंक फ़ंक्शन का विकल्प अधिक सुविधा या व्याख्या की बात है, फिट एक समान होना चाहिए (इसलिए उनके लिए आकलन करने की आवश्यकता नहीं है)।

तुम भी Pregibon दृष्टिकोण से एक नैदानिक ​​आधार कर सकते हैं।

ये एक विस्तृत सूची नहीं बनाते हैं; आप अन्य निदान पर चर्चा कर सकते हैं।

[उस ने कहा, मैं गंग के आकलन से सहमत हूं कि लिंक फ़ंक्शन का विकल्प शुरू में सैद्धांतिक विचारों, जहां संभव हो, जैसी चीजों पर आधारित होना चाहिए।]

इस पोस्ट में कुछ चर्चाएँ भी देखें , जो कम से कम आंशिक रूप से प्रासंगिक हैं।

[१]: प्रीगिबोन, डी। (१ ९ g०),
"सामान्यीकृत रैखिक मॉडल के लिए लिंक टेस्ट की अच्छाई,"
जर्नल ऑफ़ द रॉयल स्टैटिस्टिकल सोसाइटी। सीरीज़ (एप्लाइड स्टैटिस्टिक्स) ,
वॉल्यूम। 29, नंबर 1, पीपी 15-23।

[2]: ब्रेसलो NE (1996),
"मॉडल रैखिक सामान्यीकृत: मान्यताओं जाँच हो रही है और निष्कर्ष को मजबूत बनाने,"
STATISTICA Applicata 8 , 23-41।
पीडीएफ

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.