सामान्यीकृत रैखिक मॉडल की मान्यताओं

मैंने एकल प्रतिक्रिया चर (निरंतर / सामान्य रूप से वितरित) और 4 व्याख्यात्मक चर (जिनमें से कारक कारक हैं और चौथा एक पूर्णांक है) के साथ एक सामान्य रैखिक मॉडल बनाया है। मैंने एक पहचान लिंक फ़ंक्शन के साथ गॉसियन त्रुटि वितरण का उपयोग किया है। मैं वर्तमान में जाँच कर रहा हूँ कि मॉडल सामान्यीकृत रैखिक मॉडल की मान्यताओं को संतुष्ट करता है, जो हैं:

वाई की स्वतंत्रता
सही लिंक समारोह
व्याख्यात्मक चरों की माप का सही पैमाना
कोई प्रभावशाली अवलोकन नहीं

मेरा सवाल है: मैं कैसे जांच सकता हूं कि मॉडल इन मान्यताओं को संतुष्ट करता है? सबसे अच्छा प्रारंभिक बिंदु प्रत्येक व्याख्यात्मक चर के खिलाफ प्रतिक्रिया चर की साजिश रचता प्रतीत होगा। हालांकि, व्याख्यात्मक चर के 3 स्पष्ट हैं (1-4 स्तरों के साथ), इसलिए मुझे भूखंडों में क्या देखना चाहिए?

इसके अलावा, क्या मुझे व्याख्यात्मक चरों के बीच मल्टीकोलिनरिटी और इंटरैक्शन की जांच करने की आवश्यकता है? यदि हाँ, तो मैं श्रेणीबद्ध व्याख्यात्मक चर के साथ यह कैसे करूँ?

— लुसियानो
स्रोत

मुझे लगता है कि यह सामान्यीकृत रैखिक मॉडल के रूप में सोचने की कोशिश ओवरकिल है। आपके पास एक सादा पुराना प्रतिगमन मॉडल है। अधिक विशेष रूप से, क्योंकि आपके पास कुछ श्रेणीबद्ध व्याख्यात्मक चर हैं, और एक निरंतर ईवी, लेकिन उनके बीच कोई बातचीत नहीं है, इसे एक क्लासिक ANCOVA भी कहा जा सकता है।

मैं कहूंगा कि # 3 वास्तव में यहां एक धारणा नहीं है जिसके बारे में आपको चिंता करने की आवश्यकता है। न ही, उस मामले के लिए, क्या आपको वास्तव में # 2 के बारे में चिंता करने की आवश्यकता है। इसके बजाय, मैं दो अलग-अलग धारणाओं के साथ इनका समर्थन करूंगा:

2 '। विचरण
3 की समरूपता ’। अवशिष्टों की सामान्यता

इसके अलावा, # 4 जाँच करने के लिए एक महत्वपूर्ण बात है, लेकिन मैं वास्तव में प्रति धारणा के रूप में नहीं सोचता । चलिए सोचते हैं कि कैसे मान्यताओं की जाँच की जा सकती है।

स्वतंत्रता अक्सर 'चेक' की जाती है, यह सोचकर कि डेटा किस लिए और कैसे एकत्र किया गया था। इसके अलावा, यह एक तरह बातें का उपयोग कर जाँच की जा सकती रन परीक्षण , Durbin-वाटसन परीक्षण , या के पैटर्न की जांच autocorrelations --you भी देख सकते हैं आंशिक autocorrelations । (ध्यान दें, ये केवल आपके निरंतर कोवरिएट के सापेक्ष मूल्यांकन किया जा सकता है।)

मुख्य रूप से श्रेणीबद्ध व्याख्यात्मक चर के साथ, आपके कारकों के प्रत्येक स्तर पर विचरण की गणना करके प्रसरण की एकरूपता की जाँच की जा सकती है। इनकी गणना करने के बाद, कई परीक्षण किए जाते हैं कि क्या वे उसी के बारे में हैं, मुख्य रूप से लेवेन के परीक्षण के बारे में , लेकिन ब्राउन-फोर्सिथ परीक्षण भी । परीक्षण, भी हार्टले का परीक्षण कहा जाता है नहीं की सिफारिश की; यदि आप इसके बारे में थोड़ी और जानकारी चाहते हैं तो मैं यहां इसकी चर्चा करता हूं $F_{max}$ । (ध्यान दें कि ये परीक्षण ऊपर के विपरीत आपके श्रेणीबद्ध कोवरिएट्स पर लागू किए जा सकते हैं।) एक सतत ईवी के लिए, मैं निरंतर अवशिष्ट के खिलाफ अपने अवशिष्टों को प्लॉट करना पसंद करता हूं और यह देखने के लिए कि क्या वे एक या दूसरे के आगे फैल गए हैं, उन्हें देखने के लिए जांच करते हैं।

अवशिष्टों की सामान्यता का मूल्यांकन कुछ परीक्षणों के माध्यम से किया जा सकता है, जैसे कि शापिरो-विल्क , या कोलमोगोरोव-स्मिरनोव परीक्षण , लेकिन अक्सर एक क्यूक-प्लॉट के माध्यम से सबसे अच्छा मूल्यांकन किया जाता है । (ध्यान दें कि यह धारणा आम तौर पर सेट का कम से कम महत्वपूर्ण है; यदि यह पूरा नहीं हुआ है, तो आपके बीटा अनुमान अभी भी निष्पक्ष होंगे , लेकिन आपके पी-मान गलत होंगे।)

आपकी व्यक्तिगत टिप्पणियों के प्रभाव का आकलन करने के कई तरीके हैं । संख्यात्मक मान प्राप्त करना संभव है जो इसे अनुक्रमित करता है, लेकिन मेरा पसंदीदा तरीका, यदि आप ऐसा कर सकते हैं, तो अपने डेटा को जैकनाइफ करना है। यही है, आप बदले में प्रत्येक डेटा बिंदु को छोड़ देते हैं और अपने मॉडल को फिर से फिट करते हैं। तब आप यह देख सकते हैं कि यदि आपका अवलोकन आपके डेटासेट का हिस्सा नहीं था, तो आपके बेटों के आसपास कितना उछाल है। इस उपाय को dfbeta कहा जाता है । इसके लिए थोड़ी प्रोग्रामिंग की आवश्यकता होती है, लेकिन ऐसे मानक तरीके हैं जो सॉफ़्टवेयर अक्सर आपके लिए स्वचालित रूप से गणना कर सकते हैं। इनमें लीवरेज और कुक की दूरी शामिल है ।

मूल रूप से बताए गए आपके प्रश्न के बारे में, यदि आप लिंक फ़ंक्शंस और सामान्यीकृत रैखिक मॉडल के बारे में अधिक जानना चाहते हैं, तो मैंने चर्चा की कि यहाँ काफी बड़े पैमाने पर है । मूल रूप से, एक उपयुक्त लिंक फ़ंक्शन का चयन करने के लिए सबसे महत्वपूर्ण बात यह है कि आपके प्रतिक्रिया वितरण की प्रकृति है; चूँकि आप मानते हैं कि गौसियन है, इसलिए पहचान लिंक उचित है, और आप प्रतिगमन मॉडल के बारे में मानक विचारों का उपयोग करके इस स्थिति के बारे में सोच सकते हैं। $Y$

"व्याख्यात्मक चरों की माप का सही पैमाना" के बारे में, मैं आपको स्टीवन के माप के स्तरों (यानी, श्रेणीबद्ध, क्रमिक, अंतराल और अनुपात) का संदर्भ देता हूं । एहसास करने वाली पहली बात यह है कि प्रतिगमन विधियाँ (जीएलआईएम सहित) व्याख्यात्मक चरों के बारे में धारणाएं नहीं बनाती हैं, इसके बजाय, जिस तरह से आप अपने मॉडल में अपने व्याख्यात्मक चर का उपयोग करते हैं, उनके बारे में आपकी धारणाओं को दर्शाता है। इसके अलावा, मुझे लगता है कि स्टीवन का स्तर ओवरलेप किया गया है; उस विषय के अधिक सैद्धांतिक उपचार के लिए, यहां देखें ।

— गुंग - को पुनः स्थापित मोनिका
स्रोत

चूंकि Op में एक लिंक फ़ंक्शन शामिल है जो मुझे लगता है कि वह वास्तव में एक सामान्यीकृत रैखिक मॉडल का मतलब था जहां एक लिंक फ़ंक्शन Y पर लागू होता है। इसके अलावा मैं एक धारणा के रूप में Y की स्वतंत्रता को कॉल करूंगा। मुझे लगता है कि मॉडल में त्रुटि घटकों स्वतंत्र हैं कि धारणा अधिक ठीक से है। यह देखते हुए कि मुझे लगता है कि गंग ने जो लिखा है, वह सही है।

— माइकल आर। चेर्निक

@MichaelChernick, मैं आपसे सहमत हूं। मैंने इन मुद्दों को हल करने के लिए अपने उत्तर को थोड़ा संपादित किया है। मुझे पता है अगर आपको लगता है कि यह अभी भी अधिक काम की जरूरत है।

— गंग -