जीएलएम आर में अवशिष्ट और नल डिवियन की व्याख्या करना


47

आरएल में जीएलएम में नल और अवशिष्ट डीविंस की व्याख्या कैसे करें? जैसे, हम कहते हैं कि छोटा AIC बेहतर है। क्या विचलन के लिए भी कोई समान और त्वरित व्याख्या है?

अशक्त विचलन: स्वतंत्रता के 1077 डिग्री पर 1146.1 अवशिष्ट अवशिष्ट: 4589.4 आजादी के 1099 डिग्री पर: 6589

जवाबों:


74

आज्ञा देना एलएल = loglikelihood

यहाँ सारांश (glm.fit) आउटपुट से आपके द्वारा देखे जाने का एक त्वरित सारांश है,

Null Deviance = 2 (LL (संतृप्त मॉडल) - LL (Null Model)) df = df_Sat - df_Null पर

अवशिष्ट Deviance = 2 (LL (संतृप्त मॉडल) - LL (प्रस्तावित मॉडल)) df = df_Sat - df_Proposed

संतृप्त मॉडल एक मॉडल है कि प्रत्येक डेटा बिंदु मान लिया गया है अपने स्वयं के मानकों है (जिसका अर्थ है आप अनुमान लगाने के लिए मानकों n है।)

अशक्त मॉडल , सटीक "विपरीत" मानता है कि है में आप केवल 1 पैरामीटर का अनुमान है जिसका मतलब है कि डेटा बिंदुओं के सभी के लिए एक पैरामीटर, मान लिया गया है।

प्रस्तावित मॉडल मान लिया गया है तो आप पी + 1 पैरामीटर आप पी मानकों + एक अवरोधन अवधि के साथ अपने डेटा बिंदुओं की व्याख्या कर सकते हैं।

यदि आपका नल डिविज़न वास्तव में छोटा है, तो इसका मतलब है कि नल मॉडल डेटा को बहुत अच्छी तरह से समझाता है। इसी तरह अपने अवशिष्ट डीविंस के साथ

वास्तव में छोटे का क्या मतलब है? अपने मॉडल "अच्छा" है, तो आपके विचलन स्वतंत्रता की डिग्री - लगभग (df_model df_sat) के साथ ची ^ 2 है।

यदि आप अपने प्रस्तावित मॉडल के साथ नल मॉडल की तुलना करना चाहते हैं, तो आप देख सकते हैं

(Null Deviance - अवशिष्ट Deviance) लगभग ची ^ 2 के साथ df प्रस्तावित - df Null = (n- (p + 1)) - (n-1) = p

क्या परिणाम आपने आर से सीधे दिए हैं? वे थोड़ा अजीब लगते हैं, क्योंकि आम तौर पर आपको यह देखना चाहिए कि अशक्त पर बताई गई स्वतंत्रता की डिग्री हमेशा अवशिष्ट पर बताई गई स्वतंत्रता की डिग्री से अधिक होती है। ऐसा इसलिए है क्योंकि फिर से, नल डीविंस डीएफ = संतृप्त डीएफ - नल डीएफ = एन -1 अवशिष्ट डीवियनस डीएफ = संतृप्त डीएफ - प्रस्तावित डीएफ = एन- (पी + 1)


हां, यह एक बहुत उपयोगी लेखन है @TeresaStat, धन्यवाद। यह कितना मजबूत है? यदि आप एक के बजाय एक बहुराष्ट्रीय मॉडल के बारे में बात कर रहे हैं तो क्या परिभाषा बदल जाती है GLM?
हैक-आर

@ टेरेसा: हां, ये परिणाम आर। से हैं। ऐसा क्यों होगा? यहाँ मॉडल के साथ कोई समस्या?
अंजलि

@ हैक-आर: इस तरह की देर से प्रतिक्रिया के लिए खेद है, मैं स्टेक्सएक्सचेंज के लिए नया हूं। बहुराष्ट्रीय मॉडल के लिए आप R में glm फ़ंक्शन का उपयोग नहीं करते हैं और आउटपुट अलग है। आपको या तो एक आनुपातिक बाधाओं के मॉडल या क्रमिक प्रतिगमन को देखने की आवश्यकता होगी, मैलोडिट फ़ंक्शन। यह बहुराष्ट्रीय glms पर थोड़ा सा पढ़ने के लिए लायक है, उनके पास थोड़ी अलग धारणाएं हैं। अगर मैं ब्रेक के दौरान इसे प्राप्त कर सकता हूं, तो मैं इसे कुछ और जानकारी के साथ अपडेट करूंगा।
टेरेसा स्टैट

@ अंजलि, मुझे पूरा यकीन नहीं है कि आर में आपको ऐसा परिणाम क्यों मिलेगा? यह आपके डेटा / परिणामों को देखे बिना जानना मुश्किल है। सामान्य तौर पर, मैं नहीं देखता कि स्वतंत्रता की अवशिष्ट डिग्री शून्य df से अधिक क्यों होगी। आप कितने मापदंडों का आकलन कर रहे थे?
टेरेसा स्टैट

1
@ user4050 सामान्य रूप से मॉडलिंग के लक्ष्य को आपकी प्रतिक्रिया के बारे में सबसे अधिक समझाने के लिए सबसे छोटे मापदंडों का उपयोग करके देखा जा सकता है। यह जानने के लिए कि एक और पैरामीटर को जोड़ने के लाभ को देखने के लिए आपको कितने मापदंडों का उपयोग करने की आवश्यकता है। यदि एक अतिरिक्त पैरामीटर आपके छोटे मॉडल से बहुत कुछ बताता है (उच्च विचलन पैदा करता है), तो आपको अतिरिक्त पैरामीटर की आवश्यकता है। यह निर्धारित करने के लिए कि आपको सांख्यिकीय सिद्धांत की कितनी आवश्यकता है। सिद्धांत हमें बताता है कि विचलन आपके दो मॉडलों के बीच मापदंडों के अंतर के बराबर स्वतंत्रता की डिग्री के साथ ची वर्ग है। क्या यह कोई स्पष्ट है?
टेरेसा स्टैट

13

अशक्त विचलन यह दर्शाता है कि मॉडल द्वारा प्रतिक्रिया को कितनी अच्छी तरह से और कुछ नहीं बल्कि एक अवरोधन के रूप में भविष्यवाणी की जाती है।

अवशिष्ट अवमूल्यन दर्शाता है कि मॉडल द्वारा भविष्यवाणियों को शामिल किए जाने पर प्रतिक्रिया कितनी अच्छी है। आपके उदाहरण से, यह देखा जा सकता है कि विचलन 3443.3 तक बढ़ जाता है जब 22 भविष्यवक्ता चर जोड़े जाते हैं (ध्यान दें: स्वतंत्रता की डिग्री = प्रेक्षणों की संख्या - नहीं, भविष्यवक्ताओं की संख्या)। भक्ति में यह वृद्धि फिट होने के महत्वपूर्ण अभाव का प्रमाण है।

हम अवशिष्ट अवमूल्यन का परीक्षण करने के लिए भी उपयोग कर सकते हैं कि क्या शून्य परिकल्पना सच है (यानी लॉजिस्टिक प्रतिगमन मॉडल डेटा के लिए पर्याप्त रूप से फिट है)। यह संभव है क्योंकि स्वतंत्रता के एक निश्चित डिग्री पर ची-वर्ग मूल्य द्वारा अवमूल्यन दिया जाता है। महत्व के लिए परीक्षण करने के लिए, हम R में नीचे दिए गए सूत्र का उपयोग करके संबद्ध पी-मानों का पता लगा सकते हैं:

p-value = 1 - pchisq(deviance, degrees of freedom)

अवशिष्ट अवमूल्यन और डीएफ के उपरोक्त मूल्यों का उपयोग करते हुए, आपको लगभग शून्य का एक पी-मूल्य मिलता है जो दिखा रहा है कि अशक्त परिकल्पना का समर्थन करने के लिए सबूतों का एक महत्वपूर्ण अभाव है।

> 1 - pchisq(4589.4, 1099)
[1] 0

2
आपको कैसे पता चलेगा कि भविष्यवाणियां और संख्याओं के आधार पर अच्छे / बुरे फिट के लिए कट ऑफ क्या है? क्या यह केवल अगर अवशिष्ट डीवियनस> नाल डीवियनस या कुछ रेंज / अनुपात है?
हैक-आर

3
आपका उत्तर गलत नहीं है, लेकिन गलतफहमी के अधीन है। वास्तव में, यह गलत समझा गया है (सीएफ यहाँ )। उसके प्रकाश में, क्या आप अपने कोड में निहित अंतरों को स्पष्ट कर सकते हैं?
गूँग - मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.