द्विपद प्रतिगमन के लिए आर के आउटपुट की व्याख्या


38

मैं द्विपद डेटा परीक्षणों के साथ इस पर काफी नया हूं, लेकिन एक करने की जरूरत है और अब मुझे यकीन नहीं है कि परिणाम की व्याख्या कैसे करें। वाई-चर, प्रतिक्रिया चर, द्विपद है और व्याख्यात्मक कारक निरंतर हैं। परिणाम का सारांश देते समय मुझे यही मिला है:

glm(formula = leaves.presence ~ Area, family = binomial, data = n)

Deviance Residuals: 
Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 
(Dispersion parameter for binomial family taken to be 1)

Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

यहाँ मेरे पास बहुत सी चीज़ें नहीं हैं, यह वास्तव में क्या कहती है:

                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***

और एआईसी और फिशर स्कोरिंग पुनरावृत्तियों की संख्या का क्या अर्थ है?

> fit
Call:  glm(formula = Lövförekomst ~ Areal, family = binomial, data = n)

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166  

Degrees of Freedom: 12237 Total (i.e. Null);  12236 Residual
(314 observations deleted due to missingness)
Null Deviance:      16660 
Residual Deviance: 16650        AIC: 16650

और यहाँ इसका क्या मतलब है:

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166 

6
चूंकि आपका प्रश्न बहुत व्यापक है - "कोई द्विपद प्रतिगमन की व्याख्या कैसे करता है?" - मैं इस विषय पर एक परिचयात्मक पाठ लेने का सुझाव दूंगा। एग्रेस्टी का एन इंट्रोडक्शन टू कमोरोरिकल डेटा एनालिसिस बहुत ही अप्रूवल है।
मोनिका

2
यहां जवाब देने के लिए यह बहुत व्यापक हो सकता है; जैसा कि @ user777 ने कहा, एक अच्छे पाठ से परामर्श करना क्रम में हो सकता है। एगेस्टी अच्छा है, मैं सहमत हूं। होसमेर और लेमेशो भी अच्छा है। यदि आप कुछ संक्षिप्त और मुफ्त (सेल्फ प्लग अलर्ट) चाहते हैं तो मेरा परिचय लॉजिस्टिक रिग्रेशन से हो सकता है, लेकिन यह आपकी आवश्यकताओं के लिए बहुत बुनियादी हो सकता है।
पीटर फ्लॉम - मोनिका

ठीक है, आप त्वरित जवाब के लिए धन्यवाद, मैं
एगेस्टी की

4
मुझे नहीं लगता कि यह सवाल जवाबदेह होने के लिए बहुत व्यापक है। ऐसा लगता है कि यह मूल रूप से व्याख्या-के-आरएस-एलएम-आउटपुट का लॉजिस्टिक रिग्रेशन संस्करण है , जिसे लगातार विषय पर विचार किया गया है।
गंग -

1
मैं इस पर @gung के साथ हूं, अगर सवाल यह है कि स्क्रीन पर R स्क्वर्ट की गई व्याख्या के बारे में क्या है। जहाँ अस्पष्टता है वहाँ "माध्य" से क्या तात्पर्य है? यदि ओपी को यह बताने में खुशी होती है कि गुणांक लॉग ऑड्स के पैमाने पर मूल्यों के साथ मॉडल के अनुमानित मूल्य हैं, तो यह क्यू ठीक है। यदि ओपी इससे संतुष्ट नहीं है और उसे डेटा, मॉडल आदि के संदर्भ में उनके अर्थ की व्याख्या की आवश्यकता है, तो यह एक व्यापक प्रश्न होगा जो यह दिया गया है, लेकिन यह कई प्रश्नों में से एक है।
मोनिका - जी। सिम्पसन

जवाबों:


74

आपने जो किया है वह लॉजिस्टिक रिग्रेशन है । यह मूल रूप से किसी भी सांख्यिकीय सॉफ़्टवेयर में किया जा सकता है, और आउटपुट समान होगा (कम से कम सामग्री में, यद्यपि प्रस्तुति भिन्न हो सकती है)। यूसीएलए के उत्कृष्ट सांख्यिकी मदद वेबसाइट पर आर के साथ लॉजिस्टिक प्रतिगमन के लिए एक गाइड है । यदि आप इससे अपरिचित हैं, तो यहां मेरा जवाब: लॉजिट और प्रोबेट मॉडल के बीच अंतर , आपको यह समझने में मदद कर सकता है कि एलआर क्या है (हालांकि यह एक अलग संदर्भ में लिखा गया है)।

आपको लगता है कि दो मॉडल प्रस्तुत किए गए हैं, मैं मुख्य रूप से शीर्ष पर ध्यान केंद्रित करूंगा। इसके अलावा, कॉपी करने और मॉडल या उत्पादन चिपकाने, तो मैं स्वैप जाएगा में कोई त्रुटि हुई है लगता है leaves.presenceके साथ Areaउत्पादन में यह मॉडल के साथ संगत बनाने के लिए। यहां वह मॉडल है जिसका मैं उल्लेख कर रहा हूं (ध्यान दें कि मैंने इसे जोड़ा था (link="logit"), जो इसके द्वारा निहित है family=binomial; देखें; चमक और परिवार ):

glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)

आइए इस आउटपुट के माध्यम से चलें (ध्यान दें कि मैंने दूसरी पंक्ति में चर का नाम बदल दिया है Coefficients):

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 
(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

बस के रूप में देखते हैं बच रैखिक (OLS) प्रतिगमन में, वहाँ रसद प्रतिगमन और अन्य मॉडल रैखिक सामान्यीकृत में बच गया हो सकता है। जब प्रतिक्रिया चर निरंतर नहीं होता है तो वे अधिक जटिल होते हैं। जीएलआईएम में पांच अलग-अलग प्रकार के अवशेष हो सकते हैं, लेकिन जो सूचीबद्ध मानक हैं, वे अवशिष्ट अवशिष्ट हैं। ( डीवियनस और डेविएशन अवशिष्ट अधिक उन्नत हैं, इसलिए मैं यहां संक्षिप्त हूं; यदि इस चर्चा का पालन करना थोड़ा कठिन है, तो मैं बहुत ज्यादा चिंता नहीं करूंगा, आप इसे छोड़ सकते हैं):

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

आपके मॉडल में उपयोग किए जाने वाले प्रत्येक डेटा बिंदु के लिए, उस बिंदु से जुड़े विचलन की गणना की जाती है। प्रत्येक बिंदु के लिए ऐसा करने पर, आपके पास इस तरह के अवशेषों का एक सेट है, और उपरोक्त आउटपुट उनके वितरण का केवल एक गैर-पैरामीट्रिक विवरण है।


आगे हम सहसंयोजकों के बारे में जानकारी देखते हैं, जो कि आमतौर पर लोगों में मुख्य रूप से रुचि रखते हैं:

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

AreaEstimateleaves.presenceArealeaves.presenceArea0।) अगले कॉलम में, हम इन अनुमानों से जुड़ी मानक त्रुटि देखते हैं । यही है, वे अनुमान लगाते हैं कि कितना, औसतन, ये अनुमान इधर-उधर उछलेंगे यदि अध्ययन को पहचान के साथ फिर से चलाया गया, लेकिन नए डेटा के साथ, बार-बार। (यदि आप एक मानक त्रुटि के विचार से बहुत परिचित नहीं हैं, तो यह आपको मेरा उत्तर पढ़ने में मदद कर सकता है: रैखिक प्रतिगमन में गुणांक मानक त्रुटियों की व्याख्या कैसे करें ।) यदि हम मानक त्रुटि द्वारा अनुमान को विभाजित करने के लिए थे, तो हम। एक ऐसा भागफल प्राप्त करें जिसे सामान्य रूप से बड़े पर्याप्त नमूनों के साथ वितरित किया जाए। यह मान नीचे सूचीबद्ध है z value। नीचे Pr(>|z|)दो पूंछ वाले पी-मूल्य सूचीबद्ध हैंजो सामान्य मानक वितरण में उन z- मूल्यों के अनुरूप हैं। अंत में, पारंपरिक महत्व के सितारे हैं (और गुणांक तालिका के नीचे की कुंजी पर ध्यान दें)।


Dispersionलाइन GLiMs साथ डिफ़ॉल्ट रूप से छपा है, लेकिन यहां ज्यादा जानकारी नहीं जोड़ता है (यह गिनती मॉडल, जैसे के साथ और अधिक महत्वपूर्ण है)। हम इसे अनदेखा कर सकते हैं।


अंत में, हम मॉडल और उसके फिट होने की अच्छाई के बारे में जानकारी प्राप्त करते हैं:

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

लाइन के बारे missingnessमें अक्सर, उम, लापता है। यह यहां दिखाई देंगी क्योंकि आप जिसके लिए या तो 314 टिप्पणियों था leaves.presence, Area, या दोनों लापता हैं। उन आंशिक टिप्पणियों का उपयोग मॉडल को फिट करने में नहीं किया गया था।

Residual devianceNull devianceEstimateAreaएफ

AIC फिट की अच्छाई का एक और उपाय है कि खाते में डेटा फिट करने के लिए मॉडल की क्षमता रखता है। यह दो मॉडलों की तुलना करते समय बहुत उपयोगी होता है, जहां कोई बेहतर रूप से फिट हो सकता है, लेकिन शायद अधिक लचीला होने के कारण और इस प्रकार किसी भी डेटा को फिट करने में सक्षम होता है। चूँकि आपके पास केवल एक मॉडल है, इसलिए यह एकरूप है।

Fisher scoring iterationsमॉडल का अनुमान कैसे लगाया गया था, इसका संदर्भ देना होगा । एक रेखीय मॉडल बंद फार्म समीकरणों को हल करके फिट किया जा सकता है। दुर्भाग्य से, यह लॉजिस्टिक प्रतिगमन सहित अधिकांश GLMM के साथ नहीं किया जा सकता है। इसके बजाय, एक पुनरावृत्त दृष्टिकोण ( डिफ़ॉल्ट रूप से न्यूटन-राफसन एल्गोरिथ्म ) का उपयोग किया जाता है। ढीले ढंग से, मॉडल एक अनुमान के आधार पर फिट है कि अनुमान क्या हो सकता है। इसके बाद एल्गोरिदम यह देखने के लिए चारों ओर देखता है कि क्या इसके बजाय विभिन्न अनुमानों का उपयोग करके फिट में सुधार किया जाएगा। यदि हां, तो यह उस दिशा में आगे बढ़ता है (कहते हैं, अनुमान के लिए अधिक मूल्य का उपयोग करके) और फिर मॉडल को फिर से फिट करता है। एल्गोरिथ्म बंद हो जाता है जब यह नहीं लगता है कि फिर से बढ़ने से बहुत अतिरिक्त सुधार होगा। यह लाइन आपको बताती है कि प्रक्रिया को रोकने और परिणामों को आउटपुट करने से पहले कितने पुनरावृत्तियों थे।



आपके द्वारा सूचीबद्ध दूसरे मॉडल और आउटपुट के बारे में, यह परिणामों को प्रदर्शित करने का एक अलग तरीका है। विशेष रूप से, ये

Coefficients:
(Intercept)       Areal  
-0.3877697    0.0008166

ऊपर चर्चा किए गए एक ही तरह के अनुमान हैं (एक अलग मॉडल से और कम पूरक जानकारी के साथ प्रस्तुत किए गए)।


1

कॉल : यह केवल कॉल है जिसे आपने फ़ंक्शन के लिए बनाया है। यह वही कोड होगा जो आपने आर में टाइप किया था। यह देखने के लिए मददगार हो सकता है कि आपने कोई टाइपो बनाया है।

(Deviance) अवशिष्ट: आप लॉजिस्टिक प्रतिगमन के लिए इनकी बहुत उपेक्षा कर सकते हैं। पॉइसन या रैखिक प्रतिगमन के लिए, आप चाहते हैं कि ये अधिक-या-कम सामान्य रूप से वितरित हों (जो कि शीर्ष दो नैदानिक ​​भूखंडों की जांच कर रहे हैं)। आप यह देख कर देख सकते हैं कि क्या 1Q और 3Q का पूर्ण मान एक दूसरे के करीब (ish) है, और यदि माध्यिका 0. के करीब है। इसका मतलब यह नहीं दिखाया गया है क्योंकि यह हमेशा 0. है यदि इनमें से कोई भी सुपर बंद है तो आप शायद अपने डेटा में कुछ अजीब तिरछा है। (यह आपके नैदानिक ​​भूखंडों में भी दिखाई देगा!)

गुणांक : यह आउटपुट का मांस है।

  • अवरोधन : पॉइसन और रेखीय प्रतिगमन के लिए, यह पूर्वानुमानित आउटपुट है जब हमारे सभी इनपुट 0. हैं। लॉजिस्टिक रिग्रेशन के लिए, यह मान 0 से दूर होगा। प्रत्येक कक्षा में अवलोकन की संख्या के बीच का अंतर .. मानक त्रुटि का प्रतिनिधित्व करता है। हम इस बारे में कितने अनिश्चित हैं (कम बेहतर है)। इस मामले में, क्योंकि हमारा अवरोधन 0 से दूर है और हमारी मानक त्रुटि अवरोधन की तुलना में बहुत छोटी है, हम इस बात को लेकर सुनिश्चित हो सकते हैं कि हमारी एक कक्षा (असफल या असफल नहीं हुई) इसमें बहुत अधिक अवलोकन हैं। (इस मामले में यह "विफल नहीं हुआ", शुक्र है!)

  • विभिन्न इनपुट्स (प्रत्येक इनपुट एक अलग लाइन पर होगा): यह अनुमान दर्शाता है कि हम कितना सोचते हैं कि आउटपुट हर बार हम इस इनपुट को 1 से बढ़ाएंगे। अनुमान जितना बड़ा होगा, आउटपुट पर इस इनपुट चर का प्रभाव उतना ही बड़ा होगा। मानक त्रुटि यह है कि हम इसके बारे में कितने निश्चित हैं। आमतौर पर, हमें पूरा यकीन है कि इनपुट एक सूचनात्मक है मानक त्रुटि अनुमान का 1/10 है। इसलिए इस मामले में हमें पूरा यकीन है कि इंटरसेप्ट महत्वपूर्ण है।

  • Signif। कोड : यह प्रत्येक के महत्व की एक कुंजी है: इनपुट और इंटरसेप्ट। ये केवल तभी सही होते हैं जब आप केवल एक मॉडल को अपने डेटा में फिट करते हैं। (दूसरे शब्दों में, वे प्रायोगिक डेटा के लिए बहुत अच्छे हैं, यदि आप शुरू से ही उस चर से हैं जिसमें आप रुचि रखते हैं और डेटा विश्लेषण या चयन के लिए जानकारीपूर्ण नहीं है।)

    रुको, हम सांख्यिकीय महत्व का उपयोग क्यों नहीं कर सकते हैं? आप कर सकते हैं, मैं आमतौर पर यह सिफारिश नहीं करेंगे। डेटा विज्ञान में आप अक्सर एक ही डेटासेट का उपयोग करके और सर्वश्रेष्ठ मॉडल चुनने के लिए कई मॉडल फिट कर रहे होंगे। यदि आप कभी भी एक ही डेटासेट पर सांख्यिकीय महत्व के लिए एक से अधिक परीक्षण चलाते हैं, तो आपको इसके लिए अपना पी-वैल्यू तैयार करना होगा। आप इसके बारे में इस तरह से सोच सकते हैं: यदि आप तय करते हैं कि आप पी = 0.05 से नीचे के परिणाम स्वीकार करेंगे, तो आप मूल रूप से कह रहे हैं कि आप बीस बार गलत होने के साथ ठीक हैं। यदि आप तब पांच परीक्षण करते हैं, और हर एक के लिए 1/20 मौका है कि आप गलत होंगे, तो अब आपके पास उन परीक्षणों में से कम से कम एक पर गलत होने का 1/4 मौका है ... लेकिन आप जो एक नहीं जानता। आप इसके लिए सही कर सकते हैं (पी-वैल्यू को गुणा करके आप उन परीक्षणों की संख्या से बहुत महत्वपूर्ण मानेंगे जिन्हें आप पहले से जानते हैं ) लेकिन व्यवहार में मुझे लगता है कि पी-मानों का पूरी तरह से उपयोग करने से बचना आम तौर पर आसान है।

(1 के लिए लिया गया द्विपद परिवार के लिए फैलाव पैरामीटर): आप इसे केवल पॉइसन और द्विपद (लॉजिस्टिक) प्रतिगमन के लिए देखेंगे। यह आपको बता रहा है कि मॉडल को फिट करने में मदद करने के लिए अतिरिक्त स्केलिंग पैरामीटर जोड़ा गया है। आप इसे अनदेखा कर सकते हैं।

अशक्त विचलन: अशक्त विचलन हमें बताता है कि हम केवल इंटरसेप्ट का उपयोग करके अपने आउटपुट की कितनी अच्छी भविष्यवाणी कर सकते हैं। छोटा बेहतर है।

अवशिष्ट अवमूल्यन: अवशिष्ट अवशिष्ट हमें बताता है कि हम इंटरसेप्ट और हमारे इनपुट का उपयोग करके अपने आउटपुट की कितनी अच्छी भविष्यवाणी कर सकते हैं। छोटा बेहतर है। अशक्त अवमूल्यन और अवशिष्ट अवतरण के बीच का अंतर जितना बड़ा है, उतना ही उपयोगी हमारे इनपुट चर आउटपुट चर की भविष्यवाणी करने के लिए थे।

AIC: AIC "Akaike सूचना मानदंड" है और यह इस बात का अनुमान है कि आपका मॉडल आपके डेटा में पैटर्न का कितना अच्छा वर्णन कर रहा है। यह मुख्य रूप से एक ही डेटासेट पर प्रशिक्षित मॉडल की तुलना करने के लिए उपयोग किया जाता है। यदि आपको मॉडल के बीच चयन करने की आवश्यकता है, तो निचले एआईसी के साथ मॉडल डेटा में भिन्नता का वर्णन करते हुए एक बेहतर काम कर रहा है।

फिशर स्कोरिंग पुनरावृत्तियों की संख्या: यह सिर्फ एक उपाय है कि आपको मॉडल फिट करने में कितना समय लगा। आप इसे सुरक्षित रूप से अनदेखा कर सकते हैं।

मैं इस योग को और जानने के लिए सुझाव देता हूं। https://www.kaggle.com/rtatman/regression-challenge-day-5

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.