आपने जो किया है वह लॉजिस्टिक रिग्रेशन है । यह मूल रूप से किसी भी सांख्यिकीय सॉफ़्टवेयर में किया जा सकता है, और आउटपुट समान होगा (कम से कम सामग्री में, यद्यपि प्रस्तुति भिन्न हो सकती है)। यूसीएलए के उत्कृष्ट सांख्यिकी मदद वेबसाइट पर आर के साथ लॉजिस्टिक प्रतिगमन के लिए एक गाइड है । यदि आप इससे अपरिचित हैं, तो यहां मेरा जवाब: लॉजिट और प्रोबेट मॉडल के बीच अंतर , आपको यह समझने में मदद कर सकता है कि एलआर क्या है (हालांकि यह एक अलग संदर्भ में लिखा गया है)।
आपको लगता है कि दो मॉडल प्रस्तुत किए गए हैं, मैं मुख्य रूप से शीर्ष पर ध्यान केंद्रित करूंगा। इसके अलावा, कॉपी करने और मॉडल या उत्पादन चिपकाने, तो मैं स्वैप जाएगा में कोई त्रुटि हुई है लगता है leaves.presence
के साथ Area
उत्पादन में यह मॉडल के साथ संगत बनाने के लिए। यहां वह मॉडल है जिसका मैं उल्लेख कर रहा हूं (ध्यान दें कि मैंने इसे जोड़ा था (link="logit")
, जो इसके द्वारा निहित है family=binomial
; देखें; चमक और परिवार ):
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
आइए इस आउटपुट के माध्यम से चलें (ध्यान दें कि मैंने दूसरी पंक्ति में चर का नाम बदल दिया है Coefficients
):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
बस के रूप में देखते हैं बच रैखिक (OLS) प्रतिगमन में, वहाँ रसद प्रतिगमन और अन्य मॉडल रैखिक सामान्यीकृत में बच गया हो सकता है। जब प्रतिक्रिया चर निरंतर नहीं होता है तो वे अधिक जटिल होते हैं। जीएलआईएम में पांच अलग-अलग प्रकार के अवशेष हो सकते हैं, लेकिन जो सूचीबद्ध मानक हैं, वे अवशिष्ट अवशिष्ट हैं। ( डीवियनस और डेविएशन अवशिष्ट अधिक उन्नत हैं, इसलिए मैं यहां संक्षिप्त हूं; यदि इस चर्चा का पालन करना थोड़ा कठिन है, तो मैं बहुत ज्यादा चिंता नहीं करूंगा, आप इसे छोड़ सकते हैं):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
आपके मॉडल में उपयोग किए जाने वाले प्रत्येक डेटा बिंदु के लिए, उस बिंदु से जुड़े विचलन की गणना की जाती है। प्रत्येक बिंदु के लिए ऐसा करने पर, आपके पास इस तरह के अवशेषों का एक सेट है, और उपरोक्त आउटपुट उनके वितरण का केवल एक गैर-पैरामीट्रिक विवरण है।
आगे हम सहसंयोजकों के बारे में जानकारी देखते हैं, जो कि आमतौर पर लोगों में मुख्य रूप से रुचि रखते हैं:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Area
Estimate
leaves.presence
Area
leaves.presence
Area
0।) अगले कॉलम में, हम इन अनुमानों से जुड़ी मानक त्रुटि देखते हैं । यही है, वे अनुमान लगाते हैं कि कितना, औसतन, ये अनुमान इधर-उधर उछलेंगे यदि अध्ययन को पहचान के साथ फिर से चलाया गया, लेकिन नए डेटा के साथ, बार-बार। (यदि आप एक मानक त्रुटि के विचार से बहुत परिचित नहीं हैं, तो यह आपको मेरा उत्तर पढ़ने में मदद कर सकता है: रैखिक प्रतिगमन में गुणांक मानक त्रुटियों की व्याख्या कैसे करें ।) यदि हम मानक त्रुटि द्वारा अनुमान को विभाजित करने के लिए थे, तो हम। एक ऐसा भागफल प्राप्त करें जिसे सामान्य रूप से बड़े पर्याप्त नमूनों के साथ वितरित किया जाए। यह मान नीचे सूचीबद्ध है z value
। नीचे Pr(>|z|)
दो पूंछ वाले पी-मूल्य सूचीबद्ध हैंजो सामान्य मानक वितरण में उन z- मूल्यों के अनुरूप हैं। अंत में, पारंपरिक महत्व के सितारे हैं (और गुणांक तालिका के नीचे की कुंजी पर ध्यान दें)।
Dispersion
लाइन GLiMs साथ डिफ़ॉल्ट रूप से छपा है, लेकिन यहां ज्यादा जानकारी नहीं जोड़ता है (यह गिनती मॉडल, जैसे के साथ और अधिक महत्वपूर्ण है)। हम इसे अनदेखा कर सकते हैं।
अंत में, हम मॉडल और उसके फिट होने की अच्छाई के बारे में जानकारी प्राप्त करते हैं:
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
लाइन के बारे missingness
में अक्सर, उम, लापता है। यह यहां दिखाई देंगी क्योंकि आप जिसके लिए या तो 314 टिप्पणियों था leaves.presence
, Area
, या दोनों लापता हैं। उन आंशिक टिप्पणियों का उपयोग मॉडल को फिट करने में नहीं किया गया था।
Residual deviance
Null deviance
Estimate
Area
एफ
AIC फिट की अच्छाई का एक और उपाय है कि खाते में डेटा फिट करने के लिए मॉडल की क्षमता रखता है। यह दो मॉडलों की तुलना करते समय बहुत उपयोगी होता है, जहां कोई बेहतर रूप से फिट हो सकता है, लेकिन शायद अधिक लचीला होने के कारण और इस प्रकार किसी भी डेटा को फिट करने में सक्षम होता है। चूँकि आपके पास केवल एक मॉडल है, इसलिए यह एकरूप है।
Fisher scoring iterations
मॉडल का अनुमान कैसे लगाया गया था, इसका संदर्भ देना होगा । एक रेखीय मॉडल बंद फार्म समीकरणों को हल करके फिट किया जा सकता है। दुर्भाग्य से, यह लॉजिस्टिक प्रतिगमन सहित अधिकांश GLMM के साथ नहीं किया जा सकता है। इसके बजाय, एक पुनरावृत्त दृष्टिकोण ( डिफ़ॉल्ट रूप से न्यूटन-राफसन एल्गोरिथ्म ) का उपयोग किया जाता है। ढीले ढंग से, मॉडल एक अनुमान के आधार पर फिट है कि अनुमान क्या हो सकता है। इसके बाद एल्गोरिदम यह देखने के लिए चारों ओर देखता है कि क्या इसके बजाय विभिन्न अनुमानों का उपयोग करके फिट में सुधार किया जाएगा। यदि हां, तो यह उस दिशा में आगे बढ़ता है (कहते हैं, अनुमान के लिए अधिक मूल्य का उपयोग करके) और फिर मॉडल को फिर से फिट करता है। एल्गोरिथ्म बंद हो जाता है जब यह नहीं लगता है कि फिर से बढ़ने से बहुत अतिरिक्त सुधार होगा। यह लाइन आपको बताती है कि प्रक्रिया को रोकने और परिणामों को आउटपुट करने से पहले कितने पुनरावृत्तियों थे।
आपके द्वारा सूचीबद्ध दूसरे मॉडल और आउटपुट के बारे में, यह परिणामों को प्रदर्शित करने का एक अलग तरीका है। विशेष रूप से, ये
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
ऊपर चर्चा किए गए एक ही तरह के अनुमान हैं (एक अलग मॉडल से और कम पूरक जानकारी के साथ प्रस्तुत किए गए)।