आर के एलएम () आउटपुट की व्याख्या


234

R में मदद पृष्ठ मान लेते हैं कि मुझे पता है कि उन संख्याओं का क्या मतलब है, लेकिन मैं नहीं। मैं यहाँ हर नंबर को वास्तव में सहजता से समझने की कोशिश कर रहा हूँ। मैं सिर्फ आउटपुट पोस्ट करूंगा और जो मुझे पता चला है उस पर टिप्पणी करूंगा। हो सकता है कि (गलतियाँ) गलतियाँ हों, जैसा मैं लिखता हूँ वैसा ही मानूँगा। मुख्य रूप से मैं जानना चाहूंगा कि गुणांक में टी-मान का क्या अर्थ है, और वे अवशिष्ट मानक त्रुटि क्यों प्रिंट करते हैं।

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

यह अवशिष्टों का 5-बिंदु-सारांश है (उनका मतलब हमेशा 0, सही है?)। संख्याओं का उपयोग किया जा सकता है (मैं यहां अनुमान लगा रहा हूं) जल्दी से यह देखने के लिए कि क्या कोई बड़ा आउटलेयर है। इसके अलावा आप पहले से ही इसे यहाँ देख सकते हैं यदि अवशेष सामान्य रूप से वितरित किए गए हैं (उन्हें सामान्य रूप से वितरित किया जाना चाहिए)।

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

अनुमान है कि कम से कम वर्ग प्रतिगमन द्वारा गणना की गई । साथ ही, मानक त्रुटि । मैं जानना चाहता हूं कि इसकी गणना कैसे की जाती है। मुझे पता नहीं है कि टी-वैल्यू और संबंधित पी-वैल्यू कहां से आते हैं। मुझे पता है कि को सामान्य वितरित किया जाना चाहिए, लेकिन टी-मूल्य की गणना कैसे की जाती है?βi^σβiβ^

Residual standard error: 0.407 on 148 degrees of freedom

1npϵTϵमुझे लगता है कि । लेकिन हम इसकी गणना क्यों करते हैं, और यह हमें क्या बताता है?

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

R2=sy^2sy2 , जो । यदि अंक एक सीधी रेखा पर हो, और 0 यदि वे यादृच्छिक हैं, तो अनुपात 1 के करीब है। समायोजित आर-वर्ग क्या है?i=1n(yi^y¯)2i=1n(yiy¯)2

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

पूरे मॉडल के लिए एफ और पी , न केवल पिछले के रूप में सिंगल लिए । F मान । यह जितना बड़ा होता है, उतना ही अधिक संभावना नहीं है कि का कोई प्रभाव नहीं पड़ता है।βisy^2ϵiβ


अवशिष्ट सामान्यता से इतनी बुरी तरह से विचलित नहीं होते हैं, आप ऐसा क्यों सोचते हैं?
निको

@ निको: मुझे लगता है कि @Alexx हार्ड्ट काल्पनिक रूप से बोल रहा था। Ie एक बार पाँच नंबर सारांश का उपयोग कर सकता है यह देखने के लिए कि क्या अवशेष सामान्य से भटक रहे थे
गाविन सिम्पसन

@ गेविन सिम्पसन: आप सही कह रहे हैं, मैंने वाक्य को गलत बताया है। मेरी पिछली टिप्पणी की अवहेलना करें।
निको

9
लघु वक्रोक्ति: आप अकेले उन 5 मात्राओं के आधार पर सामान्यता या गैर-सामान्यता के बारे में कुछ नहीं कह सकते। आप सभी उस सारांश के आधार पर कह सकते हैं कि क्या अनुमानित अवशेष शून्य के आसपास लगभग सममित हैं। आप अनुमानित अवशिष्ट मानक त्रुटि द्वारा रिपोर्ट की गई मात्राओं को विभाजित कर सकते हैं और इन मूल्यों की तुलना एन (0,1) के संबंधित मात्राओं से कर सकते हैं, लेकिन क्यूक्यू-प्लॉट को देखना शायद अधिक समझ में आता है।
फैबियों

5
मॉडल: एक टिप्पणी यहाँ नहीं है , बल्कि यह है । को नीचे दिए गए उत्तर में सही ढंग से वर्णित किया गया है, लेकिन यह स्पष्ट रूप से उल्लेख नहीं करता है कि यह प्रश्न में गलत है, इसलिए कोई व्यक्ति विसंगति को नोटिस नहीं कर सकता है। FSSmodel/SSerrorMSmodel/MSerrorF
गंग

जवाबों:


202

पाँच बिंदु सारांश

हां, वितरण का त्वरित सारांश देने का विचार है। यह माध्य के बारे में मोटे तौर पर सममित होना चाहिए, मंझला 0 के करीब होना चाहिए, 1Q और 3Q मान आदर्श रूप से लगभग समान मान होना चाहिए।

गुणांक औरβi^s

मॉडल में प्रत्येक गुणांक एक गाऊसी (सामान्य) यादृच्छिक चर है। कि यादृच्छिक चर के वितरण के माध्य का अनुमान है, और मानक त्रुटि है कि वितरण के प्रसरण का वर्गमूल है। यह के अनुमान में अनिश्चितता का एक उपाय है ।βi^βi^

आप देख सकते हैं कि विकिपीडिया पर इनकी गणना कैसे की जाती है (अच्छी तरह से प्रयुक्त गणितीय सूत्र) । ध्यान दें कि कोई भी स्वाभिमानी गणना करने के लिए मानक गणितीय समीकरणों का उपयोग नहीं करेगा क्योंकि कंप्यूटर पर उन्हें करने से कम्प्यूटेशंस में परिशुद्धता का एक बड़ा नुकसान हो सकता है।βi^

t -statistics

आंकड़े अनुमानित हैं ( ) उनके मानक त्रुटियों से विभाजित ( ), जैसे। यह मानते हुए कि आपके Q के समान ही मॉडल है :tβi^σi^ti=βi^σi^mod

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

तब मान आर रिपोर्ट की गणना की जाती है:t

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

कहाँ coef(mod)हैं , और (मॉडल मापदंडों के सहप्रसरण मैट्रिक्स की विकर्ण तत्व है, जो मानकों के मानक त्रुटियाँ हैं के वर्ग जड़ों देता हैβi^sqrt(diag(vcov(mod)))σi^ )।

|t|H0H0βi=0tstats

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

ttttt

अवशिष्ट मानक त्रुटि

σσσσ2

R2

R2

1(1R2)n1np1

R2R2R2R2R2

F

FSSR/SSEanova()

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Fsummary(mod)Mean Sq3.7945/0.1656=22.91FFF=tPetal.Width2, जिसके कारण p- मान समान हैं। यह समानता केवल इस साधारण मामले में है।


5
@Gavin (+1) बढ़िया चित्रों के साथ शानदार प्रतिक्रिया!
chl

2
अच्छी नौकरी। टी मूल्यों की गणना के संबंध में एक बात जो आप स्पष्ट कर सकते हैं: sqrt (डायग (vcov (mod))) अनुमानों के SE का उत्पादन करती है। ये वही एसई हैं जो मॉडल सारांश में आउटपुट हैं। आसान और स्पष्ट कहने के लिए कि t = अनुमान / अनुमान। इस मायने में यह अलग नहीं है कि कोई अन्य टी मूल्य।
ब्रेट

2
Ft2

2
@Jay; धन्यवाद। मैंने उस समानता का भी उल्लेख करने के बारे में सोचा। यकीन नहीं था कि यह बहुत अधिक विस्तार था या नहीं? मैं एक मो पर इस पर कुछ विज्ञापन करेंगे।
गैविन सिम्पसन

2
"गणना करने के लिए मानक गणितीय समीकरणों का उपयोग नहीं करेंगे" वे क्या उपयोग करेंगे?
लघुशंका

0

रोनेन इज़राइल और एड्रिएन रॉस (AQR) ने इस विषय पर एक बहुत अच्छा पेपर लिखा है: मापने वाले कारक एक्सपोज़र: उपयोग और दुरुपयोग

संक्षेप में (देखें: पी। 8),

  • R2
  • जब टी-स्टेटिस्टिक दो से अधिक होता है, तो हम 95% आत्मविश्वास (या 5% मौका हम गलत हैं) के साथ कह सकते हैं कि बीटा अनुमान शून्य से सांख्यिकीय रूप से भिन्न है। दूसरे शब्दों में, हम कह सकते हैं कि एक पोर्टफोलियो में एक कारक के लिए महत्वपूर्ण जोखिम है।

आर का lm()सारांश पी-मूल्य की गणना करता है Pr(>|t|)। पी-मान जितना छोटा होता है, कारक उतना ही महत्वपूर्ण होता है। पी-मूल्य = 0.05 एक उचित सीमा है।


6
इस पेपर में गलत प्रकार के उदाहरण, "जब टी-स्टेटिस्टिक दो से अधिक हो, तो हम कह सकते हैं (के साथ ... 5% मौका हम गलत हैं) कि बीटा अनुमान शून्य से सांख्यिकीय रूप से अलग है" [पी पर । 11], पर चर्चा कर रहे हैं stats.stackexchange.com/questions/311763 और stats.stackexchange.com/questions/26450
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.