सबसे पहले, हमें यह समझना चाहिए कि R
जब मॉडल में कोई अवरोधन शामिल नहीं है तो सॉफ्टवेयर क्या कर रहा है। याद है कि के सामान्य गणना
जब एक अवरोधन मौजूद है
पहली समानता केवल मॉडल में अवरोधन को शामिल करने के कारण होती है , हालांकि यह संभवतः इसे लिखने के दो तरीकों में से अधिक लोकप्रिय है। दूसरी समानता वास्तव में अधिक सामान्य व्याख्या प्रदान करता है! यह बिंदु इस संबंधित प्रश्न में भी संबोधित है ।आर 2 = Σ मैं ( y मैं - ˉ y ) 2R2
R2=∑i(y^i−y¯)2∑i(yi−y¯)2=1−∑i(yi−y^i)2∑i(yi−y¯)2.
लेकिन, अगर मॉडल में कोई अवरोधन नहीं है तो क्या होगा?
खैर, उस मामले में, R
( चुपचाप! ) संशोधित रूप का उपयोग करता है
R20=∑iy^2i∑iy2i=1−∑i(yi−y^i)2∑iy2i.
यह याद करने में मदद करता है कि क्या मापने की कोशिश कर रहा है। पूर्व मामले में, यह आपके वर्तमान मॉडल की तुलना संदर्भ
मॉडल से कर रहा है जिसमें केवल एक अवरोधन (यानी, स्थिर अवधि) शामिल है। दूसरे मामले में, कोई अवरोधन नहीं है, इसलिए इस तरह के मॉडल से इसकी तुलना करना थोड़ा समझ में आता है। इसलिए, इसके बजाय, की गणना की जाती है, जो केवल शोर के लिए संबंधित संदर्भ मॉडल का उपयोग करता है ।आर २ ०R2R20
नीचे दी गई बातों में, मैं और दोनों के लिए दूसरी अभिव्यक्ति पर ध्यान केंद्रित करता हूं क्योंकि यह अभिव्यक्ति अन्य संदर्भों के लिए सामान्य है और अवशिष्टों के संदर्भ में चीजों के बारे में सोचना आम तौर पर अधिक स्वाभाविक है।आर २ ०R2R20
लेकिन, वे कैसे अलग हैं, और कब?
आइए कुछ रैखिक बीजगणित में एक संक्षिप्त विषयांतर करें और देखें कि क्या हम पता लगा सकते हैं कि क्या चल रहा है। सबसे पहले, आइए इंटरसेप्ट और फिट किए गए मानों के साथ मॉडल से फिट किए गए मानों को कॉल करें इंटरसेप्ट बिना मॉडल से । y^y~
हम और लिए अभिव्यक्तियों को रूप में
फिर से लिख सकते हैं।
और
क्रमशः।R2R20
R2=1−∥y−y^∥22∥y−y¯1∥22,
R20=1−∥y−y~∥22∥y∥22,
अब, जब से , फिर अगर और केवल if
∥y∥22=∥y−y¯1∥22+ny¯2R20>R2
∥y−y~∥22∥y−y^∥22<1+y¯21n∥y−y¯1∥22.
बाएं हाथ की ओर से एक से अधिक है क्योंकि अनुरूप मॉडल भीतर है । दायीं ओर का दूसरा शब्द इंटरसेप्ट-ओनली मॉडल के माध्य वर्ग त्रुटि से विभाजित प्रतिक्रियाओं का वर्ग-माध्य है। तो, अन्य भिन्नता के सापेक्ष प्रतिक्रिया का मतलब जितना बड़ा होगा, हमारे पास उतना ही अधिक "सुस्त" होगा और हावी होने की अधिक संभावना ।y~y^R20R2
ध्यान दें कि सभी मॉडल-निर्भर सामान बाईं ओर है और गैर-मॉडल निर्भर सामान दाईं ओर है।
ठीक है, तो हम बाईं ओर के अनुपात को छोटा कैसे बनाते हैं?
याद है कि
और जहां और subspaces के लिए इसी प्रक्षेपण मैट्रिक्स हैं और ऐसी है कि ।y~=P0yy^=P1yP0P1S0S1S0⊂S1
इसलिए, अनुपात एक के करीब होने के लिए, हमें और के सबस्पेस
समान होने चाहिए। अब और कि क्या द्वारा केवल अलग , एक आधार वेक्टर या नहीं है तो इसका मतलब है कि
बेहतर एक उपस्पेस कि पहले से ही बहुत के करीब स्थित होना था ।S0S1S0S11S01
संक्षेप में, इसका मतलब है कि हमारे भविष्यवक्ता के पास अपने आप में एक बेहतर माध्य ऑफसेट होने की संभावना है और इसका अर्थ यह है कि भविष्यवक्ता की भिन्नता पर ऑफसेट का अर्थ होना चाहिए।
एक उदाहरण
यहां हम मॉडल में स्पष्ट रूप से एक अवरोधन के साथ एक उदाहरण उत्पन्न करने की कोशिश करते हैं और जो प्रश्न में मामले के करीब व्यवहार करता है। नीचे कुछ सरल R
कोड प्रदर्शित करने के लिए है।
set.seed(.Random.seed[1])
n <- 220
a <- 0.5
b <- 0.5
se <- 0.25
# Make sure x has a strong mean offset
x <- rnorm(n)/3 + a
y <- a + b*x + se*rnorm(x)
int.lm <- lm(y~x)
noint.lm <- lm(y~x+0) # Intercept be gone!
# For comparison to summary(.) output
rsq.int <- cor(y,x)^2
rsq.noint <- 1-mean((y-noint.lm$fit)^2) / mean(y^2)
यह निम्न आउटपुट देता है। हम इंटरसेप्ट के साथ मॉडल से शुरू करते हैं ।
# Include an intercept!
> summary(int.lm)
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-0.656010 -0.161556 -0.005112 0.178008 0.621790
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.48521 0.02990 16.23 <2e-16 ***
x 0.54239 0.04929 11.00 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.2467 on 218 degrees of freedom
Multiple R-squared: 0.3571, Adjusted R-squared: 0.3541
F-statistic: 121.1 on 1 and 218 DF, p-value: < 2.2e-16
फिर, देखें कि जब हम अवरोधन को बाहर करते हैं तो क्या होता है ।
# No intercept!
> summary(noint.lm)
Call:
lm(formula = y ~ x + 0)
Residuals:
Min 1Q Median 3Q Max
-0.62108 -0.08006 0.16295 0.38258 1.02485
Coefficients:
Estimate Std. Error t value Pr(>|t|)
x 1.20712 0.04066 29.69 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3658 on 219 degrees of freedom
Multiple R-squared: 0.801, Adjusted R-squared: 0.8001
F-statistic: 881.5 on 1 and 219 DF, p-value: < 2.2e-16
नीचे लाल रंग में मॉडल-इन-इंटरसेप्ट और नीले रंग में मॉडल-बिना-इंटरसेप्ट के साथ डेटा का एक प्लॉट है।