मैं इसे समझने का मतलब है कि मॉडल व्यक्तिगत डेटा बिंदुओं की भविष्यवाणी करने में खराब है, लेकिन एक दृढ़ प्रवृत्ति स्थापित की है (जैसे कि जब एक्स ऊपर जाता है तो y ऊपर जाता है)।
मैं इसे समझने का मतलब है कि मॉडल व्यक्तिगत डेटा बिंदुओं की भविष्यवाणी करने में खराब है, लेकिन एक दृढ़ प्रवृत्ति स्थापित की है (जैसे कि जब एक्स ऊपर जाता है तो y ऊपर जाता है)।
जवाबों:
इसका मतलब है कि आप डेटा में विचरण के एक छोटे हिस्से की व्याख्या कर सकते हैं। उदाहरण के लिए, आप यह स्थापित कर सकते हैं कि एक कॉलेज की डिग्री वेतन को प्रभावित करती है, लेकिन साथ ही यह सिर्फ एक छोटा कारक है। कई अन्य कारक हैं जो आपके वेतन को प्रभावित करते हैं, और कॉलेज की डिग्री का योगदान बहुत कम है, लेकिन पता लगाने योग्य है।
व्यावहारिक रूप में इसका मतलब यह हो सकता है कि औसतन कॉलेज की डिग्री में प्रति वर्ष $ 500 की वृद्धि होती है , जबकि लोगों के वेतन का मानक विचलन $ 10K है। इसलिए, कई कॉलेज के शिक्षित लोगों को गैर-शिक्षितों की तुलना में कम वेतन मिलता है, और भविष्यवाणी के लिए आपके मॉडल का मूल्य कम है।
इसका अर्थ है "इर्रिड्यूबल त्रुटि अधिक है", अर्थात, सबसे अच्छी चीज जो हम कर सकते हैं (रैखिक मॉडल के साथ) सीमित है। उदाहरण के लिए, निम्न डेटा सेट:
data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)
ध्यान दें, इस डेटा सेट की चाल यह है कि एक मान दिया गया है , कई अलग-अलग y मान हैं, कि हम उन सभी को संतुष्ट करने के लिए एक अच्छी भविष्यवाणी नहीं कर सकते हैं। इसी समय, एक्स और वाई के बीच "मजबूत" रैखिक संबंध हैं । यदि हम एक रैखिक मॉडल फिट करते हैं, तो हम महत्वपूर्ण गुणांक प्राप्त करेंगे, लेकिन कम आर चुकता।
fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)
Call:
lm(formula = data[, 2] ~ data[, 1])
Residuals:
Min 1Q Median 3Q Max
-203.331 -59.647 -1.252 68.103 195.669
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 123.910 8.428 14.70 <2e-16 ***
data[, 1] 80.421 4.858 16.56 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared: 0.2814, Adjusted R-squared: 0.2804
F-statistic: 274.1 on 1 and 700 DF, p-value: < 2.2e-16
एक रेखीय प्रतिगमन के लिए सांख्यिकीय रूप से महत्वपूर्ण होने का क्या मतलब है लेकिन बहुत कम आर वर्ग है?
इसका अर्थ है कि स्वतंत्र और आश्रित चर के बीच एक रैखिक संबंध है, लेकिन यह संबंध शायद बात करने लायक नहीं है।
रिश्ते की सार्थकता, हालांकि, आप जो परीक्षा दे रहे हैं, उस पर बहुत अधिक निर्भर हैं, लेकिन आम तौर पर, आप इसका अर्थ यह मान सकते हैं कि सांख्यिकीय महत्व को प्रासंगिकता के साथ भ्रमित नहीं होना चाहिए।
एक बड़े पर्याप्त नमूने के आकार के साथ, यहां तक कि रिश्तों के सबसे तुच्छ को सांख्यिकीय रूप से महत्वपूर्ण पाया जा सकता है।
इसका एक और तरीका यह है कि इसका मतलब है कि आप आत्मविश्वास से जनसंख्या स्तर पर बदलाव का अनुमान लगा सकते हैं लेकिन व्यक्तिगत स्तर पर नहीं। यानी व्यक्तिगत डेटा में एक उच्च विचरण होता है, लेकिन जब एक बड़े पर्याप्त नमूने का उपयोग किया जाता है, तो एक अंतर्निहित प्रभाव समग्र रूप से देखा जा सकता है। यह एक कारण है कि कुछ सरकारी स्वास्थ्य सलाह व्यक्ति के लिए हानिकारक है। सरकारों को कुछ समय के लिए कार्य करने की आवश्यकता महसूस होती है क्योंकि वे देख सकते हैं कि कुछ गतिविधियों में से अधिकांश जनसंख्या में अधिक मौतें होती हैं। वे सलाह या एक नीति का निर्माण करते हैं जो इन जीवन को 'बचाता' है। हालांकि, व्यक्तिगत प्रतिक्रियाओं में उच्च विचरण के कारण, किसी व्यक्ति को व्यक्तिगत रूप से किसी भी लाभ को देखने की संभावना बहुत कम हो सकती है (या, विशेष रूप से विशिष्ट आनुवंशिक स्थितियों के कारण, अपने स्वयं के स्वास्थ्य को वास्तव में विपरीत सलाह का पालन करने से सुधार होगा) लेकिन यह जनसंख्या एकत्रीकरण में छिपा हुआ है)। यदि किसी व्यक्ति को 'अस्वास्थ्यकर' गतिविधि से लाभ (जैसे आनंद) प्राप्त होता है, तो सलाह का पालन करने का मतलब यह हो सकता है कि वे अपने पूरे जीवनकाल में इस निश्चित सुख से गुजरते हैं, फिर भी वास्तव में व्यक्तिगत रूप से नहीं बदलता है कि वे इस स्थिति से पीड़ित होंगे या नहीं।