एक रेखीय प्रतिगमन के लिए सांख्यिकीय रूप से महत्वपूर्ण होने का क्या मतलब है लेकिन बहुत कम आर वर्ग है?


14

मैं इसे समझने का मतलब है कि मॉडल व्यक्तिगत डेटा बिंदुओं की भविष्यवाणी करने में खराब है, लेकिन एक दृढ़ प्रवृत्ति स्थापित की है (जैसे कि जब एक्स ऊपर जाता है तो y ऊपर जाता है)।


9
यह एक बहुत बड़े नमूने के आकार का सुझाव दे सकता है
हेनरी

2
आर-स्क्वेर में कुछ सामान है। आंकड़े.stackexchange.com/questions/13314/…
EngrStudent - मोनिका

जवाबों:


27

इसका मतलब है कि आप डेटा में विचरण के एक छोटे हिस्से की व्याख्या कर सकते हैं। उदाहरण के लिए, आप यह स्थापित कर सकते हैं कि एक कॉलेज की डिग्री वेतन को प्रभावित करती है, लेकिन साथ ही यह सिर्फ एक छोटा कारक है। कई अन्य कारक हैं जो आपके वेतन को प्रभावित करते हैं, और कॉलेज की डिग्री का योगदान बहुत कम है, लेकिन पता लगाने योग्य है।

व्यावहारिक रूप में इसका मतलब यह हो सकता है कि औसतन कॉलेज की डिग्री में प्रति वर्ष $ 500 की वृद्धि होती है , जबकि लोगों के वेतन का मानक विचलन $ 10K है। इसलिए, कई कॉलेज के शिक्षित लोगों को गैर-शिक्षितों की तुलना में कम वेतन मिलता है, और भविष्यवाणी के लिए आपके मॉडल का मूल्य कम है।


11

इसका अर्थ है "इर्रिड्यूबल त्रुटि अधिक है", अर्थात, सबसे अच्छी चीज जो हम कर सकते हैं (रैखिक मॉडल के साथ) सीमित है। उदाहरण के लिए, निम्न डेटा सेट:

data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)

ध्यान दें, इस डेटा सेट की चाल यह है कि एक मान दिया गया है , कई अलग-अलग y मान हैं, कि हम उन सभी को संतुष्ट करने के लिए एक अच्छी भविष्यवाणी नहीं कर सकते हैं। इसी समय, एक्स और वाई के बीच "मजबूत" रैखिक संबंध हैं । यदि हम एक रैखिक मॉडल फिट करते हैं, तो हम महत्वपूर्ण गुणांक प्राप्त करेंगे, लेकिन कम आर चुकता।xyxy

fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)

Call:
lm(formula = data[, 2] ~ data[, 1])

Residuals:
     Min       1Q   Median       3Q      Max 
-203.331  -59.647   -1.252   68.103  195.669 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  123.910      8.428   14.70   <2e-16 ***
data[, 1]     80.421      4.858   16.56   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared:  0.2814,    Adjusted R-squared:  0.2804 
F-statistic: 274.1 on 1 and 700 DF,  p-value: < 2.2e-16

यहाँ छवि विवरण दर्ज करें


4

यह साबित करने के लिए एक सरल तरीके से (थोड़ा सा निरीक्षण) करें कि कोई चीज महत्वपूर्ण है जिसे आपको एक मजबूत प्रभाव और / या बहुत अधिक डेटा की आवश्यकता है। एक छोटे से प्रभाव (छोटे) के मामले में भी आपको सांख्यिकीय रूप से महत्वपूर्ण रैखिक प्रतिगमन मिल सकता हैR2


3

एक रेखीय प्रतिगमन के लिए सांख्यिकीय रूप से महत्वपूर्ण होने का क्या मतलब है लेकिन बहुत कम आर वर्ग है?

इसका अर्थ है कि स्वतंत्र और आश्रित चर के बीच एक रैखिक संबंध है, लेकिन यह संबंध शायद बात करने लायक नहीं है।

रिश्ते की सार्थकता, हालांकि, आप जो परीक्षा दे रहे हैं, उस पर बहुत अधिक निर्भर हैं, लेकिन आम तौर पर, आप इसका अर्थ यह मान सकते हैं कि सांख्यिकीय महत्व को प्रासंगिकता के साथ भ्रमित नहीं होना चाहिए।

एक बड़े पर्याप्त नमूने के आकार के साथ, यहां तक ​​कि रिश्तों के सबसे तुच्छ को सांख्यिकीय रूप से महत्वपूर्ण पाया जा सकता है।


1
वास्तव में रैखिक प्रतिगमन का अर्थ है मापदंडों में रैखिक। कच्चे निर्भर चर को रूपांतरित किया जा सकता है और आपके पास अभी भी एक रेखीय प्रतिगमन है। मैं थोड़ा सा हैरान हूं कि आप क्या सोचते हैं कि सांख्यिकीय महत्व क्या है। मेरे लिए इसका मतलब यह है कि पैरामीटर का अनुमान बड़ा है।
माइकल आर। चेरिक

^ महत्व इस संभावना को संदर्भित करता है कि परिणाम विशुद्ध रूप से संयोग से थे और भविष्यवक्ताओं और आश्रित चर के बीच कोई संबंध नहीं है। यदि आपके पास एक छोटा नमूना आकार है और परिणाम महत्वपूर्ण हैं, तो हाँ, पैरामीटर का अनुमान बड़ा होगा। हालाँकि, एक बड़े पैमाने पर नमूने के साथ, आप बहुत छोटे पैरामीटर अनुमान के साथ भी महत्वपूर्ण परिणाम प्राप्त कर सकते हैं। इसे यहाँ आज़माएँ
faustus

आप जो कहते हैं वह सामान्य विवरण की तरह लगता है कि किस बारे में निष्कर्ष है। लेकिन सांख्यिकीय महत्व एक विशिष्ट शब्द है जिसका एक महत्वपूर्ण मूल्य (ओं) से अधिक होना है, जहां महत्वपूर्ण मूल्य एक विशेष महत्व के स्तर पर निर्भर करता है जो विश्लेषक चुनता है (जैसे 0.05। 0.01 आदि)। नमूना आकार एक और कारक है। प्रतिगमन में आप कई परिकल्पनाओं का परीक्षण कर रहे हैं (व्यक्तिगत प्रतिगमन गुणांक का महत्व और साथ ही परीक्षण जो कि कोई संबंध नहीं है। यह
स्टेपवाइज

1
सांख्यिकी भाग विज्ञान और भाग कला है लेकिन यह गणितीय सिद्धांतों पर आधारित है।
माइकल आर। चेरिक

2
@MichaelChernik क्या आप थोड़ा विस्तार कर सकते हैं? मैं फ़ॉस्टस से सहमत हूं (वास्तव में मैं एक समान उत्तर देने के लिए हुआ था) और मैं आपकी बात समझने में असफल रहा। रेखीय प्रतिगमन में, महत्व ((चाहे व्यक्तिगत प्रतिगमन गुणांक या संपूर्ण प्रतिगमन का महत्व) बिना किसी संबंध के परिकल्पना के खिलाफ परीक्षण किया जाता है (ठीक 0 पर गुणांक)। पर्याप्त डेटा के साथ आप यह कहने में सक्षम हो सकते हैं कि गुणांक nonzero, अभी तक बहुत हैं। छोटा (जारी है)
लुका सिटी

2

इसका एक और तरीका यह है कि इसका मतलब है कि आप आत्मविश्वास से जनसंख्या स्तर पर बदलाव का अनुमान लगा सकते हैं लेकिन व्यक्तिगत स्तर पर नहीं। यानी व्यक्तिगत डेटा में एक उच्च विचरण होता है, लेकिन जब एक बड़े पर्याप्त नमूने का उपयोग किया जाता है, तो एक अंतर्निहित प्रभाव समग्र रूप से देखा जा सकता है। यह एक कारण है कि कुछ सरकारी स्वास्थ्य सलाह व्यक्ति के लिए हानिकारक है। सरकारों को कुछ समय के लिए कार्य करने की आवश्यकता महसूस होती है क्योंकि वे देख सकते हैं कि कुछ गतिविधियों में से अधिकांश जनसंख्या में अधिक मौतें होती हैं। वे सलाह या एक नीति का निर्माण करते हैं जो इन जीवन को 'बचाता' है। हालांकि, व्यक्तिगत प्रतिक्रियाओं में उच्च विचरण के कारण, किसी व्यक्ति को व्यक्तिगत रूप से किसी भी लाभ को देखने की संभावना बहुत कम हो सकती है (या, विशेष रूप से विशिष्ट आनुवंशिक स्थितियों के कारण, अपने स्वयं के स्वास्थ्य को वास्तव में विपरीत सलाह का पालन करने से सुधार होगा) लेकिन यह जनसंख्या एकत्रीकरण में छिपा हुआ है)। यदि किसी व्यक्ति को 'अस्वास्थ्यकर' गतिविधि से लाभ (जैसे आनंद) प्राप्त होता है, तो सलाह का पालन करने का मतलब यह हो सकता है कि वे अपने पूरे जीवनकाल में इस निश्चित सुख से गुजरते हैं, फिर भी वास्तव में व्यक्तिगत रूप से नहीं बदलता है कि वे इस स्थिति से पीड़ित होंगे या नहीं।


बहुत अच्छा उदाहरण!
kjetil b halvorsen

R2
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.