सरल रेखीय प्रतिगमन आउटपुट व्याख्या


20

यदि वे सहसंबंधी हैं, तो यह निर्धारित करने के लिए मैंने 2 चर के प्राकृतिक लॉग का एक सरल रैखिक प्रतिगमन चलाया है। मेरा आउटपुट यह है:

R^2 = 0.0893

slope = 0.851

p < 0.001

मैं उलझन में हूं। मान को देखते हुए , मैं कहूंगा कि दो चर परस्पर संबंधित नहीं हैं, क्योंकि यह करीब है । हालांकि, प्रतिगमन रेखा का ढलान लगभग (यह देखने के बावजूद कि यह भूखंड में लगभग क्षैतिज है), और पी-मूल्य इंगित करता है कि प्रतिगमन अत्यधिक महत्वपूर्ण है।R201

इस कि दो चर मतलब है कर रहे हैं अत्यधिक सहसंबद्ध? यदि हां, तो मान क्या दर्शाता है?R2

मुझे यह जोड़ना चाहिए कि मेरे सॉफ्टवेयर में डर्बिन-वाटसन सांख्यिकी का परीक्षण किया गया था, और अशक्त परिकल्पना को खारिज नहीं किया (यह बराबर था )। मैंने सोचा था कि यह चर के बीच स्वतंत्रता के लिए परीक्षण किया गया था । इस मामले में, मैं चर पर निर्भर होने की उम्मीद करूंगा, क्योंकि वे एक व्यक्तिगत पक्षी के माप हैं । मैं एक व्यक्ति के शरीर की स्थिति का निर्धारण करने के लिए एक प्रकाशित विधि के हिस्से के रूप में यह प्रतिगमन कर रहा हूं, इसलिए मैंने यह माना कि इस तरह से बनाए गए अर्थ में एक प्रतिगमन का उपयोग करना। हालाँकि, इन आउटपुट को देखते हुए, मैं सोच रहा हूँ कि शायद इन पक्षियों के लिए, यह विधि उपयुक्त नहीं है। क्या यह उचित निष्कर्ष लगता है?1.35722


1
Durbin-वाटसन आंकड़ा जो है, यह देखने के लिए: धारावाहिक सहसंबंध लिए एक परीक्षण है आसन्न त्रुटि शर्तों परस्पर सहसंबंध हैं। यह आपके एक्स और आपके वाई के बीच संबंध के बारे में कुछ नहीं कहता है! परीक्षण को विफल करना एक संकेत है कि ढलान और पी-मूल्य की सावधानी से व्याख्या की जानी चाहिए।
व्हिबर

आह अच्छा। इससे थोड़ा अधिक समझ में आता है कि क्या दो चर खुद सहसंबद्ध हैं ... आखिरकार, मैंने सोचा कि मैं क्या प्रतिगमन का उपयोग करने की कोशिश कर रहा था। और यह कि परीक्षण में विफल होना इंगित करता है कि मुझे ढलान की व्याख्या करने में सावधानी बरतनी चाहिए और पी-मूल्य इस मामले में और भी अधिक समझ में आता है! धन्यवाद @whuber!
मोग

1
मैं बस एक ढलान जोड़ना चाहूंगा बहुत महत्वपूर्ण हो सकता है (पी-मूल्य <.001) भले ही संबंध कमजोर हो, विशेष रूप से एक बड़े नमूना आकार के साथ। यह अधिकांश उत्तरों में संकेत दिया गया था कि ढलान (भले ही यह महत्वपूर्ण हो) रिश्ते की ताकत के बारे में कुछ नहीं कहता है।
ग्लेन

रिश्ते की मजबूती को निर्धारित करने के लिए आपको की आवश्यकता है । यह भी देखें stats.stackexchange.com/a/265924/99274n
कार्ल

जवाबों:


22

ढलान का अनुमानित मूल्य, खुद से नहीं, आपको रिश्ते की ताकत बताता है। रिश्ते की ताकत त्रुटि विचरण के आकार और भविष्यवक्ता की सीमा पर निर्भर करती है। इसके अलावा, एक महत्वपूर्ण -value आप जरूरी नहीं बताता है एक मजबूत संबंध है कि वहाँ; पी -value बस परीक्षण कर रहा है कि क्या वास्तव में ढलान 0. एक पर्याप्त रूप से बड़े आकार के नमूने के लिए है, कि परिकल्पना से यहां तक कि छोटे प्रस्थान (जैसे लोगों को व्यावहारिक महत्व नहीं) एक महत्वपूर्ण निकलेगा पी -value।ppp

आपके द्वारा प्रस्तुत तीन मात्राओं में से, , निर्धारण का गुणांक , रिश्ते की ताकत का सबसे बड़ा संकेत देता है। आपके मामले में, आर 2 = .089 , का अर्थ है कि आपके प्रतिक्रिया चर में भिन्नता का 8.9 % भविष्यवक्ता के साथ एक रैखिक संबंध समझाया जा सकता है। एक "बड़े" R 2 का गठन अनुशासन पर निर्भर है। उदाहरण के लिए, सामाजिक विज्ञानों में R 2 = .2 "बड़ा" हो सकता है, लेकिन कारखाने की सेटिंग, R 2 > 9 जैसे नियंत्रित वातावरण में।R2R2=.0898.9%R2R2=.2R2>.9कहने की आवश्यकता हो सकती है कि एक "मजबूत" संबंध है। ज्यादातर स्थितियों में एक बहुत छोटा R 2 है , इसलिए आपका निष्कर्ष है कि एक कमजोर रैखिक संबंध संभवतः उचित है।.089R2


धन्यवाद मैक्रों। बहुत ही उपयोगी उत्तर। मुझे खुशी है कि आपने उस भाग को शामिल किया जो वास्तव में, पी-मूल्य परीक्षण कर रहा है। यह बहुत मायने रखता है कि पी-मान कितना कम होगा यह देखते हुए कि ढलान 1 के करीब है। यह मुझे लगता है, आपके उत्तर और @jedfrancis के प्रकाश में, r ^ 2 मान बताता है कि प्रतिगमन की रेखा के आसपास डेटा बिंदुओं के 'क्लाउड'। अति उत्कृष्ट! यह अब और अधिक स्पष्ट है!
मोग

@ मैक्रो (+1), ठीक जवाब। लेकिन "रिश्ते की ताकत" "अवरोधन के आकार" पर कैसे निर्भर करती है? AFAIK अंतर्संबंध एक संबंध के रैखिक संबंध या "ताकत" के बारे में कुछ भी नहीं कहता है।
whuber

@ शुभंकर, आप सही हैं - अवरोधन अप्रासंगिक है और निश्चित रूप से सहसंबंध नहीं बदलता है - मैं प्रतिगमन समारोह बनाम y = x के बारे में सोच रहा था और किसी भी दूसरे के बारे में सोच रहा था एक मजबूत संबंध () सभी को बराबर रखा गया), क्योंकि बाद के मामले में y की परिमाण की एक बड़ी मात्रा x के कारण थी । अब बहुत समझ में नहीं आता है कि मैं इसके बारे में सोचता हूं। मैंने पोस्ट को एडिट किया है। y=10000+xy=xyx
मैक्रो

4
@ मैक्रो उत्कृष्ट जवाब है, लेकिन मैं तनाव (इस विषय के लिए नए लोगों के लिए) कि R ^ 2 एक मजबूत रिश्ते के साथ भी बहुत कम हो सकता है, अगर यह रिश्ता नॉनलाइनर है, और खासकर अगर यह नॉनमोनॉटोनिक है। इसका मेरा पसंदीदा उदाहरण तनाव और परीक्षा स्कोर के बीच का संबंध है; बहुत कम तनाव और बहुत अधिक तनाव मध्यम तनाव से भी बदतर होते हैं।
पीटर फ्लॉम - मोनिका

1
@ मैक्रो हाँ, आपका उत्तर अच्छा था, लेकिन मैंने ऐसे लोगों के साथ काम किया है, जो बहुत सारे आँकड़े नहीं जानते हैं, और मैंने देखा है कि क्या होता है ... कभी-कभी हम जो कहते हैं, वह नहीं होता है जो वे सुनते हैं!
पीटर फ्लॉम - मोनिका

14

बताता है आप कैसे आश्रित चर के बहुत भिन्नता एक मॉडल के आधार पर समझाया गया है। हालाँकि, कोई R 2 के साथ-साथ निर्भर चर के मूल मूल्यों और सज्जित मूल्यों के बीच संबंध की व्याख्या कर सकता है । निर्धारण आर 2 के गुणांक की सटीक व्याख्या और व्युत्पत्ति यहां पाई जा सकती हैR2R2R2

सबूत है कि दृढ़ संकल्प के गुणांक मनाया मूल्यों के बीच Squared पियर्सन सहसंबंध गुणांक के बराबर है और सज्जित मान y मैं पाया जा सकता है यहाँyiy^i

निर्धारण का या गुणांक निर्भर चर की व्याख्या करने में आपके मॉडल की ताकत को दर्शाता है। आपके मामले में, आर 2 = 0.089 । यह कि आपका मॉडल आप पर निर्भर चर के 8.9% की व्याख्या करने में सक्षम है। या, अपने बीच सहसंबंध गुणांक y मैं और अपने फिट मान y मैं 0.089 है। एक अच्छा R 2 का गठन अनुशासन पर निर्भर है।R2R2=0.089yiy^iR2

अंत में, अपने प्रश्न के अंतिम भाग में। आप निर्भर और स्वतंत्र चर के बीच संबंध के बारे में कुछ कहने के लिए डर्बिन-वाटसन परीक्षण प्राप्त नहीं कर सकते। धारावाहिक सहसंबंध के लिए डर्बिन-वाटसन परीक्षण परीक्षण। यह जांचने के लिए आयोजित किया जाता है कि आपकी त्रुटि की शर्तें परस्पर संबद्ध हैं या नहीं।


9

मूल्य आपको बताता है कि डेटा में बहुत भिन्नता फिट मॉडल के आधार पर समझाया गया है।R2

आपके अध्ययन में कम मान बताता है कि आपका डेटा संभवतः प्रतिगमन रेखा के आसपास व्यापक रूप से फैला हुआ है, जिसका अर्थ है कि प्रतिगमन मॉडल केवल डेटा में भिन्नता का बहुत कम (बहुत कम) 8.9% समझा सकता है।R2

क्या आपने यह देखने के लिए जाँच की है कि क्या एक रैखिक मॉडल उपयुक्त है? अपने अवशेषों के वितरण पर एक नज़र डालें, क्योंकि आप इसका उपयोग अपने डेटा के मॉडल के फिट का आकलन करने के लिए कर सकते हैं। आदर्श रूप से, आपके अवशेषों को आपके मानों के साथ कोई संबंध नहीं दिखाना चाहिए , और यदि ऐसा होता है, तो आप अपने चर को उपयुक्त तरीके से बदलने, या अधिक उपयुक्त मॉडल फिटिंग के बारे में सोचना चाह सकते हैं।x


धन्यवाद @jed हाँ, मैं अवशिष्टों की सामान्यता की जाँच करूँगा, और सब कुछ ठीक था। आपका सुझाव है कि डेटा व्यापक रूप से उस प्रतिगमन रेखा के चारों ओर फैला हुआ है, बिल्कुल सही है - डेटा बिंदु सॉफ़्टवेयर द्वारा प्लॉट किए गए प्रतिगमन की रेखा के आसपास बादल की तरह दिखता है।
मोग

1
हमारी साइट में आपका स्वागत है, @jed, और आपके उत्तर के लिए धन्यवाद! कृपया ध्यान दें कि ढलान स्वयं अपने संकेत के अलावा सहसंबंध के बारे में लगभग कुछ भी नहीं कहता है, क्योंकि सहसंबंध उन इकाइयों पर निर्भर नहीं करता है जिनमें एक्स और वाई को मापा जाता है लेकिन ढलान करता है।
व्हिबर

1
@whuber कह रही है कि के मूल्य के ढलान है नहीं आप संघ की ताकत के बारे में कुछ भी बताने के लिए जब तक चर मानकीकृत कर रहे हैं। देखें shabbychefs उत्तर।
भेड़िया.चौच

@ wolf.rauch gotcha
jedfrancis

@jed अच्छा होगा यदि आप अपना उत्तर सही करें।
व्हीलर

7

R2yxxyR2

संक्षेप में, ढलान मॉडल 'फिट' का एक अच्छा संकेतक नहीं है जब तक कि आप निश्चित नहीं हैं कि आश्रित और स्वतंत्र चर के पैमाने एक दूसरे के बराबर होने चाहिए।


1

मुझे पहले से दिए गए उत्तर पसंद हैं, लेकिन मुझे उन्हें एक अलग (और अधिक जीभ-इन-गाल) दृष्टिकोण के साथ पूरक करें।

मान लीजिए कि हम 1000 यादृच्छिक लोगों से अवलोकन का एक गुच्छा एकत्र करते हैं, जो यह पता लगाने की कोशिश कर रहे हैं कि क्या चेहरे में छिद्र सिरदर्द से जुड़े हैं:

Headaches=β0+β1Punch_in_the_face+ε

ε contains all the omitted variables that produce headaches in the general population: stress, how contaminated your city is, lack of sleep, coffee consumption, etc.

For this regression, the β1 might be very significant and very big, but the R2 will be low. Why? For the vast majority of the population, headaches won't be explained much by punches in the face. In other words, most of the variation in the data (i.e. whether people have few or a lot of headaches) will be left unexplained if you only include punches in the face, but punches in the face are VERY important for headaches.

Graphically, this probably looks like a steep slope but with a very big variation around this slope.


0

@ माकारो का शानदार जवाब था।

ढलान का अनुमानित मूल्य, खुद से नहीं, आपको रिश्ते की ताकत बताता है। रिश्ते की ताकत त्रुटि विचरण के आकार और भविष्यवक्ता की सीमा पर निर्भर करती है। इसके अलावा, एक महत्वपूर्ण पीपी-मूल्य आपको जरूरी नहीं बताता है कि एक मजबूत रिश्ता है; पीपी-मूल्य बस परीक्षण कर रहा है कि क्या ढलान बिल्कुल 0 है।

मैं सिर्फ एक संख्यात्मक उदाहरण जोड़ना चाहता हूं जो यह दर्शाता है कि ओपी द्वारा वर्णित मामला क्या है।

  • कम आर2
  • पी-मूल्य पर महत्वपूर्ण
  • के करीब ढलान 1.0

    set.seed(6)
    y=c(runif(100)*50,runif(100)*50+10)
    x=c(rep(1,100),rep(10,100))
    plot(x,y)
    
    fit=lm(y~x)
    summary(fit)
    abline(fit)
    
    
    > summary(lm(y~x))
    
    Call:
    lm(formula = y ~ x)
    
    Residuals:
       Min     1Q Median     3Q    Max 
    -24.68 -13.46  -0.87  14.21  25.14 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  25.6575     1.7107  14.998  < 2e-16 ***
    x             0.9164     0.2407   3.807 0.000188 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 15.32 on 198 degrees of freedom
    Multiple R-squared:  0.0682,    Adjusted R-squared:  0.06349 
    F-statistic: 14.49 on 1 and 198 DF,  p-value: 0.0001877
    

यहां छवि विवरण दर्ज करें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.