R, r स्क्वेर्ड और अवशिष्ट मानक विचलन एक रैखिक संबंध के बारे में हमें क्या बताता है?


13

छोटी पृष्ठभूमि
मैं प्रतिगमन विश्लेषण की व्याख्या पर काम कर रहा हूं, लेकिन मैं आर, आर स्क्वेर्ड और अवशिष्ट मानक विचलन के अर्थ के बारे में वास्तव में भ्रमित हूं। मुझे पता है परिभाषाएँ:

चरित्र चित्रण

आर एक स्कैल्पलॉट पर दो चर के बीच एक रैखिक संबंध की ताकत और दिशा को मापता है

R-squared एक सांख्यिकीय माप है कि डेटा फिट किए गए प्रतिगमन लाइन के कितने करीब है।

अवशिष्ट मानक विचलन एक सांख्यिकीय शब्द है जिसका उपयोग रेखीय फलन के चारों ओर बने बिंदुओं के मानक विचलन का वर्णन करने के लिए किया जाता है, और यह आश्रित चर की सटीकता का अनुमान है जिसे मापा जा रहा है। ( पता नहीं कि इकाइयाँ क्या हैं, यहाँ इकाइयों के बारे में कोई भी जानकारी उपयोगी होगी )

(स्रोत: यहाँ )

प्रश्न
हालांकि मैं चरित्रों को "समझता" हूं, मुझे समझ में आता है कि ये शब्द कैसे डेटासेट के बारे में निष्कर्ष निकालते हैं। मैं यहाँ एक छोटा सा उदाहरण डालूँगा, शायद यह मेरे प्रश्न का उत्तर देने के लिए एक मार्गदर्शक के रूप में काम कर सकता है ( अपने स्वयं के उदाहरण का उपयोग करने के लिए स्वतंत्र महसूस करें!)

उदाहरण
यह एक प्रश्न पूछने का प्रश्न नहीं है, हालाँकि मैंने एक सरल उदाहरण प्राप्त करने के लिए अपनी पुस्तक में खोज की है। (मेरे द्वारा विश्लेषण किया जा रहा वर्तमान डेटा यहां दिखाने के लिए बहुत जटिल और बड़ा है)

बीस भूखंड, प्रत्येक 10 x 4 मीटर, मकई के एक बड़े क्षेत्र में बेतरतीब ढंग से चुना गया था। प्रत्येक भूखंड के लिए, पौधे का घनत्व (भूखंड में पौधों की संख्या) और औसत कोब वजन (प्रति ग्राम अनाज के ग्राम) मनाया गया। परिणाम निम्नलिखित तालिका में हैं:
(स्रोत: जीवन विज्ञान के आँकड़े )

╔═══════════════╦════════════╦══╗
 Platn density  Cob weight   
╠═══════════════╬════════════╬══╣
           137         212   
           107         241   
           132         215   
           135         225   
           115         250   
           103         241   
           102         237   
            65         282   
           149         206   
            85         246   
           173         194   
           124         241   
           157         196   
           184         193   
           112         224   
            80         257   
           165         200   
           160         190   
           157         208   
           119         224   
╚═══════════════╩════════════╩══╝

पहले मैं डेटा की कल्पना करने के लिए एक स्कैल्पलॉट बनाऊंगा: इसलिए मैं आर, आर 2 और अवशिष्ट मानक विचलन की गणना कर सकता हूं । पहला सहसंबंध परीक्षण:
यहाँ छवि विवरण दर्ज करें

    Pearson's product-moment correlation

data:  X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9770972 -0.8560421
sample estimates:
       cor 
-0.9417954 

और दूसरा प्रतिगमन रेखा का सारांश:

Residuals:
    Min      1Q  Median      3Q     Max 
-11.666  -6.346  -1.439   5.049  16.496 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 316.37619    7.99950   39.55  < 2e-16 ***
X            -0.72063    0.06063  -11.88 5.89e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared:  0.887, Adjusted R-squared:  0.8807 
F-statistic: 141.3 on 1 and 18 DF,  p-value: 5.889e-10

तो इस परीक्षण के आधार पर: r = -0.9417954, R-squared: 0.887और अवशिष्ट मानक त्रुटि: 8.619 ये मान हमें डेटासेट के बारे में क्या बताते हैं? ( प्रश्न देखें )


3
यह ध्यान देने योग्य हो सकता है कि जिसे आप "परिभाषा" कहते हैं, केवल आकस्मिक लक्षण वर्णन हैं, और जैसे कि वे भ्रामक हो सकते हैं, यह इस बात पर निर्भर करता है कि उन्हें कैसे व्याख्या और लागू किया जाता है। वास्तविक परिभाषाएँ मात्रात्मक और सटीक हैं।
व्हिबर

इस बात की ओर इशारा करने के लिए थैंक्यू, मैंने जिन स्रोतों का इस्तेमाल किया है, उन्हें ये परिभाषाएँ कहा जाता है, हालाँकि बिना संदर्भ के "चरित्र चित्रण" शायद बेहतर होगा, मैं इसे बदल दूँगा!
KingBoomie

मोहरे: आमतौर पर आर-स्क्वेयर्ड को भविष्यवाणियों द्वारा समझाया गया विचरण के अनुपात के रूप में समझाया जाता है, इसलिए 1 के करीब अच्छा है। अवशिष्ट मानक विचलन की इकाइयाँ आपके अवशिष्टों की इकाइयाँ होनी चाहिए, जो आपकी प्रतिक्रिया चर की इकाइयाँ हैं।
एलिस्टेयर

धन्यवाद! @alistaire वास्तव में यह समझ में आता है क्योंकि हम मूल अंकों के y मान की तुलना पूर्वानुमानित अंकों के y मानों से करते हैं
KingBoomie

आपको डेविड द्वारा उनके उत्तर में बताए अनुसार अनुमानित अवशिष्टों की साजिश करनी चाहिए।
हैलोवर्ल्ड

जवाबों:


5

वे आँकड़े आपको इस बारे में बता सकते हैं कि संबंध के लिए एक रैखिक घटक है या नहीं, लेकिन इस बारे में बहुत अधिक नहीं है कि संबंध सख्ती से रैखिक है या नहीं। एक छोटे से द्विघात घटक के साथ संबंध r ^ 2 का 0.99 हो सकता है। भविष्यवाणी के एक समारोह के रूप में अवशिष्ट के एक भूखंड का खुलासा हो सकता है। गैलीलियो के प्रयोग में यहाँ https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html सहसंबंध बहुत अधिक है, लेकिन संबंध स्पष्ट रूप से अस्पष्ट है।


5

यहाँ मेरे पहले उत्तर के साथ मुद्दों पर प्रतिक्रिया प्राप्त करने के बाद एक उत्तर में दूसरा प्रयास है।

r|r||r|

R2r2R2

rR2rrR2rR2

अवशिष्ट मानक त्रुटि एक सामान्य वितरण के लिए मानक विचलन है, जो कि पूर्वानुमानित प्रतिगमन रेखा पर केंद्रित है, वास्तव में देखे गए मानों के वितरण का प्रतिनिधित्व करता है। दूसरे शब्दों में, यदि हम एक नए भूखंड के लिए केवल पौधे के घनत्व को मापने के लिए थे, तो हम सज्जित मॉडल के गुणांक का उपयोग करके कोब के वजन का अनुमान लगा सकते हैं, यह उस वितरण का मतलब है। आरएसई उस वितरण का मानक विचलन है और इस प्रकार यह मापता है कि हम वास्तव में मॉडल द्वारा अनुमानित मूल्यों से विचलित करने के लिए वास्तव में देखे गए कोब भार की अपेक्षा करते हैं। इस मामले में ~ 8 के एक आरएसई की तुलना कोब के वजन के नमूना मानक विचलन से की जाती है लेकिन आरएसई की तुलना नमूना एसडी की तुलना में जितनी अधिक होती है, उतनी अधिक अनुमानित या पर्याप्त, मॉडल है।


@whuber अभी तक इस सवाल का कोई अन्य जवाब नहीं है इसलिए मैंने इसे एक और कोशिश देने का फैसला किया। पुराने उत्तर को हटाने के बजाय, यह सब सामान के साथ मैंने एक नया लिखने का फैसला किया (आरएसई पैराग्राफ को छोड़कर जो इसे कॉपी किया गया)। यदि आपके पास समय है तो मैं इस दूसरे प्रयास पर किसी भी प्रतिक्रिया के लिए वास्तव में आभारी रहूंगा। मॉडल मूल्यांकन के लिए मेरा सामान्य दृष्टिकोण क्रॉस-वैलिडेशन और होल्ड-आउट सेट है, क्योंकि उद्देश्य आमतौर पर भविष्यवाणी है, लेकिन मैं वास्तव में इन मैट्रिक्स को समझना चाहता हूं और साथ ही साथ वे बहुत आम हैं।
जोहान फल्केनजैक

2
|r|rρ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.