निर्धारण का गुणांक (


21

मैं पूरी तरह से की धारणा को समझना चाहता हूं चर के बीच भिन्नता की मात्रा का वर्णन करता है। हर वेब स्पष्टीकरण थोड़ा यांत्रिक और अप्रचलित है। मैं अवधारणा को "प्राप्त" करना चाहता हूं, न कि केवल यंत्रवत् संख्याओं का उपयोग करना।r2

जैसे: घंटे का अध्ययन बनाम परीक्षण स्कोर

r = 8

r2 = 64

  • अच्छा तो इसका क्या मतलब है?
  • टेस्ट स्कोर की परिवर्तनशीलता का 64% घंटे द्वारा समझाया जा सकता है?
  • हमें यह कैसे पता चलेगा कि सिर्फ स्क्वैरिंग करके?

आपका प्रश्न आर बनाम आर-स्क्वायर के बारे में नहीं है (आप समझते हैं कि 0.82=0.64 ) यह की व्याख्या के बारे में है r2। कृपया शीर्षक सुधारें।
रॉबिन जिरार्ड 15

इसी तरह का एक प्रश्न: आंकड़े.stackexchange.com/questions/28139/…
Abe

@amoeba सहमत हुए, मैंने टैग खींच लिया।
ब्रेट

महत्व को निर्धारित करने के लिए आपको की आवश्यकता है। यह भी देखें, stats.stackexchange.com/a/265924/99274n
कार्ल

जवाबों:


27

भिन्नता के मूल विचार से शुरू करें। आपका शुरुआती मॉडल माध्य से चुकता विचलन का योग है। R ^ 2 मान उस भिन्नता का अनुपात है जिसका विकल्प एक वैकल्पिक मॉडल का उपयोग करके किया जाता है। उदाहरण के लिए, आर-स्क्वेर आपको बताता है कि वाई में कितनी भिन्नता है, आप माध्य के बजाय प्रतिगमन रेखा से वर्ग दूरी को जोड़कर छुटकारा पा सकते हैं।

मुझे लगता है कि अगर हम साधारण प्रतिगमन समस्या के बारे में सोचते हैं तो यह पूरी तरह से स्पष्ट है। एक विशिष्ट स्कैल्पलॉट पर विचार करें जहां आपके पास क्षैतिज अक्ष के साथ एक पूर्वसूचक एक्स और ऊर्ध्वाधर अक्ष के साथ एक प्रतिक्रिया वाई है।

माध्य भूखंड पर एक क्षैतिज रेखा है जहां Y स्थिर है। वाई में कुल भिन्नता वाई के मतलब और प्रत्येक व्यक्ति डेटा बिंदु के बीच चुकता अंतर का योग है। यह माध्य रेखा और हर अलग-अलग बिंदु के बीच की दूरी है और इसे जोड़ा गया है।

मॉडल से प्रतिगमन लाइन होने के बाद आप परिवर्तनशीलता के एक और माप की गणना भी कर सकते हैं। यह प्रत्येक Y बिंदु और प्रतिगमन रेखा के बीच का अंतर है। प्रत्येक (Y - माध्य) वर्ग की बजाय हमें मिलता है (Y - प्रतिगमन रेखा पर बिंदु) चुकता।

यदि प्रतिगमन रेखा कुछ भी है, लेकिन क्षैतिज है, तो हम औसतन कम दूरी प्राप्त करने जा रहे हैं जब हम इस फिट किए गए प्रतिगमन लाइन का उपयोग माध्य के बजाय करते हैं - जो कि कम अस्पष्टीकृत भिन्नता है। अतिरिक्त भिन्नता और मूल भिन्नता के बीच का अनुपात आपका R ^ 2 है। यह आपकी प्रतिक्रिया में मूल भिन्नता का अनुपात है जिसे उस प्रतिगमन रेखा को फिट करके समझाया गया है।

यहाँ छवि विवरण दर्ज करें

यहाँ माध्य, प्रतिगमन रेखा, और प्रतिगमन रेखा से खण्डों के साथ ग्राफ के लिए कुछ R कोड विज़ुअलाइज़ेशन में मदद करने के लिए प्रत्येक बिंदु पर दिया गया है:

library(ggplot2)
data(faithful)

plotdata <- aggregate( eruptions ~ waiting , data = faithful, FUN = mean) 

linefit1 <- lm(eruptions ~ waiting, data = plotdata)

plotdata$expected <- predict(linefit1)
plotdata$sign <- residuals(linefit1) > 0

p <- ggplot(plotdata, aes(y=eruptions, x=waiting, xend=waiting, yend=expected) )  

p  + geom_point(shape = 1, size = 3) +
     geom_smooth(method=lm, se=FALSE) + 
     geom_segment(aes(y=eruptions, x=waiting, xend=waiting, yend=expected, colour = sign),  
                  data = plotdata) +
     theme(legend.position="none")  +
     geom_hline(yintercept = mean(plotdata$eruptions), size = 1)

> बताई गई भिन्नता और मूल भिन्नता के बीच का अनुपात आपका R ^ 2 है, आइए देखें कि क्या मुझे यह मिला है। यदि माध्य 100 से मूल भिन्नता और प्रतिगमन भिन्नता 20 योग है, तो अनुपात = 20/100 = .2 आप आर ^ 2 = .2 बी / सी कह रहे हैं जिसका अर्थ भिन्नता (लाल) का 20% है। के लिए समझाया भिन्नता (हरा) (आर = 1 के मामले में) यदि मूल भिन्नता 50 योग, और प्रतिगमन भिन्नता 0 योग है, तो माध्य से भिन्नता का अनुपात = 0/50 = 0 = 0% है ( लाल) की व्याख्या भिन्नता (हरी) से की जाती है, मुझे उम्मीद है कि R ^ 2 को 1 होगा, 0. नहीं
जैकऑफऑल

1
आर ^ 2 = 1- (एसएसआर / एसएसटी) या (एसएसटी-एसएसआर) / एसएसटी। तो, आपके उदाहरणों में, R ^ 2 = .80 और 1.00 है। प्रतिगमन रेखा और प्रत्येक बिंदु के बीच का अंतर यह है कि फिट द्वारा UNexplained छोड़ दिया गया है। बाकी समझाया गया अनुपात है। अन्यथा, यह बिल्कुल सही है।
ब्रेट

मैंने उस अंतिम पैराग्राफ को संपादित करके इसे थोड़ा और स्पष्ट करने की कोशिश की। वैचारिक रूप से (और कम्प्यूटेशनल रूप से) आप सभी की जरूरत है। यह वास्तव में सूत्र जोड़ने और एसएसटी एसएसई और एसएसआर को संदर्भित करने के लिए स्पष्ट हो सकता है, लेकिन तब मैं इसे वैचारिक रूप से प्राप्त करने की कोशिश कर रहा था
ब्रेट

अर्थात: R ^ 2 माध्य (SST) से कुल भिन्नता का अनुपात है जो कि अपेक्षित प्रतिगमन मान और माध्य मान (SSE) का अंतर b / w है। घंटे बनाम स्कोर के मेरे उदाहरण में, प्रतिगमन मूल्य का अध्ययन किए गए घंटों के साथ सहसंबंध के आधार पर अपेक्षित परीक्षण स्कोर होगा। उस से किसी भी अतिरिक्त भिन्नता को SSR के लिए जिम्मेदार ठहराया जाता है। किसी दिए गए बिंदु के लिए, घंटों का अध्ययन किया गया चर / प्रतिगमन माध्य (SST) से कुल भिन्नता का x% बताया गया है। उच्च आर-मूल्य के साथ, "समझाया गया" एसएसआर की तुलना में एसएसटी का बड़ा प्रतिशत है। कम आर-मूल्य के साथ, "समझाया गया" एसएसआर की तुलना में एसएसटी का कम प्रतिशत है।
जैकऑफऑल

@BrettMagill, मुझे लगता है कि छवि का लिंक टूट गया है ...
Garrett

6

दोनों के बीच संबंधों का गणितीय प्रदर्शन यहां है: पियर्सन का सहसंबंध और सबसे कम वर्ग प्रतिगमन विश्लेषण

मुझे यकीन नहीं है कि एक ज्यामितीय या कोई अन्य अंतर्ज्ञान है जो गणित के अलावा पेश किया जा सकता है, लेकिन अगर मैं एक के बारे में सोच सकता हूं तो मैं इस उत्तर को अपडेट करूंगा।

अद्यतन: ज्यामितीय अंतर्ज्ञान

यहाँ एक ज्यामितीय अंतर्ज्ञान है जिसके साथ मैं आया था। मान लीजिए कि आपके पास दो चर और y हैं जो मध्य केंद्रित हैं। (मान लिया गया है कि हम अंतर को अनदेखा करते हैं जो ज्यामितीय अंतर्ज्ञान को थोड़ा सरल करता है।) आइए हम पहले रेखीय प्रतिगमन की ज्यामिति पर विचार करें। रैखिक प्रतिगमन में, हम निम्नानुसार y मॉडल करते हैं:xyy

y=x β+ϵ

उस स्थिति पर विचार करें जब हमारे पास जोड़े ( ) और ( x 1 , x 2 ) द्वारा दी गई उपरोक्त डेटा निर्माण प्रक्रिया से दो अवलोकन हैं । हम उन्हें दो-आयामी स्थान में वैक्टर के रूप में देख सकते हैं जैसा कि नीचे दिए गए चित्र में दिखाया गया है:y1,y2x1,x2

alt text http://a.imageshack.us/img202/669/linearregression1.png

इस प्रकार, ऊपर ज्यामिति के मामले में, हमारा लक्ष्य एक मिल रहा है ऐसी है कि वेक्टर एक्स β वेक्टर के लिए निकटतम संभव है y । ध्यान दें कि उचित रूप से β स्केल x के विभिन्न विकल्प । चलो β का मूल्य हो β के बारे में हमारी सबसे अच्छा संभव अनुमान होता है कि y AND दर्शा y = एक्स β । इस प्रकार,βx βyβxβ^βyy^=x β^

y=y^+ϵ^

yy^ϵ^β^

βx βϵ^

yyxyy12+y22yy^y^

पाइथागोरस प्रमेय द्वारा, हमारे पास:

y2=y^2+ϵ^2

xy^2y2cos(θ)=y^y

इसलिए, हमारे पास आवश्यक संबंध हैं:

yx

उम्मीद है की वो मदद करदे।


मैं मदद करने के आपके प्रयास की सराहना करता हूं, लेकिन दुर्भाग्य से, इसने चीजों को 10 गुना बदतर बना दिया। क्या आप वास्तव में r ^ 2 को समझाने के लिए त्रिकोणमिति का परिचय दे रहे हैं? आप एक अच्छे शिक्षक बनने के लिए बहुत स्मार्ट हैं!
जैकऑफऑल

मुझे लगा कि आप जानना चाहते हैं कि सहसंबंध ^ 2 = आर ^ 2 क्यों है। किसी भी मामले में, एक ही अवधारणा को समझने के विभिन्न तरीकों से मदद मिलती है या कम से कम यह मेरा दृष्टिकोण है।

3

प्रतिगमन तक नेत्र अगर आप कुछ अंतर्ज्ञान विकसित करने के लिए कोशिश कर रहे हैं एप्लेट काम का हो सकता है।

यह आपको डेटा उत्पन्न करने देता है फिर R के लिए मान का अनुमान लगाते हैं , जिसकी आप वास्तविक मूल्य के साथ तुलना कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.