कई सहसंबंध गुणांक की ज्यामितीय व्याख्या और निर्धारण गुणांक


24

मैं कई सहसंबंध के ज्यामितीय अर्थ में रुचि रखता हूं और प्रतिगमन में निर्धारण का गुणांक , या वेक्टर संकेतन में,RR2yi=β1+β2x2,i++βkxk,i+ϵi

y=Xβ+ϵ

यहाँ डिज़ाइन मैट्रिक्स में पंक्तियाँ और कॉलम हैं, जिनमें से पहला है , 1s का वेक्टर जो इंटरसेप्ट के से मेल ।Xnkx1=1nβ1

ज्यामिति में अधिक दिलचस्प है आयामी विषय अंतरिक्ष के बजाय आयामी चर अंतरिक्ष। टोपी मैट्रिक्स को परिभाषित करें:nk

H=X(XX)1X

यह के कॉलम स्पेस पर एक ऑर्थोगोनल प्रोजेक्शन है , अर्थात प्रत्येक वैरिएबल प्रतिनिधित्व करने वाले vectors द्वारा फ्लैट के माध्यम से , जिसमें से पहला है । तब फ्लैट पर अपनी "परछाई" पर मनाया प्रतिक्रियाओं के वेक्टर को प्रोजेक्ट करता है , सज्जित मूल्यों का वेक्टर , और यदि हम प्रक्षेपण के मार्ग के साथ हम अवशिष्टों के वेक्टर को देखते हैं एक त्रिकोण का तीसरा पक्ष बनाते हैं। यह हमें की ज्यामितीय व्याख्या के लिए दो मार्गों के साथ प्रस्तुत करना चाहिएXkxi1nHyy^=Hye=yy^R2:

  1. बहु सहसंबंध गुणांक का वर्ग, , जिसे और बीच संबंध के रूप में परिभाषित किया गया है । यह एक कोण के कोसाइन के रूप में ज्यामितीय रूप से दिखाई देगा।Ryy^
  2. वैक्टर की लंबाई के संदर्भ में: उदाहरण के लिए |SSresidual=i=1nei2=e2

मुझे एक संक्षिप्त खाता देखकर खुशी होगी जो बताते हैं:

  • (1) और (2) के लिए महीन विवरण,
  • क्यों (1) और (2) बराबर हैं,
  • संक्षेप में, कैसे ज्यामितीय अंतर्दृष्टि हमें R ^ 2 के मूल गुणों की कल्पना करने देती है R2, उदाहरण के लिए यह शोर 1 में क्यों जाता है जब यह 1 तक जाता है। (आखिरकार, अगर हम अपने दृश्य से इंट्रैक्ट नहीं कर सकते हैं तो यह एक से अधिक नहीं है। सुन्दर तस्वीर।)

मैं इसकी सराहना करता हूं कि यदि चर पहले केंद्रित होते हैं, तो यह अधिक सीधा है, जो प्रश्न से अवरोधन को हटा देता है। हालाँकि, अधिकांश पाठ्यपुस्तक खातों में जो एकाधिक प्रतिगमन का परिचय देते हैं, डिज़ाइन मैट्रिक्स जैसा कि मैंने निर्धारित किया है। बेशक यह ठीक है अगर कोई प्रदर्शनी केंद्र चर द्वारा फैलाए गए स्थान में देरी करता है, लेकिन पाठ्यपुस्तक रैखिक बीजगणित में अंतर्दृष्टि के लिए, यह इस स्थिति से संबंधित होने के लिए बहुत ही मददगार होगा जो विषम परिस्थिति में ज्यामितीय रूप से हो रहा है। एक बहुत ही व्यावहारिक जवाब यह समझा सकता है कि जब ज्यामितीय रूप से इंटरसेप्ट शब्द को गिराया जाता है तो वास्तव में क्या टूट रहा है - यानी जब सदिशX1nफैले हुए सेट से हटा दिया जाता है। मुझे नहीं लगता कि इस अंतिम बिंदु को अकेले केंद्रित चर पर विचार करके संबोधित किया जा सकता है।

जवाबों:


47

यदि मॉडल में एक स्थिर शब्द है तो के कॉलम स्थान में है (जैसा कि , जो बाद में उपयोगी होगा)। फिटेड उस कॉलम स्पेस द्वारा बनाए गए फ्लैट पर मनाया गया का ऑर्थोगोनल प्रोजेक्शन है। इसका मतलब यह है कि अवशेषों का वेक्टर सपाट है, और इसलिए । डॉट उत्पाद को ध्यान में रखते हुए हम देख सकते हैं , इसलिए के घटकों को शून्य के योग करना चाहिए। चूंकि हम वह निष्कर्ष निकालते हैं1nXY¯1nY^Ye=yy^1ni=1nei=0eYi=Yi^+eii=1nYi=i=1nYi^ ताकि फिट और देखी गई दोनों प्रतिक्रियाओं का अर्थ ।Y¯

कई प्रतिगमन के विषय स्थान में क्षेत्र

आरेख में धराशायी रेखाएँ और करती हैं, जो केंद्रित वैक्टर हैं मनाया और फिट प्रतिक्रियाओं के लिए। इन वैक्टरों के बीच के कोण का कोसाइन इसलिए और का सहसंबंध होगा , जो कि परिभाषा के अनुसार बहु ​​सहसंबंध गुणांक । अवशिष्ट के सदिश के साथ ये वैक्टर जो त्रिकोण बनाते हैं, वह से है, लेकिन फ्लैट में है। इसलिये:YY¯1nY^Y¯1nθYY^RY^Y¯1ne

R=cos(θ)=adjhyp=Y^Y¯1nYY¯1n

हम त्रिकोण में पाइथागोरस को भी लागू कर सकते हैं:

YY¯1n2=YY^2+Y^Y¯1n2

जो अधिक परिचित हो सकते हैं:

i=1n(YiY¯)2=i=1n(YiY^i)2+i=1n(Y^iY¯)2

यह वर्गों, के योगों का अपघटन है ।SStotal=SSresidual+SSregression

निर्धारण के गुणांक के लिए मानक परिभाषा है:

R2=1SSresidualSStotal=1i=1n(yiy^i)2i=1n(yiy¯)2=1YY^2YY¯1n2

जब वर्गों के योगों को विभाजित किया जा सकता है, तो यह दिखाने के लिए कुछ सीधा बीजगणित लेता है यह "विचरण के अनुपात के अनुसार" सूत्रीकरण के बराबर है।

R2=SSregressionSStotal=i=1n(y^iy¯)2i=1n(yiy¯)2=Y^Y¯1n2YY¯1n2

त्रिकोण से इसे देखने का एक ज्यामितीय तरीका है, जिसमें न्यूनतम बीजगणित होता है। निश्चित सूत्र और बुनियादी त्रिकोणमिति के साथ हम इसे को सरल बना सकते हैं । यह और बीच की कड़ी है ।R2=1sin2(θ)cos2(θ)R2R

ध्यान दें कि इस विश्लेषण के लिए इंटरसेप्ट शब्द फिट करना कितना महत्वपूर्ण था, इसलिए उस कॉलम स्पेस में था। इसके बिना, अवशिष्टों को शून्य के रूप में नहीं जाना चाहिए था, और फिट किए गए मूल्यों का मतलब साथ मेल नहीं खाता होगा । उस स्थिति में हम त्रिकोण खींच नहीं सकते थे; वर्गों की रकम पाइथागोरस तरीके से विघटित नहीं होती; का अक्सर उद्धृत रूप न होता और न ही का वर्ग होता । इस स्थिति में, कुछ सॉफ़्टवेयर (सहित ) लिए एक अलग सूत्र का उपयोग करते हैं1nYR2SSreg/SStotalRRR2


1
+1 बहुत अच्छा लिखने और आंकड़ा। मुझे आश्चर्य है कि यह केवल मेरा अकेलापन है।
अमीबा का कहना है कि

2
+1। ध्यान दें कि आपके उत्तर का आंकड़ा "कॉलम स्पेस X", Y, Ypred as vectors इत्यादि को मल्टीवेरेट आँकड़े में "(कम) विषय स्थान प्रतिनिधित्व" के रूप में जाना जाता है ( देखें , आगे के लिंक के साथ जहाँ मैंने इसका उपयोग किया है) )।
ttnphns
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.