साधारण न्यूनतम वर्ग प्रतिगमन की ज्यामितीय व्याख्या अपेक्षित अंतर्दृष्टि प्रदान करती है।
हम क्या पता करने के लिए दो regressors के मामले में देखा जा सकता है की जरूरत के अधिकांश और प्रतिक्रिया के साथ । मानकीकृत गुणांकों, या "बीटा," पैदा होती है जब सभी तीन वैक्टर एक आम लंबाई (जिसे हम एकता होने के लिए लग सकता है) करने के लिए मानकीकृत कर रहे हैं। इस प्रकार, और एक प्लेन में यूनिट वैक्टर हैं - वे यूनिट सर्कल पर स्थित हैं - और उस प्लेन वाले तीन आयामी यूक्लिडियन स्पेस में एक यूनिट वेक्टर है । फिटेड वैल्यू , पर का ऑर्थोगोनल (लंबवत) प्रक्षेपण है । क्योंकिx1x2yx1x2E2yE3y^yE2R2बस की चुकता की लंबाई है , हमें सभी तीन आयामों की कल्पना करने की भी आवश्यकता नहीं है: हमें जो भी जानकारी चाहिए वह सभी उस विमान में खींची जा सकती है।y^
ऑर्थोगोनल रजिस्ट्रार
सबसे अच्छी स्थिति तब होती है जब रजिस्टर्स ऑर्थोगोनल होते हैं, जैसा कि पहले आंकड़े में है।
इसमें और बाकी के आंकड़े मैं लगातार सफेद में इकाई डिस्क और काले तीर के रूप में रजिस्टरों को आकर्षित करूंगा। हमेशा दाईं ओर सीधे इंगित करेगा। मोटे लाल तीर और दिशाओं में के घटकों को हैं: अर्थात, और । की लंबाई लेकिन याद रखें कि - भूरा चक्र जिस पर यह झूठ की त्रिज्या है हैx1y^x1x2β1x1β2x2y^R2 वर्ग कि लंबाई की।
पाइथागोरस प्रमेय का दावा
R2=|y^|2=|β1x1|2+|β2x2|2=β21(1)+β22(1)=β21+β22.
क्योंकि पायथागॉरियन प्रमेय किसी भी संख्या में आयाम रखता है, यह तर्क किसी भी संख्या में regressors को सामान्य करता है, हमारा पहला परिणाम देता है:
जब रेजिस्टेंट ऑर्थोगोनल होते हैं, बेट्स के वर्गों के योग के बराबर होता है।R2
एक तात्कालिक कोरलरी यह है कि जब कोई एक प्रतिगामी होता है - यूनीवेट रिग्रेशन-- मानकीकृत ढलान का वर्ग होता है।R2
सहसंबद्ध
नकारात्मक सहसंबद्ध रजिस्ट्रार एक समकोण से अधिक कोणों पर मिलते हैं।
इस छवि में यह स्पष्ट रूप से स्पष्ट है कि बेटों के वर्गों का योग से कड़ाई से अधिक है । यह बीजगणितीय रूप से कोसाइन के नियम का उपयोग करके या सामान्य समीकरणों के मैट्रिक्स समाधान के साथ काम करके साबित किया जा सकता है।R2
दो रजिस्टरों को लगभग समानांतर बनाकर, हम को मूल के पास ( पास ) स्थिति में रख सकते हैं जबकि इसमें और दिशा में बड़े घटक होते हैं। इस प्रकार, कितना छोटा हो सकता है, इसकी कोई सीमा नहीं है।y^R20x1x2R2
आइए इस स्पष्ट परिणाम को याद करते हैं, हमारी दूसरी व्यापकता:
जब रजिस्टरों को सहसंबद्ध किया जाता है, तो दांव के वर्गों के योग की तुलना में मनमाने ढंग से छोटा हो सकता है।R2
हालांकि, यह एक सार्वभौमिक संबंध नहीं है, जैसा कि अगला आंकड़ा दर्शाता है।
अब सट्टे के वर्गों के योग को कड़ाई से बढ़ाता है। दो रजिस्टरों को एक साथ पास करके और उनके बीच रखने से , हम दोनों को आरए बना सकते हैं , भले ही करीब हो । आगे के विश्लेषण के लिए कुछ बीजगणित की आवश्यकता हो सकती है: मैं इसे नीचे ले जाता हूं।R2y^1/2R21
मैं इसे सकारात्मक रूप से सहसंबद्ध रजिस्टरों के साथ इसी तरह के उदाहरणों के निर्माण के लिए आपकी कल्पना पर छोड़ देता हूं, जो कि तीव्र कोणों पर मिलते हैं।
ध्यान दें कि ये निष्कर्ष अधूरे हैं: बेटों के वर्गों के योग की तुलना में की तुलना में कम सीमाएं हैं । विशेष रूप से, संभावनाओं की सावधानीपूर्वक जांच करके, आप निष्कर्ष निकाल सकते हैं (दो रजिस्टरों के साथ एक प्रतिगमन के लिए)R2
जब रजिस्टरों को सकारात्मक रूप से सहसंबद्ध किया जाता है और बेटों के पास एक सामान्य संकेत होता है, या जब रजिस्टरों को नकारात्मक रूप से सहसंबद्ध किया जाता है और बेटों के अलग-अलग संकेत होते हैं, तो कम से कम उतना बड़ा होना चाहिए जितना कि बेटों के वर्गों का योग। R2
बीजगणितीय परिणाम
आमतौर पर, (कॉलम वैक्टर) और प्रतिक्रिया । मानकीकरण का अर्थ है (ए) प्रत्येक वेक्टर के लिए और (b) उनके पास इकाई लंबाई है:x1,x2,…,xpy(1,1,…,1)′
|xi|2=|y|2=1.
स्तंभ वैक्टर को मैट्रिक्स में इकट्ठा करें । मैट्रिक्स गुणन के नियम का अर्थ है किxin×pX
Σ=X′X
का सहसंबंध मैट्रिक्स है । बेटास सामान्य समीकरणों द्वारा दिए जाते हैं,xi
β=(X′X)−1X′y=Σ−1(X′y).
इसके अलावा, परिभाषा के अनुसार, फिट है
y^=Xβ=X(Σ−1X′y).
इसकी चुकता की लम्बाई परिभाषा द्वारा है:R2
R2=|y^|2=y^′y^=(Xβ)′(Xβ)=β′(X′X)β=β′Σβ.
ज्यामितीय विश्लेषण ने सुझाव दिया कि हम से संबंधित असमानताओं की तलाश करते हैं और दांव के वर्गों का योग,R2
∑i=1pβ2i=β′β.
किसी भी मैट्रिक्स के आदर्श अपने गुणांक के वर्गों का योग द्वारा दिया जाता है (मूल रूप से का एक वेक्टर के रूप में मैट्रिक्स के इलाज , एक इयूक्लिडियन स्थान में घटक)L2Ap2
|A|22=∑i,ja2ij=tr(A′A)=tr(AA′).
कॉची-श्वार्ज़ असमानता का तात्पर्य है
R2=tr(R2)=tr(β′Σβ)=tr(Σββ′)≤|Σ|2|ββ′|2=|Σ|2β′β.
चूँकि चुकंदर सहसंबंध गुणांक से अधिक नहीं हो सकता है और मैट्रिक्स में उनमें से सिर्फ हैं , से अधिक नहीं हो सकता । इसलिये1p2p×pΣ|Σ|21×p2−−−−−√=p
R2≤pβ′β.
उदाहरण के लिए, असमानता प्राप्त होती है, जब सभी पूरी तरह से सकारात्मक रूप से सहसंबद्ध होते हैं।xi
कितना बड़ा हो सकता है, इस पर एक ऊपरी सीमा है। प्रति रजिस्ट्रार, औसत मूल्य, मानकीकृत गुणांक के वर्गों के योग से अधिक नहीं हो सकता है।R2R2/p
निष्कर्ष
हम सामान्य रूप से क्या निष्कर्ष निकाल सकते हैं? जाहिर है, रजिस्टरों के सहसंबंध संरचना के बारे में जानकारी के साथ-साथ बेटों के संकेतों का उपयोग या तो के संभावित मूल्यों को बाध्य करने के लिए किया जा सकता है या यहां तक कि इसे ठीक से गणना करने के लिए भी किया जा सकता है। पूरी जानकारी के अभाव में, इस तथ्य से परे थोड़ा कहा जा सकता है कि जब रजिस्ट्रर रैखिक रूप से स्वतंत्र होते हैं, तो एक एकल नॉनज़रो बीटा का तात्पर्य नॉनज़ेरो है, का प्रदर्शन करना नॉनज़रो है।R2y^R2
एक चीज जो हम निश्चित रूप से सवाल में आउटपुट से समाप्त कर सकते हैं वह यह है कि डेटा सहसंबद्ध हैं: क्योंकि के वर्गों का योग, बराबर , (अर्थात ) के अधिकतम संभव मूल्य से अधिक है , कुछ होना चाहिए सह - संबंध।1.1301R21
एक और बात यह है कि बाद से सबसे बड़ा बीटा (आकार में) है , जिसका वर्ग है रिपोर्ट से अधिक --far की --we निष्कर्ष निकाल सकते हैं कि regressors के कुछ नकारात्मक सहसंबद्ध किया जाना चाहिए। (वास्तव में, की संभावना किसी भी नमूने में उम्र, वजन और वसा के साथ नकारात्मक रूप से सहसंबद्ध है जो बाद के मूल्यों की एक विस्तृत श्रृंखला को कवर करती है।)−0.830.69R20.20VO2max
यदि केवल दो रजिस्ट्रार थे, तो हम उच्च रेजिस्टर सहसंबंधों और बीटास के निरीक्षण के ज्ञान से बारे में अधिक जानकारी प्राप्त कर सकते हैं , क्योंकि यह हमें , , और सटीक स्केच बनाने में सक्षम करेगा। स्थित होना चाहिए। दुर्भाग्य से, इस छह-चर समस्या में अतिरिक्त regressors चीजों को काफी जटिल करते हैं। किसी भी दो चर का विश्लेषण करने में, हमें "अन्य चार रजिस्टरों (" कोवरिएट्स ") के लिए" बाहर निकालना "या" नियंत्रण "करना होगा। ऐसा करने में, हम सभी , औरR2x1x2y^x1x2yअज्ञात राशियों के आधार पर (उन तीनों कोविरेट्स से कैसे संबंधित हैं) के आधार पर, हमें उन वैक्टरों के वास्तविक आकार के बारे में लगभग कुछ भी नहीं पता है, जिनके साथ हम काम कर रहे हैं।