क्या रेखीय प्रतिगमन में मानकीकृत गुणांक का उपयोग का अनुमान लगाने के लिए किया जा सकता है ?


9

मैं एक लेख के परिणामों की व्याख्या करने की कोशिश कर रहा हूं, जहां उन्होंने विभिन्न परिणामों की भविष्यवाणी करने के लिए कई प्रतिगमन लागू किए हैं। हालाँकि, का (मानकीकृत B गुणांकों को रूप में परिभाषित किया गया है जहाँ निर्भर है। चर और एक है) रिपोर्ट की गई से मेल नहीं खाती है :ββx1=Bx1SDx1SDyyx1R2

यहाँ छवि विवरण दर्ज करें

-0.83, -0.29, -0.16, -0.43, 0.25 और -0.29 के बावजूद , रिपोर्ट किया गया केवल 0.20 है।βR2

इसके अलावा, तीन भविष्यवक्ता: वजन, बीएमआई और वसा% बहु-कोलीनियर हैं, जो कि सेक्स के भीतर एक दूसरे के साथ r = 0.8-0.9 के आसपास सहसंबद्ध हैं।

क्या मान इन साथ प्रशंसनीय है , या वहाँ कोई सीधा संबंध नहीं है बीच और ?R2ββR2

इसके अतिरिक्त, मल्टीकोलिनियर भविष्यवक्ताओं के साथ समस्याएँ एक चौथे भविष्यवक्ता (VO2max) के को प्रभावित कर सकती हैं , जो उपरोक्त तीनों चर के साथ r = 0.4 के आसपास सहसंबद्ध है?β


इस संदर्भ में क्या है ? एक बीटा गुणांक (मानकीकृत प्रतिगमन)? या कुछ और? यदि ऐसा है, तो आप उन्हें वास्तव में कुछ भी नहीं कह सकते हैं जो आपको मिलता है, मानक विचलन के संदर्भ में एक व्याख्या है। तथ्य यह है कि गुणांक बड़े प्रभाव का तात्पर्य करता है, उच्च मूल्य का अर्थ नहीं करता हैβR2
रेपमत

1
co मानक बी गुणांक के लिए खड़ा है। 1 प्रेडिक्टर केस के लिए's पीयरसन के आर के बराबर है, जो सीधे आर-स्क्वैयर से संबंधित है, हालांकि इस बहुभिन्नरूपी मामले में, उच्च imp का इंप्लीमेंट उच्च आर-स्क्वेर क्यों नहीं है?
सकरी जुकरैनें

2
नहीं, एक प्रतिगामी मामले में पियर्सन के सहसंबंध के बराबर नहीं है: । s और के बीच का संबंध उतना सरल नहीं है। ββ=Cov(y,x)Var(x)Cov(y,x)Var(y)×Var(x)=ρ(y,x)βR2
रिचर्ड हार्डी

5
@ रीचर्डहार्डी मुझे संदेह है कि भ्रम यह है कि सकरी ने _ को मानकीकृत प्रतिगमन गुणांक के रूप में परिभाषित किया है। एक द्विभाजित रैखिक प्रतिगमन में प्रतिगमन गुणांक ( सकरी संकेतन में ) , जहाँ सहसंबंध है और मानक है। एक प्रतिगमन गुणांक को मानकीकृत करने के लिए हम गुणांक को के मानक विचलन से विभाजित करते हैं और उस मानक विचलन के साथ गुणा करते हैं , इसलिए केवल सहसंबंध ही बचा है। इसलिए सकरी सही है। βbrxysysxrsyx
मार्टन बुइस

मैं अभी भी नहीं देखता कि आप इसे गलत क्यों मानते हैं? यदि कागज में कुछ सारांश आँकड़े हैं, तो आप यह जाँच सकते हैं कि संख्याएँ कितनी हैं। आपने ऐसा करने का सूत्र भी प्रदान किया। आप निष्कर्ष नहीं निकाल सकते हैं, क्योंकि प्रभाव abosulte शब्दों में बड़े हैं, कि मॉडल y में विचरण को स्पष्ट करने में अच्छा काम करता है।

जवाबों:


17

साधारण न्यूनतम वर्ग प्रतिगमन की ज्यामितीय व्याख्या अपेक्षित अंतर्दृष्टि प्रदान करती है।

हम क्या पता करने के लिए दो regressors के मामले में देखा जा सकता है की जरूरत के अधिकांश और प्रतिक्रिया के साथ । मानकीकृत गुणांकों, या "बीटा," पैदा होती है जब सभी तीन वैक्टर एक आम लंबाई (जिसे हम एकता होने के लिए लग सकता है) करने के लिए मानकीकृत कर रहे हैं। इस प्रकार, और एक प्लेन में यूनिट वैक्टर हैं - वे यूनिट सर्कल पर स्थित हैं - और उस प्लेन वाले तीन आयामी यूक्लिडियन स्पेस में एक यूनिट वेक्टर है । फिटेड वैल्यू , पर का ऑर्थोगोनल (लंबवत) प्रक्षेपण है । क्योंकिx1x2yx1x2E2yE3y^yE2R2बस की चुकता की लंबाई है , हमें सभी तीन आयामों की कल्पना करने की भी आवश्यकता नहीं है: हमें जो भी जानकारी चाहिए वह सभी उस विमान में खींची जा सकती है।y^

ऑर्थोगोनल रजिस्ट्रार

सबसे अच्छी स्थिति तब होती है जब रजिस्टर्स ऑर्थोगोनल होते हैं, जैसा कि पहले आंकड़े में है।

चित्रा 1, एक विमान में वैक्टर के रूप में रेजिस्टर्स और $ \ टोपी y $ दिखा रहा है।

इसमें और बाकी के आंकड़े मैं लगातार सफेद में इकाई डिस्क और काले तीर के रूप में रजिस्टरों को आकर्षित करूंगा। हमेशा दाईं ओर सीधे इंगित करेगा। मोटे लाल तीर और दिशाओं में के घटकों को हैं: अर्थात, और । की लंबाई लेकिन याद रखें कि - भूरा चक्र जिस पर यह झूठ की त्रिज्या है हैx1y^x1x2β1x1β2x2y^R2 वर्ग कि लंबाई की।

पाइथागोरस प्रमेय का दावा

R2=|y^|2=|β1x1|2+|β2x2|2=β12(1)+β22(1)=β12+β22.

क्योंकि पायथागॉरियन प्रमेय किसी भी संख्या में आयाम रखता है, यह तर्क किसी भी संख्या में regressors को सामान्य करता है, हमारा पहला परिणाम देता है:

जब रेजिस्टेंट ऑर्थोगोनल होते हैं, बेट्स के वर्गों के योग के बराबर होता है।R2

एक तात्कालिक कोरलरी यह है कि जब कोई एक प्रतिगामी होता है - यूनीवेट रिग्रेशन-- मानकीकृत ढलान का वर्ग होता है।R2

सहसंबद्ध

नकारात्मक सहसंबद्ध रजिस्ट्रार एक समकोण से अधिक कोणों पर मिलते हैं।

चित्रा 2, नकारात्मक सहसंबद्ध रजिस्टरों दिखा रहा है

इस छवि में यह स्पष्ट रूप से स्पष्ट है कि बेटों के वर्गों का योग से कड़ाई से अधिक है । यह बीजगणितीय रूप से कोसाइन के नियम का उपयोग करके या सामान्य समीकरणों के मैट्रिक्स समाधान के साथ काम करके साबित किया जा सकता है।R2

दो रजिस्टरों को लगभग समानांतर बनाकर, हम को मूल के पास ( पास ) स्थिति में रख सकते हैं जबकि इसमें और दिशा में बड़े घटक होते हैं। इस प्रकार, कितना छोटा हो सकता है, इसकी कोई सीमा नहीं है।y^R20x1x2R2

आकृति

आइए इस स्पष्ट परिणाम को याद करते हैं, हमारी दूसरी व्यापकता:

जब रजिस्टरों को सहसंबद्ध किया जाता है, तो दांव के वर्गों के योग की तुलना में मनमाने ढंग से छोटा हो सकता है।R2

हालांकि, यह एक सार्वभौमिक संबंध नहीं है, जैसा कि अगला आंकड़ा दर्शाता है।

चित्रा 3, नकारात्मक सहसंबद्ध रजिस्टरों दिखा रहा है, लेकिन betas विपरीत संकेत है।

अब सट्टे के वर्गों के योग को कड़ाई से बढ़ाता है। दो रजिस्टरों को एक साथ पास करके और उनके बीच रखने से , हम दोनों को आरए बना सकते हैं , भले ही करीब हो । आगे के विश्लेषण के लिए कुछ बीजगणित की आवश्यकता हो सकती है: मैं इसे नीचे ले जाता हूं।R2y^1/2R21

मैं इसे सकारात्मक रूप से सहसंबद्ध रजिस्टरों के साथ इसी तरह के उदाहरणों के निर्माण के लिए आपकी कल्पना पर छोड़ देता हूं, जो कि तीव्र कोणों पर मिलते हैं।

ध्यान दें कि ये निष्कर्ष अधूरे हैं: बेटों के वर्गों के योग की तुलना में की तुलना में कम सीमाएं हैं । विशेष रूप से, संभावनाओं की सावधानीपूर्वक जांच करके, आप निष्कर्ष निकाल सकते हैं (दो रजिस्टरों के साथ एक प्रतिगमन के लिए)R2

जब रजिस्टरों को सकारात्मक रूप से सहसंबद्ध किया जाता है और बेटों के पास एक सामान्य संकेत होता है, या जब रजिस्टरों को नकारात्मक रूप से सहसंबद्ध किया जाता है और बेटों के अलग-अलग संकेत होते हैं, तो कम से कम उतना बड़ा होना चाहिए जितना कि बेटों के वर्गों का योग। R2


बीजगणितीय परिणाम

आमतौर पर, (कॉलम वैक्टर) और प्रतिक्रिया । मानकीकरण का अर्थ है (ए) प्रत्येक वेक्टर के लिए और (b) उनके पास इकाई लंबाई है:x1,x2,,xpy(1,1,,1)

|xi|2=|y|2=1.

स्तंभ वैक्टर को मैट्रिक्स में इकट्ठा करें । मैट्रिक्स गुणन के नियम का अर्थ है किxin×pX

Σ=XX

का सहसंबंध मैट्रिक्स है । बेटास सामान्य समीकरणों द्वारा दिए जाते हैं,xi

β=(XX)1Xy=Σ1(Xy).

इसके अलावा, परिभाषा के अनुसार, फिट है

y^=Xβ=X(Σ1Xy).

इसकी चुकता की लम्बाई परिभाषा द्वारा है:R2

R2=|y^|2=y^y^=(Xβ)(Xβ)=β(XX)β=βΣβ.

ज्यामितीय विश्लेषण ने सुझाव दिया कि हम से संबंधित असमानताओं की तलाश करते हैं और दांव के वर्गों का योग,R2

i=1pβi2=ββ.

किसी भी मैट्रिक्स के आदर्श अपने गुणांक के वर्गों का योग द्वारा दिया जाता है (मूल रूप से का एक वेक्टर के रूप में मैट्रिक्स के इलाज , एक इयूक्लिडियन स्थान में घटक)L2Ap2

|A|22=i,jaij2=tr(AA)=tr(AA).

कॉची-श्वार्ज़ असमानता का तात्पर्य है

R2=tr(R2)=tr(βΣβ)=tr(Σββ)|Σ|2|ββ|2=|Σ|2ββ.

चूँकि चुकंदर सहसंबंध गुणांक से अधिक नहीं हो सकता है और मैट्रिक्स में उनमें से सिर्फ हैं , से अधिक नहीं हो सकता । इसलिये1p2p×pΣ|Σ|21×p2=p

R2pββ.

उदाहरण के लिए, असमानता प्राप्त होती है, जब सभी पूरी तरह से सकारात्मक रूप से सहसंबद्ध होते हैं।xi

कितना बड़ा हो सकता है, इस पर एक ऊपरी सीमा है। प्रति रजिस्ट्रार, औसत मूल्य, मानकीकृत गुणांक के वर्गों के योग से अधिक नहीं हो सकता है।R2R2/p


निष्कर्ष

हम सामान्य रूप से क्या निष्कर्ष निकाल सकते हैं? जाहिर है, रजिस्टरों के सहसंबंध संरचना के बारे में जानकारी के साथ-साथ बेटों के संकेतों का उपयोग या तो के संभावित मूल्यों को बाध्य करने के लिए किया जा सकता है या यहां तक ​​कि इसे ठीक से गणना करने के लिए भी किया जा सकता है। पूरी जानकारी के अभाव में, इस तथ्य से परे थोड़ा कहा जा सकता है कि जब रजिस्ट्रर रैखिक रूप से स्वतंत्र होते हैं, तो एक एकल नॉनज़रो बीटा का तात्पर्य नॉनज़ेरो है, का प्रदर्शन करना नॉनज़रो है।R2y^R2

एक चीज जो हम निश्चित रूप से सवाल में आउटपुट से समाप्त कर सकते हैं वह यह है कि डेटा सहसंबद्ध हैं: क्योंकि के वर्गों का योग, बराबर , (अर्थात ) के अधिकतम संभव मूल्य से अधिक है , कुछ होना चाहिए सह - संबंध।1.1301R21

एक और बात यह है कि बाद से सबसे बड़ा बीटा (आकार में) है , जिसका वर्ग है रिपोर्ट से अधिक --far की --we निष्कर्ष निकाल सकते हैं कि regressors के कुछ नकारात्मक सहसंबद्ध किया जाना चाहिए। (वास्तव में, की संभावना किसी भी नमूने में उम्र, वजन और वसा के साथ नकारात्मक रूप से सहसंबद्ध है जो बाद के मूल्यों की एक विस्तृत श्रृंखला को कवर करती है।)0.830.69R20.20VO2max

यदि केवल दो रजिस्ट्रार थे, तो हम उच्च रेजिस्टर सहसंबंधों और बीटास के निरीक्षण के ज्ञान से बारे में अधिक जानकारी प्राप्त कर सकते हैं , क्योंकि यह हमें , , और सटीक स्केच बनाने में सक्षम करेगा। स्थित होना चाहिए। दुर्भाग्य से, इस छह-चर समस्या में अतिरिक्त regressors चीजों को काफी जटिल करते हैं। किसी भी दो चर का विश्लेषण करने में, हमें "अन्य चार रजिस्टरों (" कोवरिएट्स ") के लिए" बाहर निकालना "या" नियंत्रण "करना होगा। ऐसा करने में, हम सभी , औरR2x1x2y^x1x2yअज्ञात राशियों के आधार पर (उन तीनों कोविरेट्स से कैसे संबंधित हैं) के आधार पर, हमें उन वैक्टरों के वास्तविक आकार के बारे में लगभग कुछ भी नहीं पता है, जिनके साथ हम काम कर रहे हैं।


+1 लेकिन मुझे यह समझ में नहीं आता है कि, गैर-ऑर्थोगोनल मामले में, आप भविष्यवक्ता कुल्हाड़ियों के लिए वेक्टर ऑर्थोगोनल प्रोजेक्ट करते हैं, क्योंकि प्रोजेक्टिंग बिंदीदार लाइनों को अन्य भविष्यवक्ता के समानांतर जाने का विरोध करता है। यह बोझिल लगता है लेकिन मुझे लगता है कि आप देखेंगे कि मेरा क्या मतलब है। आपके "अनुमान" (दो छोटे लाल वैक्टर) बड़े लाल वेक्टर पाने के लिए कुछ नहीं करते हैं । y^y^
अमीबा

@amoeba आप काफी सही हैं। मुझे इन चित्रों को बनाने में बहुत जल्दबाजी हुई है! मैं (उम्मीद है कि अस्थायी रूप से) इस पोस्ट को तब तक हटा दूंगा जब तक मुझे समस्या को ठीक करने का अवसर नहीं मिलता। इस बारे में बताने के लिए शुक्रिया।
whuber

@Amoeba मैंने चित्रों को सही किया है और उनका मिलान करने के लिए विश्लेषण को संशोधित किया है। हालाँकि विवरण काफी हद तक बदल गए हैं, निष्कर्ष समान हैं।
whuber

1
@amoeba फिर आप सही हैं। इच्छुक पाठकों को खोने के कुछ जोखिम में, लेकिन अब ज्यामितीय अंतर्ज्ञान को निर्धारित करने के लिए मजबूर महसूस कर रहा हूं, मैंने उस निष्कर्ष को कड़ा कर दिया है और इसे थोड़ा बीजगणित के साथ उचित ठहराया है। (मुझे विश्वास बीजगणित सही है!)
whuber

1
आपका बहुत बहुत धन्यवाद! एक सिडेनोट के रूप में, VO2max को वजन और बीएमआई के साथ नकारात्मक रूप से सहसंबद्ध किया जाता है, क्योंकि वे उच्च दुबला शरीर द्रव्यमान से जुड़े होते हैं। उक्त तालिका में VO2max वास्तव में वजन से विभाजित VO2max से मेल खाती है (जो शरीर के आकार के लिए VO2max को खराब करने का एक बुरा तरीका है)। तालिका में VO2max / वजन को नकारात्मक रूप से सभी अन्य भविष्यवाणियों के साथ सहसंबद्ध किया गया है, सेक्स को छोड़कर, जो उच्च the लेकिन कम आर-वर्ग की व्याख्या कर सकता है, जैसा कि आपने उल्लेख किया है।
सकरी जुकरैनें
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.