एकाधिक प्रतिगमन मॉडल में सहसंबद्ध भविष्यवाणियों के होने का क्या प्रभाव है?


45

मैंने अपने रैखिक मॉडल वर्ग में सीखा कि यदि दो भविष्यवाणियों को सहसंबंधित किया जाता है और दोनों को एक मॉडल में शामिल किया जाता है, तो एक महत्वहीन होगा। उदाहरण के लिए, एक घर के आकार और बेडरूम की संख्या सहसंबद्ध हैं। जब इन दो भविष्यवक्ताओं का उपयोग करके घर की लागत का अनुमान लगाया जाता है, तो उनमें से एक को गिराया जा सकता है क्योंकि वे दोनों एक ही जानकारी प्रदान कर रहे हैं। सहज रूप से, यह समझ में आता है, लेकिन मेरे पास कुछ और तकनीकी प्रश्न हैं:

  1. यह प्रभाव प्रतिगमन गुणांक के पी-मूल्यों में स्वयं को कैसे प्रकट करता है जब मॉडल में केवल एक या दोनों भविष्यवाणियों को शामिल किया जाता है?
  2. प्रतिगमन गुणांक के प्रसरण मॉडल में दोनों पूर्वजों को शामिल करने या केवल एक होने से कैसे प्रभावित होता है?
  3. मुझे कैसे पता चलेगा कि कौन सा भविष्यवक्ता कम महत्वपूर्ण होगा?
  4. केवल एक या दोनों भविष्यवाणियों को शामिल करने से मेरी पूर्वानुमानित लागत का मूल्य / संस्करण कैसे बदल जाता है?

6
आपके कुछ प्रश्नों के उत्तर अन्य थ्रेड्स में प्रकट हुए हैं, जैसे आँकड़े.स्टैकएक्सचेंज . com / a / 14528 पर , जो एक ऐसी स्थिति का वर्णन करता है जिसमें केवल हल्के से सहसंबद्ध भविष्यवक्ताओं के सेट में से हर एक का सामूहिक रूप से महत्वहीन प्रतीत होता है मॉडल में। यह सवालों का एक अच्छा सेट है, लेकिन बड़ी संख्या में विचार और तकनीक की ओर जाता है; पूरी किताबें उनके बारे में लिखी गई हैं। उदाहरण के लिए, फ्रैंक हैरेल की प्रतिगमन मॉडलिंग रणनीतियाँ देखें
whuber

1
घर के आकार और बेडरूम का उपयोग करते हुए, आप देख सकते हैं कि महत्व की गारंटी नहीं है यदि सहसंबंध 1 या -1 से अलग है। वास्तव में एक ही आकार के 2-बेडरूम और 3-बेडरूम वाले घर मौजूद हैं, और उनकी लागत अलग-अलग हो सकती है, जिससे दोनों भविष्यवक्ता महत्वपूर्ण हो सकते हैं। हालांकि, वर्ग मीटर में आकार और वर्ग फुट में आकार का संबंध = 1 है और उनमें से एक को हमेशा गिराया जा सकता है।
Pere

जवाबों:


38

आप जिस विषय के बारे में पूछ रहे हैं, वह मल्टीकोलीनिटी है । आप टैग के तहत वर्गीकृत सीवी पर कुछ सूत्र पढ़ना चाह सकते हैं । @ व्हिबर का उत्तर विशेष रूप से ऊपर दिया गया है, यह भी आपके समय के लायक है।


यह दावा कि "यदि दो भविष्यवक्ताओं को सहसंबद्ध किया जाता है और दोनों को एक मॉडल में शामिल किया जाता है, तो एक महत्वहीन होगा", सही नहीं है। यदि चर का वास्तविक प्रभाव होता है, तो संभावना महत्वपूर्ण होगी कि चर कई चीजों का एक कार्य होगा, जैसे कि प्रभाव का परिमाण, त्रुटि विचरण का परिमाण, चर का विचरण, डेटा की मात्रा आपके पास और मॉडल में अन्य चर की संख्या है। चाहे चर संबंधित हों या नहीं, यह भी प्रासंगिक है, लेकिन यह इन तथ्यों को ओवरराइड नहीं करता है। निम्नलिखित सरल प्रदर्शन पर विचार करें R:

library(MASS)    # allows you to generate correlated data
set.seed(4314)   # makes this example exactly replicable

# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20,   mu=c(0,0), Sigma=rbind(c(1.00, 0.70),    # r=.70
                                            c(0.70, 1.00)) )
X1 = mvrnorm(n=100,  mu=c(0,0), Sigma=rbind(c(1.00, 0.87),    # r=.87
                                            c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95),    # r=.95
                                            c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20)    # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100)   #  but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000)  #  related to the 1st

# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X0[, 1]       0.6614     0.3612   1.831   0.0847 .     # neither variable
# X0[, 2]       0.4215     0.3217   1.310   0.2075       #  is significant
summary(lm(y1~X1[,1]+X1[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X1[, 1]      0.57987    0.21074   2.752  0.00708 **    # only 1 variable
# X1[, 2]      0.25081    0.19806   1.266  0.20841       #  is significant
summary(lm(y2~X2[,1]+X2[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X2[, 1]      0.60783    0.09841   6.177 9.52e-10 ***   # both variables
# X2[, 2]      0.39632    0.09781   4.052 5.47e-05 ***   #  are significant

दो चर के बीच संबंध पहले उदाहरण में सबसे कम है और तीसरे में उच्चतम है, फिर भी पहले उदाहरण में न तो चर महत्वपूर्ण है और दोनों अंतिम उदाहरण में हैं। प्रभावों की भयावहता सभी तीन मामलों में समान है, और चर और त्रुटियों के प्रकार समान होने चाहिए (वे स्टोचस्टिक हैं, लेकिन एक ही विचरण वाली आबादी से खींचे गए हैं)। हमारे द्वारा देखा गया पैटर्न मुख्य रूप से प्रत्येक मामले के लिए एस को हेरफेर करने के कारण है । N


आपके प्रश्नों को हल करने के लिए समझने के लिए महत्वपूर्ण अवधारणा विचरण मुद्रास्फीति कारक (VIF) है। VIF यह है कि आपके प्रतिगमन गुणांक का विचरण कितना बड़ा है, यह अन्यथा तब होता है जब मॉडल में अन्य सभी चरों के साथ चर पूरी तरह से असंबंधित हो गया होता। ध्यान दें कि VIF एक गुणक कारक है, यदि विचाराधीन चर VIF = 1 असंबद्ध है। वीआईएफ का एक सरल समझ इस प्रकार है: यदि आप एक मॉडल एक चर (जैसे कि, भविष्यवाणी फिट सकता अपने मॉडल (जैसे कि, में अन्य सभी चर से) ), और एक बहु मिल । के लिए वीआईएफ होगा । मान लीजिए कि लिए VIF थेएक्स 2 आर 2 एक्स 1 1 / ( 1 - आर 2 ) एक्स 1 10 एक्स 1 10 × एक्स 1X1X2R2X11/(1R2)X110(अक्सर अत्यधिक लिए एक सीमा माना जाता है), तो लिए प्रतिगमन गुणांक के नमूने वितरण का इससे बड़ा होगा यदि मॉडल में अन्य सभी चर से पूरी तरह से असंबंधित था। X110×X1

यह सोचने के बारे में कि क्या होगा यदि आप दोनों सहसंबद्ध चर शामिल हैं बनाम केवल एक समान है, लेकिन ऊपर चर्चा की गई दृष्टिकोण से थोड़ा अधिक जटिल है। इसका कारण यह है कि एक चर शामिल नहीं है इसका मतलब है कि मॉडल स्वतंत्रता की कम डिग्री का उपयोग करता है, जो कि अवशिष्ट विचरण और उससे गणना की गई सभी चीजों को बदल देता है (प्रतिगमन गुणांकों के विचरण सहित)। इसके अलावा, यदि गैर-शामिल चर वास्तव में प्रतिक्रिया के साथ जुड़ा हुआ है, तो उस चर के कारण प्रतिक्रिया में विचरण को अवशिष्ट विचरण में शामिल किया जाएगा, जिससे यह उससे बड़ा होगा। इस प्रकार, कई चीजें एक साथ बदल जाती हैं (चर एक दूसरे चर के साथ सहसंबंधित या नहीं होता है, और अवशिष्ट विचरण), और अन्य चर सहित / छोड़ने का सटीक प्रभाव इस बात पर निर्भर करेगा कि वे व्यापार कैसे बंद करते हैं।


VIF की समझ से लैस, यहाँ आपके सवालों के जवाब दिए गए हैं:

  1. क्योंकि प्रतिगमन गुणांक के नमूना वितरण का विचरण बड़ा होगा (VIF के एक कारक द्वारा) यदि इसे मॉडल में अन्य चर के साथ जोड़ा गया था, तो पी-मान अधिक (यानी, कम महत्वपूर्ण) से अन्यथा होगा ।
  2. पहले से ही चर्चा के रूप में प्रतिगमन गुणांक के संस्करण बड़े होंगे।
  3. सामान्य तौर पर, यह मॉडल के लिए हल किए बिना जानना मुश्किल है। आमतौर पर, यदि केवल दो में से एक महत्वपूर्ण है, तो वह वही होगा जिसमें साथ मजबूत द्विभाजन सहसंबंध था । Y
  4. कैसे अनुमानित मान और उनका परिवर्तन होगा यह काफी जटिल है। यह इस बात पर निर्भर करता है कि चर कितनी दृढ़ता से सहसंबद्ध हैं और जिस तरह से वे आपके डेटा में आपकी प्रतिक्रिया चर के साथ जुड़े हुए दिखाई देते हैं। इस मुद्दे के बारे में, यह आपको मेरा जवाब पढ़ने में मदद कर सकता है: क्या कई प्रतिगमन में अन्य चर को 'नियंत्रित करने' और 'अनदेखा करने' के बीच अंतर है?

5

यह टिप्पणी अधिक है, लेकिन मैं एक ग्राफ और कुछ कोड शामिल करना चाहता था।

मुझे लगता है कि "अगर दो भविष्यवक्ताओं का संबंध है और दोनों को एक मॉडल में शामिल किया गया है, तो एक महत्वहीन होगा" यदि आप "केवल एक" का अर्थ गलत है। बाइनरी सांख्यिकीय महत्व का उपयोग चर चयन के लिए नहीं किया जा सकता है।

यहाँ जांघ परिधि, त्वचा गुना मोटाई *, और मध्य हाथ परिधि पर शरीर में वसा प्रतिशत के प्रतिगमन का उपयोग करते हुए मेरा प्रतिधारण है:

. webuse bodyfat, clear
(Body Fat)

. reg bodyfat thigh triceps midarm

      Source |       SS       df       MS              Number of obs =      20
-------------+------------------------------           F(  3,    16) =   21.52
       Model |  396.984607     3  132.328202           Prob > F      =  0.0000
    Residual |  98.4049068    16  6.15030667           R-squared     =  0.8014
-------------+------------------------------           Adj R-squared =  0.7641
       Total |  495.389513    19  26.0731323           Root MSE      =    2.48

------------------------------------------------------------------------------
     bodyfat |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       thigh |  -2.856842   2.582015    -1.11   0.285    -8.330468    2.616785
     triceps |   4.334085   3.015511     1.44   0.170    -2.058512    10.72668
      midarm |  -2.186056   1.595499    -1.37   0.190    -5.568362     1.19625
       _cons |   117.0844   99.78238     1.17   0.258    -94.44474    328.6136
------------------------------------------------------------------------------

. corr bodyfat thigh triceps midarm 
(obs=20)

             |  bodyfat    thigh  triceps   midarm
-------------+------------------------------------
     bodyfat |   1.0000
       thigh |   0.8781   1.0000
     triceps |   0.8433   0.9238   1.0000
      midarm |   0.1424   0.0847   0.4578   1.0000


. ellip thigh triceps, coefs plot( (scatteri `=_b[thigh]' `=_b[triceps]'), yline(0, lcolor(gray)) xline(0, lcolor(gray)) legend(off))

यहाँ छवि विवरण दर्ज करें

जैसा कि आप प्रतिगमन तालिका से देख सकते हैं, सब कुछ महत्वहीन है, हालांकि पी-मान थोड़ा भिन्न होते हैं।

अंतिम स्टैटा कमांड बिंदु अनुमान (लाल बिंदु) के साथ प्रतिगमन गुणांक (परिचित आत्मविश्वास अंतराल का एक दो आयामी एनालॉग) के 2 के लिए विश्वास क्षेत्र को रेखांकन करता है। त्वचा की मोटाई और जांघ की परिधि गुणांक के लिए आत्मविश्वास दीर्घवृत्त लंबे, संकीर्ण और झुका हुआ होता है, जो कि रजिस्टरों में कोलीनियरिटी को दर्शाता है। अनुमानित गुणांक के बीच उच्च नकारात्मक सहसंयोजक है। दीर्घवृत्त ऊर्ध्वाधर और क्षैतिज अक्षों के कुछ हिस्सों को कवर करता है, जिसका अर्थ है कि हम अलग-अलग परिकल्पनाओं को अस्वीकार नहीं कर सकते हैं जो कि s शून्य हैं, हालांकि हम संयुक्त नल को अस्वीकार कर सकते हैं, क्योंकि दोनों दीर्घवृत्त मूल को कवर नहीं करते हैं। दूसरे शब्दों में, शरीर की चर्बी के लिए या तो जांघ और त्रिशिस्क प्रासंगिक हैं, लेकिन आप यह निर्धारित नहीं कर सकते कि कौन सा अपराधी है।β

तो हम कैसे जानते हैं कि कौन से भविष्यवक्ता कम महत्वपूर्ण होंगे? एक प्रतिगामी में भिन्नता को दो प्रकारों में वर्गीकृत किया जा सकता है:

  1. प्रत्येक प्रतिगामी के लिए विविधता अद्वितीय है
  2. भिन्नता जो रजिस्टरों द्वारा साझा की जाती है

प्रत्येक प्रतिगामी के गुणांक का अनुमान लगाने में, केवल पहले का उपयोग किया जाएगा। सामान्य भिन्नता को अनदेखा किया जाता है क्योंकि इसे आवंटित नहीं किया जा सकता है, हालांकि इसका उपयोग भविष्यवाणी और गणना में किया जाता है । जब थोड़ी अनोखी जानकारी होगी, तो आत्मविश्वास कम होगा और गुणांक भिन्न होंगे। बहुसंख्यात्मकता जितनी अधिक होती है, उतनी ही छोटी भिन्नता, और भिन्नताएं अधिक होती हैं। R2


* त्वचा की तह ट्राइसेप्स मांसपेशी के ऊपर की गई त्वचा की तह की चौड़ाई होती है, और कैलीपर का उपयोग करके मापा जाता है।


मुझे आपका उदाहरण पसंद है, लेकिन कड़ाई से यह कहना एक प्रतिवाद होगा यदि मूल प्रश्न में कथन "अगर [...], केवल एक ही महत्वहीन होगा", लेकिन इसमें "केवल" शब्द नहीं है।
अमीबा का कहना है कि मोनिका

@amoeba यह एक उत्कृष्ट बिंदु है। मैं अपनी टिप्पणी में संशोधन करूंगा।
दिमित्री वी। मास्टरोव

क्या आप आगे चित्रण के लिए कुछ सूत्र प्रदान कर सकते हैं: "प्रत्येक प्रतिगामी के गुणांक का अनुमान लगाने में, केवल पहले का उपयोग किया जाएगा। आम भिन्नता को अनदेखा किया जाता है क्योंकि इसे आवंटित नहीं किया जा सकता है"
मैक

3

जैसा कि @whuber ने उल्लेख किया है, यह एक जटिल प्रश्न है। हालाँकि, आपके पोस्ट का पहला वाक्य एक विशाल सरलीकरण है। यह अक्सर ऐसा होता है कि दो (या अधिक) चर परस्पर संबंधित होंगे और दोनों आश्रित चर से संबंधित हैं। वे महत्वपूर्ण हैं या नहीं, यह दोनों प्रभाव आकार और सेल आकार पर निर्भर करता है।

आपके उदाहरण में, मान लीजिए कि, किसी दिए गए आकार के घर के लिए, लोगों ने कम कमरे पसंद किए (कम से कम NYC में, यह अनुचित नहीं है - यह पुरानी इमारतों, अधिक ठोस दीवारों आदि को इंगित करेगा, और पड़ोस के लिए एक मार्कर हो सकता है)। तब दोनों महत्वपूर्ण हो सकते हैं, विपरीत दिशाओं में!

या, मान लें कि दो चर घर आकार और पड़ोस थे - ये, निश्चित रूप से, बेहतर पड़ोस में बड़े घर होंगे - लेकिन वे अभी भी दोनों महत्वपूर्ण हो सकते हैं और दोनों निश्चित रूप से घर की कीमत से संबंधित होंगे।

इसके अलावा, केवल "सहसंबद्ध" मास्क जटिलताओं का उपयोग कर। विविधताएं सहसंबद्ध होने के बिना दृढ़ता से संबंधित हो सकती हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.