आप जिस विषय के बारे में पूछ रहे हैं, वह मल्टीकोलीनिटी है । आप बहुविकल्पीता टैग के तहत वर्गीकृत सीवी पर कुछ सूत्र पढ़ना चाह सकते हैं । @ व्हिबर का उत्तर विशेष रूप से ऊपर दिया गया है, यह भी आपके समय के लायक है।
यह दावा कि "यदि दो भविष्यवक्ताओं को सहसंबद्ध किया जाता है और दोनों को एक मॉडल में शामिल किया जाता है, तो एक महत्वहीन होगा", सही नहीं है। यदि चर का वास्तविक प्रभाव होता है, तो संभावना महत्वपूर्ण होगी कि चर कई चीजों का एक कार्य होगा, जैसे कि प्रभाव का परिमाण, त्रुटि विचरण का परिमाण, चर का विचरण, डेटा की मात्रा आपके पास और मॉडल में अन्य चर की संख्या है। चाहे चर संबंधित हों या नहीं, यह भी प्रासंगिक है, लेकिन यह इन तथ्यों को ओवरराइड नहीं करता है। निम्नलिखित सरल प्रदर्शन पर विचार करें R
:
library(MASS) # allows you to generate correlated data
set.seed(4314) # makes this example exactly replicable
# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20, mu=c(0,0), Sigma=rbind(c(1.00, 0.70), # r=.70
c(0.70, 1.00)) )
X1 = mvrnorm(n=100, mu=c(0,0), Sigma=rbind(c(1.00, 0.87), # r=.87
c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95), # r=.95
c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20) # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100) # but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000) # related to the 1st
# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X0[, 1] 0.6614 0.3612 1.831 0.0847 . # neither variable
# X0[, 2] 0.4215 0.3217 1.310 0.2075 # is significant
summary(lm(y1~X1[,1]+X1[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X1[, 1] 0.57987 0.21074 2.752 0.00708 ** # only 1 variable
# X1[, 2] 0.25081 0.19806 1.266 0.20841 # is significant
summary(lm(y2~X2[,1]+X2[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X2[, 1] 0.60783 0.09841 6.177 9.52e-10 *** # both variables
# X2[, 2] 0.39632 0.09781 4.052 5.47e-05 *** # are significant
दो चर के बीच संबंध पहले उदाहरण में सबसे कम है और तीसरे में उच्चतम है, फिर भी पहले उदाहरण में न तो चर महत्वपूर्ण है और दोनों अंतिम उदाहरण में हैं। प्रभावों की भयावहता सभी तीन मामलों में समान है, और चर और त्रुटियों के प्रकार समान होने चाहिए (वे स्टोचस्टिक हैं, लेकिन एक ही विचरण वाली आबादी से खींचे गए हैं)। हमारे द्वारा देखा गया पैटर्न मुख्य रूप से प्रत्येक मामले के लिए एस को हेरफेर करने के कारण है । एन
आपके प्रश्नों को हल करने के लिए समझने के लिए महत्वपूर्ण अवधारणा विचरण मुद्रास्फीति कारक (VIF) है। VIF यह है कि आपके प्रतिगमन गुणांक का विचरण कितना बड़ा है, यह अन्यथा तब होता है जब मॉडल में अन्य सभी चरों के साथ चर पूरी तरह से असंबंधित हो गया होता। ध्यान दें कि VIF एक गुणक कारक है, यदि विचाराधीन चर VIF = 1 असंबद्ध है। वीआईएफ का एक सरल समझ इस प्रकार है: यदि आप एक मॉडल एक चर (जैसे कि, भविष्यवाणी फिट सकता अपने मॉडल (जैसे कि, में अन्य सभी चर से) ), और एक बहु मिल । के लिए वीआईएफ होगा । मान लीजिए कि लिए VIF थेएक्स 2 आर 2 एक्स 1 1 / ( 1 - आर 2 ) एक्स 1 10 एक्स 1 10 × एक्स 1X1X2R2X11/(1−R2)X110(अक्सर अत्यधिक लिए एक सीमा माना जाता है), तो लिए प्रतिगमन गुणांक के नमूने वितरण का इससे बड़ा होगा यदि मॉडल में अन्य सभी चर से पूरी तरह से असंबंधित था। X110×X1
यह सोचने के बारे में कि क्या होगा यदि आप दोनों सहसंबद्ध चर शामिल हैं बनाम केवल एक समान है, लेकिन ऊपर चर्चा की गई दृष्टिकोण से थोड़ा अधिक जटिल है। इसका कारण यह है कि एक चर शामिल नहीं है इसका मतलब है कि मॉडल स्वतंत्रता की कम डिग्री का उपयोग करता है, जो कि अवशिष्ट विचरण और उससे गणना की गई सभी चीजों को बदल देता है (प्रतिगमन गुणांकों के विचरण सहित)। इसके अलावा, यदि गैर-शामिल चर वास्तव में प्रतिक्रिया के साथ जुड़ा हुआ है, तो उस चर के कारण प्रतिक्रिया में विचरण को अवशिष्ट विचरण में शामिल किया जाएगा, जिससे यह उससे बड़ा होगा। इस प्रकार, कई चीजें एक साथ बदल जाती हैं (चर एक दूसरे चर के साथ सहसंबंधित या नहीं होता है, और अवशिष्ट विचरण), और अन्य चर सहित / छोड़ने का सटीक प्रभाव इस बात पर निर्भर करेगा कि वे व्यापार कैसे बंद करते हैं।
VIF की समझ से लैस, यहाँ आपके सवालों के जवाब दिए गए हैं:
- क्योंकि प्रतिगमन गुणांक के नमूना वितरण का विचरण बड़ा होगा (VIF के एक कारक द्वारा) यदि इसे मॉडल में अन्य चर के साथ जोड़ा गया था, तो पी-मान अधिक (यानी, कम महत्वपूर्ण) से अन्यथा होगा ।
- पहले से ही चर्चा के रूप में प्रतिगमन गुणांक के संस्करण बड़े होंगे।
- सामान्य तौर पर, यह मॉडल के लिए हल किए बिना जानना मुश्किल है। आमतौर पर, यदि केवल दो में से एक महत्वपूर्ण है, तो वह वही होगा जिसमें साथ मजबूत द्विभाजन सहसंबंध था । Y
- कैसे अनुमानित मान और उनका परिवर्तन होगा यह काफी जटिल है। यह इस बात पर निर्भर करता है कि चर कितनी दृढ़ता से सहसंबद्ध हैं और जिस तरह से वे आपके डेटा में आपकी प्रतिक्रिया चर के साथ जुड़े हुए दिखाई देते हैं। इस मुद्दे के बारे में, यह आपको मेरा जवाब पढ़ने में मदद कर सकता है: क्या कई प्रतिगमन में अन्य चर को 'नियंत्रित करने' और 'अनदेखा करने' के बीच अंतर है?