क्या एक बहु-परिवर्तनीय प्रतिगमन में अधिक चर जोड़ने से मौजूदा चर के गुणांक बदल जाते हैं?

मान लें कि मेरे पास एक बहुक्रियाशील (कई स्वतंत्र चर) प्रतिगमन हैं जिनमें 3 चर हैं। उन चर में से प्रत्येक में एक दिया गुणांक है। अगर मैं 4 वें चर को लागू करने और प्रतिगमन को फिर से शुरू करने का फैसला करता हूं, तो क्या 3 मूल चर के गुणांक बदल जाएंगे?

अधिक व्यापक रूप से: एक बहुविकल्पीय (कई स्वतंत्र चर) प्रतिगमन में, किसी अन्य चर के गुणांक से प्रभावित दिए गए चर का गुणांक है?

regression multiple-regression multivariable

— लुकास पलेवा
स्रोत

कृपया प्रश्न को अधिक सटीक होने के लिए संपादित करें। क्या आपके द्वारा multivariableकई स्वतंत्र चर ("एकाधिक प्रतिगमन") या कई आश्रित चर ("बहुभिन्नरूपी प्रतिगमन" या "MAN (C) OVA") का अर्थ है?

— ttnphns

यदि उत्तर नहीं होता, तो पहले स्थान पर बहुक्रियात्मक प्रतिगमन करने की आवश्यकता नहीं होती! (हम बस कई

— अविभाज्य

यह एक व्यावहारिक बिंदु है, @ user603, लेकिन मुझे लगता है कि कई प्रतिगमन के लिए अभी भी एक जगह हो सकती है, इसमें यदि अन्य चर सार्थक रूप से प्रतिक्रिया से संबंधित थे (यद्यपि व्याख्यात्मक चर नहीं है), तो वे अवशिष्ट गठबंधन को सुधार सकते हैं शक्ति और परिशुद्धता।

— गंग - मोनिका

जवाबों:

एक प्रतिगमन मॉडल में एक पैरामीटर अनुमान अगर एक चर,) बदल जाएगा , मॉडल है कि में जोड़ा जाता है: $\hat\beta_i$ $X_j$

उस पैरा के संबंधित चर के साथ सहसंबद्ध, (जो पहले से ही मॉडल में था), और $X_i$
प्रतिक्रिया चर के साथ सहसंबद्ध, $Y$

जब एक नया चर जोड़ा जाता है, तो अनुमानित बीटा नहीं बदलेगा, यदि उपरोक्त में से कोई भी असंबंधित है। ध्यान दें कि क्या वे आबादी में असंबद्ध हैं (यानी, , या ) अप्रासंगिक है। क्या मायने रखता है कि दोनों नमूना संबंध ठीक । यह अनिवार्य रूप से व्यवहार में कभी नहीं होगा जब तक कि आप प्रायोगिक डेटा के साथ काम नहीं कर रहे हैं जहां चर को इस तरह से हेरफेर किया गया था कि वे डिजाइन के साथ असंबंधित हैं। $\rho_{(X_i, X_j)}=0$ $\rho_{(X_j, Y)}=0$ $0$

यह भी ध्यान दें कि मापदंडों में परिवर्तन की मात्रा बहुत सार्थक नहीं हो सकती है (जो कि, आपके सिद्धांत पर कम से कम भाग में निर्भर करता है)। इसके अलावा, वे जिस राशि को बदल सकते हैं, वह ऊपर के दोनों सहसंबंधों के परिमाण का एक कार्य है।

एक अलग नोट पर, इस घटना को "किसी दिए गए चर के गुणांक [होने के नाते] दूसरे चर के गुणांक से प्रभावित" के रूप में सोचना सही नहीं है। यह एक -दूसरे को प्रभावित करने वाले दांव नहीं हैं। यह घटना एल्गोरिथ्म का एक स्वाभाविक परिणाम है जो सांख्यिकीय सॉफ़्टवेयर ढलान मापदंडों का अनुमान लगाने के लिए उपयोग करता है। एक स्थिति है जहाँ कल्पना कीजिए दोनों के कारण होता है और , जो बारी में एक दूसरे के साथ सहसंबंध हैं। यदि केवल मॉडल में है, तो की भिन्नता जो कारण है, अनुचित रूप से लिए जिम्मेदार होगी। $Y$ $X_i$ $X_j$ $X_i$ $Y$ $X_j$ $X_i$ । इसका मतलब है कि का मूल्य पक्षपाती है; इसे लोपेड वैरिएबल बायस कहा जाता है । $X_i$

— गुंग - को पुनः स्थापित मोनिका
स्रोत

उस अंतिम वाक्य में बहुत अच्छा बिंदु।

— Glen_b -Reinstate मोनिका

मैं अपने जवाब यहाँ में इस मुद्दे का दूसरा पहलू पर चर्चा: आकलन

के बजाय

b_{1} x_{1} + b_{2} x_{2}

$b_1x_1+b_2x_2$

b_{1} x_{1} + b_{2} x_{2} + b_{3} x_{3}

$b_1x_1+b_2x_2+b_3x_3$ ।

— गुंग - को पुनः स्थापित मोनिका

@gung मुझे पता है कि आपका उत्तर पुराना है, लेकिन मैंने इस ideone.com/6CAkSR की कोशिश की, जहाँ मैंने

और

बनाए हैं, सहसंबद्ध हैं और

से असंबद्ध है । लेकिन जब मैंने मॉडल में

जोड़ा , तो x2 का पैरामीटर बदल गया, हालांकि

से असंबद्ध है । आपने अपने उत्तर में कहा था "प्रतिक्रिया चर के साथ सहसंबद्ध,

एक अनुमानित चर नहीं बदलेगा जब एक नया चर जोड़ा जाता है, यदि उपरोक्त दोनों में से कोई भी असंबंधित है।" क्या मै गलत हु?

y

$y$

x 2

$x2$

x 1

$x1$

y

$y$

x 1

$x1$

x 1

$x1$

y

$y$

Y

$Y$

— फ्लोयड

यह पूरी तरह से असंबंधित होने की जरूरत है, न केवल काफी सहसंबद्ध, @floyd। यदि ऐसा है, तो

लिए बीटा को तब तक नहीं बदलना चाहिए जब तक कि कुछ त्रुटि न हो।

s_{1}

$s_1$

— गंग - मोनिका

@ उत्तर वापस करने के लिए बहुत बहुत धन्यवाद। क्या आप इस तरह के सही डेटा बनाने का एक तरीका जानते हैं? मुझे पता है कि वास्तविक जीवन में ऐसा नहीं हो सकता

— फ्लोयड

यह गणितीय रूप से संभव है कि गुणांक नहीं बदलेगा, लेकिन यह संभावना नहीं है कि वास्तविक डेटा के साथ बिल्कुल भी कोई बदलाव नहीं होगा, भले ही सभी स्वतंत्र चर एक दूसरे से स्वतंत्र हों। लेकिन, जब यह मामला होता है, तो परिवर्तन (अवरोधन के अलावा) 0 हो जाएगा:

set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)

वास्तविक दुनिया में, हालांकि, स्वतंत्र चर अक्सर एक दूसरे से संबंधित होते हैं। इस मामले में, समीकरण में 4 वां चर जोड़ने से अन्य गुणांक बदल जाएंगे, कभी-कभी बहुत अधिक।

फिर संभावित बातचीत हो सकती है .... लेकिन यह एक और सवाल है।

— पीटर Flom - को पुनः स्थापित मोनिका
स्रोत

सामान्यतया, हाँ, एक चर जोड़ने से पहले के गुणांक में परिवर्तन होता है, लगभग हमेशा।

वास्तव में, यह अनिवार्य रूप से सिम्पसन के विरोधाभास का कारण है , जहां गुणांक बदल सकते हैं, यहां तक कि लटके साइन के कारण, रिवर्स साइन भी।

ऐसा न हो, इसके लिए हमें आवश्यकता होगी कि नए वैरिएबल पिछले वाले ऑर्थोगोनल थे। यह अक्सर डिज़ाइन किए गए प्रयोगों में होता है, लेकिन डेटा में ऐसा होने की संभावना नहीं है जहां स्वतंत्र चर का पैटर्न अनियोजित है।

— Glen_b -Reinstate मोनिका
स्रोत