क्या एक बहु-परिवर्तनीय प्रतिगमन में अधिक चर जोड़ने से मौजूदा चर के गुणांक बदल जाते हैं?


16

मान लें कि मेरे पास एक बहुक्रियाशील (कई स्वतंत्र चर) प्रतिगमन हैं जिनमें 3 चर हैं। उन चर में से प्रत्येक में एक दिया गुणांक है। अगर मैं 4 वें चर को लागू करने और प्रतिगमन को फिर से शुरू करने का फैसला करता हूं, तो क्या 3 मूल चर के गुणांक बदल जाएंगे?

अधिक व्यापक रूप से: एक बहुविकल्पीय (कई स्वतंत्र चर) प्रतिगमन में, किसी अन्य चर के गुणांक से प्रभावित दिए गए चर का गुणांक है?


1
कृपया प्रश्न को अधिक सटीक होने के लिए संपादित करें। क्या आपके द्वारा multivariableकई स्वतंत्र चर ("एकाधिक प्रतिगमन") या कई आश्रित चर ("बहुभिन्नरूपी प्रतिगमन" या "MAN (C) OVA") का अर्थ है?
ttnphns

1
यदि उत्तर नहीं होता, तो पहले स्थान पर बहुक्रियात्मक प्रतिगमन करने की आवश्यकता नहीं होती! (हम बस कई
अविभाज्य

1
यह एक व्यावहारिक बिंदु है, @ user603, लेकिन मुझे लगता है कि कई प्रतिगमन के लिए अभी भी एक जगह हो सकती है, इसमें यदि अन्य चर सार्थक रूप से प्रतिक्रिया से संबंधित थे (यद्यपि व्याख्यात्मक चर नहीं है), तो वे अवशिष्ट गठबंधन को सुधार सकते हैं शक्ति और परिशुद्धता।
गंग - मोनिका

जवाबों:


23

एक प्रतिगमन मॉडल में एक पैरामीटर अनुमान β मैं अगर एक चर,) बदल जाएगा एक्स जे , मॉडल है कि में जोड़ा जाता है: β^iXj

  1. उस पैरा के संबंधित चर के साथ सहसंबद्ध, (जो पहले से ही मॉडल में था), औरXi
  2. प्रतिक्रिया चर के साथ सहसंबद्ध, Y

जब एक नया चर जोड़ा जाता है, तो अनुमानित बीटा नहीं बदलेगा, यदि उपरोक्त में से कोई भी असंबंधित है। ध्यान दें कि क्या वे आबादी में असंबद्ध हैं (यानी, , या ρ ( X j , Y ) = 0 ) अप्रासंगिक है। क्या मायने रखता है कि दोनों नमूना संबंध ठीक 0 हैं । यह अनिवार्य रूप से व्यवहार में कभी नहीं होगा जब तक कि आप प्रायोगिक डेटा के साथ काम नहीं कर रहे हैं जहां चर को इस तरह से हेरफेर किया गया था कि वे डिजाइन के साथ असंबंधित हैं। ρ(Xi,Xj)=0 ρ(Xj,Y)=00

यह भी ध्यान दें कि मापदंडों में परिवर्तन की मात्रा बहुत सार्थक नहीं हो सकती है (जो कि, आपके सिद्धांत पर कम से कम भाग में निर्भर करता है)। इसके अलावा, वे जिस राशि को बदल सकते हैं, वह ऊपर के दोनों सहसंबंधों के परिमाण का एक कार्य है।

एक अलग नोट पर, इस घटना को "किसी दिए गए चर के गुणांक [होने के नाते] दूसरे चर के गुणांक से प्रभावित" के रूप में सोचना सही नहीं है। यह एक -दूसरे को प्रभावित करने वाले दांव नहीं हैं। यह घटना एल्गोरिथ्म का एक स्वाभाविक परिणाम है जो सांख्यिकीय सॉफ़्टवेयर ढलान मापदंडों का अनुमान लगाने के लिए उपयोग करता है। एक स्थिति है जहाँ कल्पना कीजिए दोनों के कारण होता है एक्स मैं और एक्स जे , जो बारी में एक दूसरे के साथ सहसंबंध हैं। यदि केवल X i मॉडल में है, तो Y की भिन्नता जो X J के कारण है, अनुचित रूप से X i के लिए जिम्मेदार होगी।YXiXjXiYXjXi। इसका मतलब है कि का मूल्य पक्षपाती है; इसे लोपेड वैरिएबल बायस कहा जाता हैXi


उस अंतिम वाक्य में बहुत अच्छा बिंदु।
Glen_b -Reinstate मोनिका


@gung मुझे पता है कि आपका उत्तर पुराना है, लेकिन मैंने इस ideone.com/6CAkSR की कोशिश की, जहाँ मैंने और x 2 बनाए हैं, सहसंबद्ध हैं और x 1 y से असंबद्ध है । लेकिन जब मैंने मॉडल में x 1 जोड़ा , तो x2 का पैरामीटर बदल गया, हालांकि x 1 y से असंबद्ध है । आपने अपने उत्तर में कहा था "प्रतिक्रिया चर के साथ सहसंबद्ध, वाई एक अनुमानित चर नहीं बदलेगा जब एक नया चर जोड़ा जाता है, यदि उपरोक्त दोनों में से कोई भी असंबंधित है।" क्या मै गलत हु? yx2x1yx1x1yY
फ्लोयड

1
यह पूरी तरह से असंबंधित होने की जरूरत है, न केवल काफी सहसंबद्ध, @floyd। यदि ऐसा है, तो लिए बीटा को तब तक नहीं बदलना चाहिए जब तक कि कुछ त्रुटि न हो। s1
गंग - मोनिका

@ उत्तर वापस करने के लिए बहुत बहुत धन्यवाद। क्या आप इस तरह के सही डेटा बनाने का एक तरीका जानते हैं? मुझे पता है कि वास्तविक जीवन में ऐसा नहीं हो सकता
फ्लोयड

3

यह गणितीय रूप से संभव है कि गुणांक नहीं बदलेगा, लेकिन यह संभावना नहीं है कि वास्तविक डेटा के साथ बिल्कुल भी कोई बदलाव नहीं होगा, भले ही सभी स्वतंत्र चर एक दूसरे से स्वतंत्र हों। लेकिन, जब यह मामला होता है, तो परिवर्तन (अवरोधन के अलावा) 0 हो जाएगा:

set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)

वास्तविक दुनिया में, हालांकि, स्वतंत्र चर अक्सर एक दूसरे से संबंधित होते हैं। इस मामले में, समीकरण में 4 वां चर जोड़ने से अन्य गुणांक बदल जाएंगे, कभी-कभी बहुत अधिक।

फिर संभावित बातचीत हो सकती है .... लेकिन यह एक और सवाल है।


1

सामान्यतया, हाँ, एक चर जोड़ने से पहले के गुणांक में परिवर्तन होता है, लगभग हमेशा।

वास्तव में, यह अनिवार्य रूप से सिम्पसन के विरोधाभास का कारण है , जहां गुणांक बदल सकते हैं, यहां तक ​​कि लटके साइन के कारण, रिवर्स साइन भी।

ऐसा न हो, इसके लिए हमें आवश्यकता होगी कि नए वैरिएबल पिछले वाले ऑर्थोगोनल थे। यह अक्सर डिज़ाइन किए गए प्रयोगों में होता है, लेकिन डेटा में ऐसा होने की संभावना नहीं है जहां स्वतंत्र चर का पैटर्न अनियोजित है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.