2nd IV को जोड़ने से 1st IV महत्वपूर्ण कैसे हो सकता है?


64

मेरे पास शायद एक सरल सवाल है, लेकिन यह अभी मुझे चकित कर रहा है, इसलिए मुझे उम्मीद है कि आप मेरी मदद कर सकते हैं।

मेरे पास कम से कम वर्ग प्रतिगमन मॉडल है, जिसमें एक स्वतंत्र चर और एक आश्रित चर है। संबंध महत्वपूर्ण नहीं है। अब मैं एक दूसरा स्वतंत्र चर जोड़ता हूं। अब पहले स्वतंत्र चर और आश्रित चर के बीच संबंध महत्वपूर्ण हो जाता है।

यह कैसे काम करता है? यह शायद मेरी समझ से कुछ मुद्दे का प्रदर्शन कर रहा है, लेकिन मेरे लिए, लेकिन मैं यह नहीं देखता कि इस दूसरे स्वतंत्र चर को जोड़ने से पहला कितना महत्वपूर्ण हो सकता है।


4
यह इस साइट पर बहुत व्यापक रूप से चर्चा का विषय है। यह संभवतः मिलीभगत के कारण है। "कोलिनियरिटी" की खोज करें और आपको दर्जनों प्रासंगिक सूत्र मिलेंगे। मैं जवाब के कुछ पढ़ने का सुझाव stats.stackexchange.com/questions/14500/...
मैक्रो

3
महत्वपूर्ण भविष्यवाणियों के संभावित डुप्लिकेट एकाधिक लॉजिस्टिक प्रतिगमन में गैर-महत्वपूर्ण हो जाते हैं । कई थ्रेड्स हैं जो प्रभावी रूप से एक डुप्लिकेट है - वह निकटतम था जिसे मैं दो मिनट के भीतर पा सकता था
मैक्रो

3
यह थ्रेड @macro में से किसी एक की विपरीत समस्या के समान है, लेकिन कारण बहुत समान हैं।
पीटर Flom

3
@ मैक्रो, मुझे लगता है कि आप सही कह रहे हैं कि यह एक डुप्लिकेट हो सकता है, लेकिन मुझे लगता है कि यहां मुद्दा ऊपर के 2 प्रश्नों से थोड़ा अलग है। ओपी मॉडल-ए-संपूर्ण के महत्व को संदर्भित नहीं करता है, न ही चर महत्वपूर्ण गैर-डब्ल्यू / अतिरिक्त आईवी बनने के लिए। मुझे संदेह है कि यह बहुसंस्कृति के बारे में नहीं है, बल्कि शक्ति या संभवतः दमन के बारे में है।
गूँग - मोनिका

3
इसके अलावा, @gung, एक रेखीय मॉडल में दमन केवल तब होता है जब संपार्श्विकता होती है - अंतर व्याख्या के बारे में होता है, इसलिए "यह बहुसंस्कृति के बारे में नहीं है, लेकिन संभवतः दमन के बारे में" एक भ्रामक द्वंद्ववाद सेट करता है
मैक्रो

जवाबों:


78

यद्यपि संपार्श्विकता (भविष्यवक्ता चर की) एक संभावित व्याख्या है, मैं यह सुझाव देना चाहूंगा कि यह एक स्पष्ट व्याख्या नहीं है क्योंकि हम जानते हैं कि संपार्श्विकता भविष्यवक्ताओं के बीच "सामान्य जानकारी" से संबंधित है, इसलिए पक्ष के बारे में कुछ भी रहस्यमय या प्रति-सहज नहीं है। मॉडल में एक दूसरे सहसंबद्ध भविष्यवक्ता को पेश करने का प्रभाव।

आइए फिर हम दो भविष्यवक्ताओं के मामले पर विचार करें जो वास्तव में रूढ़िवादी हैं : उनके बीच पूरी तरह से कोई मेल नहीं है। महत्व में उल्लेखनीय परिवर्तन अभी भी हो सकता है।

भविष्यवक्ता चर और X 2 को नामित करें और Y का पूर्वानुमान दें। के प्रतिगमन Y के खिलाफ एक्स 1 का महत्त्व नहीं असफल हो जायेगी जब में भिन्नता Y अपने मतलब के आसपास कोई उल्लेखनीय कम नहीं है जब एक्स 1 स्वतंत्र चर के रूप में प्रयोग किया जाता है। जब वह भिन्नता दूसरे चर X 2 के साथ दृढ़ता से जुड़ी होती है , हालांकि, स्थिति बदल जाती है। याद रखें कि X 1 और X 2 के खिलाफ Y का एकाधिक प्रतिगमन बराबर हैX1X2YYX1YX1X2YX1X2

  1. एक्स 2 के खिलाफ अलग से और एक्स 1 को पुनः प्राप्त करें ।YX1X2

  2. वापसी के खिलाफ बच एक्स 1 बच गया।YX1

पहले चरण के अवशेषों ने के प्रभाव को हटा दिया है । जब X 2 को Y के साथ निकटता से जोड़ा जाता है , तो यह अपेक्षाकृत कम मात्रा में भिन्नता को उजागर कर सकता है, जो पहले मुखौटा था। यदि यह भिन्नता X 1 से संबद्ध है , तो हम एक महत्वपूर्ण परिणाम प्राप्त करते हैं।X2X2YX1


यह सब शायद एक ठोस उदाहरण के साथ स्पष्ट किया जा सकता है। शुरू करने के लिए, चलो का उपयोग करते हैं Rकुछ स्वतंत्र यादृच्छिक त्रुटि के साथ-साथ दो ओर्थोगोनल स्वतंत्र चरों उत्पन्न करने के लिए :ε

n <- 32
set.seed(182)
u <-matrix(rnorm(2*n), ncol=2)
u0 <- cbind(u[,1] - mean(u[,1]), u[,2] - mean(u[,2]))
x <- svd(u0)$u
eps <- rnorm(n)

( svdकदम मैट्रिक्स के दो स्तंभों का आश्वासन देता है x( और एक्स 2 का प्रतिनिधित्व करते हुए ) ऑर्थोगोनल हैं, किसी भी बाद के परिणामों के संभावित स्पष्टीकरण के रूप में कोलीनियरिटी को खारिज कर रहे हैं।)X1X2

अगला, को X के त्रुटि और त्रुटि के रैखिक संयोजन के रूप में बनाएँ । मैंने काउंटर-सहज व्यवहार का उत्पादन करने के लिए गुणांक को समायोजित किया है:YX

y <-  x %*% c(0.05, 1) + eps * 0.01

यह मॉडल की एक अहसास है के साथ n = 32 मामलों।YiidN(0.05X1+1.00X2,0.012)n=32

प्रश्न में दो रजिस्टरों को देखें। सबसे पहले , एक्स 1 के खिलाफ को फिर से प्राप्त करें :YX1

> summary(lm(y ~ x[,1]))
...
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.002576   0.032423  -0.079    0.937
x[, 1]       0.068950   0.183410   0.376    0.710

0.710 का उच्च पी-मूल्य दर्शाता है कि पूरी तरह से गैर-महत्वपूर्ण है।X1

अगला , X 1 और X 2 के खिलाफ को पुनः प्राप्त करें :YX1X2

> summary(lm(y ~ x))
...
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.002576   0.001678  -1.535    0.136    
x1           0.068950   0.009490   7.265 5.32e-08 ***
x2           1.003276   0.009490 105.718  < 2e-16 ***

अचानक, की उपस्थिति में , एक्स 1 है दृढ़ता से महत्वपूर्ण है, क्योंकि दोनों चर के लिए लगभग शून्य पी मूल्यों ने संकेत दिया।X2X1

हम इस व्यवहार की कल्पना , एक्स 2 , और वाई के एक स्कैप्लोट मैट्रिक्स के माध्यम से कर सकते हैं और साथ ही ऊपर के कई प्रतिगमन के दो-चरण लक्षण वर्णन में उपयोग किए गए अवशिष्टों के साथ । क्योंकि एक्स 1 और एक्स 2 ओर्थोगोनल, एक्स 1 बच के रूप में ही किया जाएगा एक्स 1 और इसलिए फिर से ताज़ा होने की जरूरत नहीं। हम इस आंकड़े को देते हुए स्कैल्पलोट मैट्रिक्स में X 2 के खिलाफ Y के अवशेषों को शामिल करेंगे :X1X2YX1X2X1X1YX2

lmy <- lm(y ~ x[,2])
d <- data.frame(X1=x[,1], X2=x[,2], Y=y, RY=residuals(lmy))
plot(d)

यहाँ इसका एक प्रतिपादन है (थोड़ा पूर्व-निर्धारण के साथ):

एसपीएम

ग्राफिक्स के इस मैट्रिक्स में चार पंक्तियाँ और चार कॉलम हैं, जिन्हें मैं ऊपर से नीचे और बाएँ से दाएँ गिनूँगा।

सूचना:

  • दूसरी पंक्ति और पहले स्तंभ में scatterplot इन भविष्यवक्ताओं की ओर्थोगोनालिटी पुष्टि करता है: कम से कम वर्गों लाइन क्षैतिज और पारस्परिक संबंध शून्य है।(X1,X2)

  • तीसरी पंक्ति में scatterplot और पहले स्तंभ मामूली लेकिन पूरी तरह से नगण्य संबंध के पहले प्रतिगमन द्वारा रिपोर्ट दर्शाती है वाई के खिलाफ एक्स 1 । (सहसंबंध गुणांक, ρ , केवल 0.07 है )।(X1,Y)YX1ρ0.07

  • तीसरी पंक्ति में scatterplot और दूसरे स्तंभ के बीच मजबूत संबंध को दर्शाता है Y और दूसरे स्वतंत्र चर। (सहसंबंध गुणांक 0.996 है )।(X2,Y)Y0.996

  • चौथी पंक्ति के बीच संबंधों की जांच करता है बच के (के खिलाफ वहीं एक्स 2 और अन्य चर):YX2

    • ऊर्ध्वाधर पैमाने से पता चलता है कि अवशिष्ट (अपेक्षाकृत) काफी छोटे हैं: हम उन्हें एक्स 2 के खिलाफ के स्कैल्पलॉट में आसानी से नहीं देख सकते हैं ।YX2

    • अवशेषों को ( ρ = 0.80 ) के साथ दृढ़ता से सहसंबद्ध किया जाता है । एक्स 2 के खिलाफ प्रतिगमन ने इस पहले से छिपे हुए व्यवहार को उजागर किया है।X1ρ=0.80X2

    • निर्माण के द्वारा, अवशेषों और बीच कोई शेष सहसंबंध नहीं है ।X2

    • और इन अवशेषों ( ρ = 0.09 ) के बीच थोड़ा सहसंबंध है । इससे पता चलता है कि कैसे अवशेष खुद वाई की तुलना में पूरी तरह से अलग व्यवहार कर सकते हैं । इस प्रकार एक्स 1 को अचानक प्रतिगमन में एक महत्वपूर्ण योगदानकर्ता के रूप में प्रकट किया जा सकता है।Yρ=0.09YX1

अंत में, यह टिप्पणी करने योग्य है कि गुणांक के दोनों अनुमान (दोनों 0.06895 के बराबर , 0.05 के इच्छित मूल्य से दूर नहीं ) केवल इसलिए सहमत हैं क्योंकि एक्स 1 और एक्स 2 ऑर्थोगोनल हैं। डिज़ाइन किए गए प्रयोगों को छोड़कर, ऑर्थोगोनलिटी को ठीक से पकड़ना दुर्लभ है। ऑर्थोगोनलिटी से एक प्रस्थान आमतौर पर गुणांक अनुमानों को बदलने का कारण बनता है।X10.068950.05X1X2


तो, मैं समझता हूं कि परिवर्तनशीलता को बताता है कि X 2 नहीं करता है। इस आवश्यकता होती है कि एक्स 2 हो (अधिक) की तुलना में महत्वपूर्ण एक्स 1 ? या क्या एक्स 1 को एक्स 2 के महत्व के बिना महत्वपूर्ण बनाया जा सकता है ? X1X2X2X1X1X2
रोनाल्ड

@ रोनाल्ड, मेरा मानना ​​है कि आपके प्रश्नों के उत्तर क्रमशः और नहीं हैं। आप इस उत्तर में उदाहरण को संशोधित करके पता लगा सकते हैं: मॉडल में गुणांक (0.05 और 0.01) और मामलों की संख्या ( ) को देखें कि क्या होता है। n=32
whuber

23

मुझे लगता है कि इस मुद्दे पर इस साइट पर पहले पूरी तरह से चर्चा की गई है, अगर आपको सिर्फ यह पता है कि कहां देखना है। इसलिए मैं संभवत: अन्य प्रश्नों के कुछ लिंक के साथ बाद में एक टिप्पणी जोड़ूंगा, या यदि मुझे कोई भी नहीं मिल सकता है तो एक पूर्ण विवरण प्रदान करने के लिए इसे संपादित कर सकता हूं।

दो बुनियादी संभावनाएं हैं: पहला, अन्य IV कुछ अवशिष्ट परिवर्तनशीलता को अवशोषित कर सकता है और इस तरह प्रारंभिक IV के सांख्यिकीय परीक्षण की शक्ति को बढ़ा सकता है। दूसरी संभावना यह है कि आपके पास एक दबानेवाला चर है। यह एक बहुत ही जवाबी सहज ज्ञान युक्त विषय है, लेकिन आप कुछ जानकारी मिल सकती है यहाँ *, यहाँ या इस उत्कृष्ट सीवी धागा

* ध्यान दें कि आपको उस हिस्से को पाने के लिए नीचे से पूरे रास्ते को पढ़ना होगा जो कि दबाने योग्य चर बताते हैं, आप बस वहां से आगे जा सकते हैं, लेकिन आपको पूरी बात पढ़कर सबसे अच्छी सेवा मिलेगी।


संपादित करें: जैसा कि वादा किया गया है, मैं अपनी बात का एक पूर्ण विवरण जोड़ रहा हूं कि कैसे अन्य IV अवशिष्ट परिवर्तनशीलता में से कुछ को अवशोषित कर सकता है और इस तरह प्रारंभिक IV के सांख्यिकीय परीक्षण की शक्ति बढ़ा सकता है। @whuber ने एक प्रभावशाली उदाहरण जोड़ा, लेकिन मैंने सोचा कि मैं एक मानार्थ उदाहरण जोड़ सकता हूं जो इस घटना को एक अलग तरीके से समझाता है, जो कुछ लोगों को घटना को अधिक स्पष्ट रूप से समझने में मदद कर सकता है। इसके अलावा, मैं प्रदर्शित करता हूं कि दूसरी IV को अधिक दृढ़ता से जुड़ा होना जरूरी नहीं है (हालांकि, व्यवहार में, यह लगभग हमेशा इस घटना के घटित होने के लिए होगा)।

एक प्रतिगमन मॉडल में सहसंयोजकों का परीक्षण मानक के साथ किया जा सकता है, इसके मानक त्रुटि से पैरामीटर अनुमान को विभाजित करके, या उन्हें वर्गों के योगों का विभाजन करके एफ- टेस्ट्स के साथ परीक्षण किया जा सकता है। जब टाइप III एसएस का उपयोग किया जाता है, तो ये दो परीक्षण विधियां समतुल्य होंगी (अधिक प्रकार के एसएस और संबद्ध परीक्षणों के लिए, यह मेरे जवाब को यहां पढ़ने में मदद कर सकता है: टाइप I एसएस की व्याख्या कैसे करें )। उन लोगों के लिए जो केवल प्रतिगमन विधियों के बारे में सीखना शुरू करते हैं, टी- टेट अक्सर ध्यान केंद्रित करते हैं क्योंकि वे लोगों को समझने में आसान लगते हैं। हालांकि, यह एक ऐसा मामला है जहां मुझे लगता है कि एनोवा की तालिका देखना अधिक मददगार है। आइए एक साधारण प्रतिगमन मॉडल के लिए मूल एनोवा तालिका को याद करें: tFt

SourceSSdfMSFx1(y^iy¯)21SSx1dfx1MSx1MSresResidual(yiy^i)2N(1+1)SSresdfresTotal(yiy¯)2N1

यहाँ का मध्यमान है y , y मैं का मनाया मूल्य है y इकाई (जैसे, रोगी) के लिए मैं , y मैं इकाई के लिए मॉडल की भविष्यवाणी मूल्य है मैं , और एन अध्ययन में इकाइयों की कुल संख्या है। यदि आपके पास दो orthogonal covariates के साथ एक एकाधिक प्रतिगमन मॉडल है, तो ANOVA तालिका का निर्माण इस तरह किया जा सकता है: y¯yyiyiy^iiN

SourceSSdfMSFx1(y^x1ix¯2y¯)21SSx1dfx1MSx1MSresx2(y^x¯1x2iy¯)21SSx2dfx2MSx2MSresResidual(yiy^i)2N(2+1)SSresdfresTotal(yiy¯)2N1

यहाँ y एक्स 1 मैं ° एक्स 2 , उदाहरण के लिए, इकाई के लिए भविष्यवाणी की मूल्य है मैं अगर के लिए अपने मनाया मूल्य एक्स 1 था इसके वास्तविक मनाया मूल्य है, लेकिन के लिए अपने मनाया मूल्य एक्स 2 के माध्य था एक्स 2 । बेशक, यह संभव है कि ˉ एक्स 2 है की मनाया मूल्य एक्स 2y^x1ix¯2ix1x2x2x¯2 x2कुछ अवलोकन के लिए, जिस स्थिति में कोई समायोजन नहीं किया जाना है, लेकिन यह आमतौर पर ऐसा नहीं होगा। ध्यान दें कि एनोवा तालिका बनाने के लिए यह विधि केवल मान्य है यदि सभी चर ऑर्थोगोनल हैं; यह एक बहुत ही सरलीकृत मामला है जो एक्सपोज़ररी उद्देश्यों के लिए बनाया गया है।

यदि हम उस स्थिति पर विचार कर रहे हैं जहां एक ही डेटा का उपयोग किसी मॉडल को साथ और उसके बिना फिट करने के लिए किया जाता है , तो देखे गए y मान और same y समान होंगे। इस प्रकार, कुल एसएस दोनों एनोवा तालिकाओं में समान होना चाहिए। इसके अलावा, यदि x 1 और x 2 एक-दूसरे के लिए ऑर्थोगोनल हैं, तो S S x 1 भी एनोवा दोनों तालिकाओं में समान होगा। तो, यह कैसे होता है कि तालिका में x 2 के साथ जुड़े वर्गों के योग हो सकते हैं ? अगर वे कुल एसएस और एस एस एक्स 1 से आए थेx2yy¯x1x2SSx1x2SSx1समान हैं? जवाब है कि वे से आए थे । Df एक्स 2 भी से लिया जाता है df रेसSSresdfx2dfres

अब X 1 का -est दोनों मामलों में M S Res द्वारा विभाजित M S x 1 है । चूंकि एम एस एक्स 1 समान है, इसलिए इस परीक्षण के महत्व में अंतर एम एस रेस में परिवर्तन से आता है , जो दो तरीकों से बदल गया है: यह कम एसएस के साथ शुरू हुआ, क्योंकि कुछ को एक्स 2 के लिए आवंटित किया गया था , लेकिन वे हैं कम df से विभाजित, चूंकि स्वतंत्रता की कुछ डिग्री x 2 को आवंटित की गई थी , साथ ही साथ। एफ -टेस्ट के महत्व / शक्ति में परिवर्तन (और समकक्ष रूप सेFx1MSx1MSresMSx1MSresx2x2F -est, इस मामले में) इस कारण से है कि उन दोनों ने व्यापार को कैसे बदल दिया। यदि x 2 को अधिक SS को x 2 के लिए दिया जाता है, तो x 2 को दिया जाता है, तो M S Res कम हो जाएगा, जिससे X 1 सेजुड़ा F बढ़ जाएगा और P अधिक महत्वपूर्ण हो जाएगा। tx2x2MSresFx1p

इसके होने के लिए का प्रभाव x 1 से बड़ा नहीं होना चाहिए , लेकिन अगर ऐसा नहीं है, तो p -values में बदलाव काफी छोटा होगा। गैर-महत्व और महत्व के बीच स्विच करने का एकमात्र तरीका यह है कि यदि पी- अल्फा अल्फा के दोनों किनारों पर थोड़ा-थोड़ा होता है। यहाँ एक उदाहरण है, जिसमें कोडित है : x2x1ppR

x1 = rep(1:3, times=15)
x2 = rep(1:3, each=15)
cor(x1, x2)     # [1] 0
set.seed(11628)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
model1  = lm(y~x1)
model12 = lm(y~x1+x2)

anova(model1)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  3.9568 0.05307 .
# Residuals 43 57.745  1.3429                  
#  ...
anova(model12)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  4.2471 0.04555 *
# x2         1  5.198  5.1979  4.1546 0.04785 *
# Residuals 42 52.547  1.2511                  
#  ...

वास्तव में, को बिल्कुल भी महत्वपूर्ण नहीं होना चाहिए। विचार करें: x2

set.seed(1201)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
anova(model1)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  3.8461 0.05636 .
# ...
anova(model12)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  4.0740 0.04996 *
# x2         1  3.162  3.1620  3.5478 0.06656 .
# ...

ये वास्तव में @ व्हिबर पोस्ट में नाटकीय उदाहरण की तरह कुछ भी नहीं हैं, लेकिन वे लोगों को यह समझने में मदद कर सकते हैं कि यहाँ क्या चल रहा है।


1
(+1) "पहले के लिए, अन्य IV अवशिष्ट परिवर्तनशीलता में से कुछ को अवशोषित कर सकता है और इस प्रकार प्रारंभिक IV के सांख्यिकीय परीक्षण की शक्ति को बढ़ा सकता है", जिसे @whuber ने एक अच्छा उदाहरण दिया
मैक्रो

(+1) शुरुआत में आप तीन लिंक देते हैं। पहला वाला (बाहरी एक) दुर्भाग्य से टूटा हुआ है (404 त्रुटि)। इसके अलावा: आप कहते हैं कि "दो बुनियादी संभावनाएं" हैं: जोड़े गए दूसरे IV में पहले IV का परीक्षण करने की शक्ति बढ़ जाती है (और यह वास्तव में व्हीबर द्वारा और उनके जवाब में वेन द्वारा वर्णित स्थिति है) या एक सुपरसेंसर चर है (कौन सा, btw? पहला या दूसरा?)। मेरा प्रश्न: क्या वास्तव में ये दो अलग-अलग स्थितियाँ हैं? या यह अनिवार्य रूप से एक ही बात है, शायद थोड़ा अलग तरीके से देखा जाए? यदि आप उस पर विस्तार कर सकते हैं तो यह बहुत अच्छा होगा।
अमीबा का कहना है कि मोनिका


@gung, उत्तर के लिए धन्यवाद। Ttnphns दमन और कुछ अन्य संबंधित प्रभावों पर चर्चा करने वाले एक पेपर का लिंक देने के साथ शुरू होता है, और यह पेपर दावा करता है कि "एक दबानेवाला चर की सबसे आम तौर पर स्वीकार की गई परिभाषा (Tzelgov & Henik, 1991) [है]" एक चर भविष्य कहनेवाला वैधता को बढ़ाता है एक प्रतिगमन समीकरण में इसके शामिल होने से एक और चर (या चर का सेट) ""। यह बिल्कुल वैसा ही लगता है जैसा यहाँ ओपी ने पूछा है, इसीलिए मैं आपसे यह कहते हुए भ्रमित हो गया कि दो अलग-अलग कारण हो सकते हैं ।
अमीबा का कहना है कि मोनिका

1
@ बेमाबा, मुद्दा यह है कि आपके पास 2 अलग तंत्र हैं। यही है, आपके पास 2 अलग-अलग अंतर्निहित डीएजी हैं। जावक अभिव्यक्ति समान हो सकती है, और अतिरिक्त शक्ति कम या ज्यादा हो सकती है, लेकिन यही कारण है कि दूसरा चर, दूसरे चर के संबंधों को X1 और y में भिन्न करने में मदद करता है। यदि यह स्पष्ट नहीं है, तो आपको एक नया प्रश्न पूछने की आवश्यकता हो सकती है; टिप्पणियों में बहुत अधिक करना कठिन है।
गंग - मोनिका

17

ऐसा लगता है कि ओपी के प्रश्न की दो अलग-अलग तरीकों से व्याख्या की जा सकती है:

  1. गणितीय रूप से, ओएलएस कैसे काम करता है, जैसे कि एक स्वतंत्र चर जोड़ने से अप्रत्याशित तरीके से परिणाम बदल सकते हैं?

  2. एक चर को जोड़कर मेरे मॉडल को कैसे संशोधित किया जा सकता है मॉडल में दूसरे, स्वतंत्र चर के प्रभाव को बदल सकते हैं?

प्रश्न # 1 के लिए पहले से ही कई अच्छे उत्तर हैं। और प्रश्न # 2 विशेषज्ञों के लिए इतना स्पष्ट हो सकता है कि वे मानते हैं कि ओपी को प्रश्न # 1 के बजाय पूछना चाहिए। लेकिन मुझे लगता है कि प्रश्न # 2 एक उत्तर के हकदार हैं, जो कुछ इस तरह होगा:

एक उदाहरण से शुरू करते हैं। यह कहें कि आपके पास कई बच्चों की ऊँचाई, आयु, लिंग इत्यादि थे, और आप उनकी ऊँचाई का अनुमान लगाने के लिए एक प्रतिगमन करना चाहते थे।

आप एक भोली मॉडल से शुरू करते हैं जो लिंग को स्वतंत्र चर के रूप में उपयोग करती है। और यह सांख्यिकीय रूप से महत्वपूर्ण नहीं है। (यह कैसे हो सकता है, आप 3 साल के बच्चों और किशोर-एगर्स को मिला रहे हैं।)

फिर आप उम्र में जोड़ते हैं और अचानक न केवल उम्र महत्वपूर्ण है, बल्कि लिंग भी है। यह कैसे हो सकता है?

बेशक, मेरे उदाहरण में, आप स्पष्ट रूप से देख सकते हैं कि एक बच्चे / किशोर की ऊंचाई में उम्र एक महत्वपूर्ण कारक है। संभवतः सबसे महत्वपूर्ण कारक जिस पर आपका डेटा है। लिंग, विशेष रूप से बड़े बच्चों और वयस्कों के लिए भी मायने रखता है, लेकिन लिंग अकेले एक गरीब मॉडल है कि बच्चा कितना लंबा है।

आयु प्लस लिंग एक उचित (हालांकि, बिल्कुल सरलीकृत) मॉडल है जो कार्य के लिए पर्याप्त है। यदि आप अन्य डेटा जोड़ते हैं - उम्र और लिंग की बातचीत, आहार, माता-पिता की ऊंचाई, आदि - आप एक और भी बेहतर मॉडल बना सकते हैं, जो निश्चित रूप से उन कारकों के मेजबान की तुलना में अभी भी सरल होगा जो वास्तव में एक बच्चे की ऊंचाई निर्धारित करते हैं, लेकिन तब फिर से सभी मॉडल वास्तविकता के सरल संस्करण हैं। (दुनिया का एक नक्शा जो 1: 1 का पैमाना किसी यात्री के लिए बहुत उपयोगी नहीं है।)

आपका मूल मॉडल (केवल लिंग) बहुत सरल है - इतना सरल है कि यह अनिवार्य रूप से टूट गया है। लेकिन इसका मतलब यह नहीं है कि लिंग एक बेहतर मॉडल में उपयोगी नहीं है।

संपादित करें: गंग के सुझाव को फिर से जोड़ा गया: उम्र और लिंग का अंतःक्रियात्मक शब्द।


1
+1, nb, आयु और लिंग को संभवतः एक सहभागिता शब्द की आवश्यकता होगी।
गूँग - मोनिका

1
+1 यह एक बहुत अच्छा उदाहरण है क्योंकि यह इतना सरल और सहज रूप से स्पष्ट है, और एक ही स्थिति में बिल्कुल अधिक विवरण में वर्णित फिट बैठता है , लेकिन केवल @whuber द्वारा अपने स्वीकृत जवाब में यहां पर संक्षेप में लिखा गया है।
अमीबा का कहना है कि मोनिका

10

इस धागे में पहले से ही तीन उत्कृष्ट उत्तर (प्रत्येक के लिए +1) हैं। मेरा उत्तर @gung द्वारा किए गए बिंदु पर एक विस्तारित टिप्पणी और चित्रण है (जिसे समझने में मुझे थोड़ा समय लगा):

दो बुनियादी संभावनाएं हैं: पहला, अन्य IV अवशिष्ट परिवर्तनशीलता में से कुछ को अवशोषित कर सकता है और इस प्रकार प्रारंभिक IV के सांख्यिकीय परीक्षण की शक्ति को बढ़ा सकता है। दूसरी संभावना यह है कि आपके पास एक दबानेवाला चर है।

x1x2ynRnyx1x2("टोपी मैट्रिक्स" के साथ बस एक प्रोजेक्टर जा रहा है)। इस दृष्टिकोण से अपरिचित पाठक द एलिमेंट्स ऑफ़ स्टैटिस्टिकल लर्निंग , सेक्शन 3.2 या कई अन्य पुस्तकों में देख सकते हैं।

"वृद्धि"

निम्न चित्रा @gung द्वारा सूचीबद्ध दोनों संभावनाओं को दर्शाता है। केवल पहले नीले भाग पर विचार करें (अर्थात सभी लाल रेखाओं को अनदेखा करें):

वर्धन और दमन

x1x2Xyy^

x2yx1α90yx1x1

x2x1x2x1x2x2yβα90x1

इसे लगाने का एक और तरीका यह है कि परीक्षण अब ओएफ की लंबाई की तुलना कर रहा है, और पहले की तरह ओसी से नहीं; OC की तुलना में OF छोटा और "तुच्छ" है, लेकिन OG की तुलना में "महत्वपूर्ण" होने के लिए पर्याप्त बड़ा है।

यह ठीक उनके उत्तरों में @whuber, @gung, और @Wayne द्वारा प्रस्तुत की गई स्थिति है। मुझे नहीं पता कि इस प्रभाव का प्रतिगमन साहित्य में एक मानक नाम है, इसलिए मैं इसे "वृद्धि" कहूंगा।

दमन

α=90β=90x1

दमन में ऐसा नहीं है।

x3x1x2x3Xx1x3x1Xy

x1x1y


1
मुझे आपका उत्तर ज्यामितीय व्याख्या की सहायता से समझने में सबसे आसान लगा। उत्तम!
zsljulius

1
α=0yx1yx1cor(x1,y)=1x1yyx1
कोहोलेथ

α=90
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.