मैं यह सुझाव देना चाहता हूं कि इस घटना (एक महत्वपूर्ण व्यक्तिगत चर के बावजूद एक गैर-महत्वपूर्ण समग्र परीक्षण) को एक प्रकार के समग्र "मास्किंग प्रभाव" के रूप में समझा जा सकता है और हालांकि यह अनुमानतः मल्टीकोलियर व्याख्यात्मक चर से उत्पन्न हो सकता है, इसकी आवश्यकता नहीं है वह बिल्कुल। यह कई तुलनात्मक समायोजन के कारण भी नहीं निकला। इस प्रकार यह उत्तर उन उत्तरों में कुछ योग्यताएँ जोड़ रहा है जो पहले से ही सामने आए हैं, जो इसके विपरीत सुझाव देते हैं कि या तो बहुसंख्या या कई तुलनाओं को दोषियों के रूप में देखा जाना चाहिए।
इन अभिकथनों की पठनीयता को स्थापित करने के लिए, आइए हम पूरी तरह से ऑर्थोगोनल चर का एक संग्रह उत्पन्न करें - जितना संभव हो उतने ही गैर-समाप्य - और एक आश्रित चर जो स्पष्ट रूप से पहले स्पष्टीकरण से निर्धारित होता है (साथ ही यादृच्छिक त्रुटि की एक अच्छी राशि) बाकी सब से स्वतंत्र)। इसमें R
किया जा सकता है (प्रतिलिपि प्रस्तुत करने योग्य, यदि आप प्रयोग करना चाहते हैं)
set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)
यह महत्वहीन है कि व्याख्यात्मक चर द्विआधारी हैं; उनकी ओर्थोगोनलिटी क्या मायने रखती है, जिसे हम यह सुनिश्चित करने के लिए जांच सकते हैं कि कोड अपेक्षित रूप से काम कर रहा है, जो उनके सहसंबंधों का निरीक्षण करके किया जा सकता है। वास्तव में, सहसंबंध मैट्रिक्स दिलचस्प है : छोटे गुणांक का सुझाव y
है कि पहले (जो डिजाइन द्वारा है) को छोड़कर किसी भी चर के साथ बहुत कम है और ऑफ-विकर्ण शून्य व्याख्यात्मक चर की orthogonality की पुष्टि करते हैं:
> cor(cbind(x,y))
Var1 Var2 Var3 Var4 Var5 y
Var1 1.00 0.000 0.000 0.000 0.00 0.486
Var2 0.00 1.000 0.000 0.000 0.00 0.088
Var3 0.00 0.000 1.000 0.000 0.00 0.044
Var4 0.00 0.000 0.000 1.000 0.00 -0.014
Var5 0.00 0.000 0.000 0.000 1.00 -0.167
y 0.49 0.088 0.044 -0.014 -0.17 1.000
चलो केवल पहले चर, फिर पहले दो, और इसी तरह का उपयोग करते हुए, कुछ श्रृंखलाओं को चलाते हैं । संक्षिप्तता और आसान तुलना के लिए, हर एक में मैं केवल पहली चर और समग्र एफ-परीक्षण के लिए लाइन दिखाता हूं:
>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))
# Estimate Std. Error t value Pr(>|t|)
1 x[, 1:i] 0.898 0.294 3.05 0.0048 **
F-statistic: 9.29 on 1 and 30 DF, p-value: 0.00478
2 x[, 1:i]Var1 0.898 0.298 3.01 0.0053 **
F-statistic: 4.68 on 2 and 29 DF, p-value: 0.0173
3 x[, 1:i]Var1 0.8975 0.3029 2.96 0.0062 **
F-statistic: 3.05 on 3 and 28 DF, p-value: 0.0451
4 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0072 **
F-statistic: 2.21 on 4 and 27 DF, p-value: 0.095
5 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0073 **
F-statistic: 1.96 on 5 and 26 DF, p-value: 0.118
देखें कि कैसे (ए) पहले चर का महत्व बमुश्किल बदलता है, (एक) पहला चर महत्वपूर्ण रहता है (पी <.05) तब भी जब कई तुलनाओं के लिए समायोजन किया जाता है ( उदाहरण के लिए , नाममात्र पी-मान को गुणा करके बोनफेरोनी लागू करें व्याख्यात्मक चर की संख्या), (बी) पहले चर के गुणांक में बमुश्किल परिवर्तन होता है, लेकिन (ग) समग्र महत्व तेजी से बढ़ता है, जल्दी से एक गैर-महत्वपूर्ण स्तर तक पहुंच जाता है।
मैं इसकी व्याख्या यह करते हुए करता हूं कि व्याख्यात्मक चर सहित जो निर्भर चर से काफी हद तक स्वतंत्र हैं, प्रतिगमन के समग्र पी-मूल्य को "मुखौटा" कर सकते हैं। जब नए चर मौजूदा वाले और आश्रित चर के लिए रूढ़िवादी होते हैं, तो वे अलग-अलग पी-वैल्यू नहीं बदलेंगे। (यहां देखे गए छोटे परिवर्तन इसलिए हैं क्योंकि यादृच्छिक त्रुटि को जोड़ा गया y
है, दुर्घटना के साथ, अन्य सभी चर के साथ थोड़ा सहसंबद्ध है।) इससे एक सबक यह है कि पार्सिमनी मूल्यवान है : आवश्यकतानुसार कुछ चर का उपयोग करना महत्व को मजबूत कर सकता है। परिणाम।
मैं यह नहीं कह रहा हूं कि यह प्रश्न में डेटासेट के लिए जरूरी हो रहा है, जिसके बारे में बहुत कम खुलासा किया गया है। लेकिन ज्ञान कि यह मास्किंग प्रभाव परिणाम की हमारी व्याख्या के साथ ही चर चयन और मॉडल निर्माण के लिए हमारी रणनीतियों को सूचित कर सकता है।