रैखिक प्रतिगमन में महत्वपूर्ण विरोधाभास: एक गुणांक बनाम गैर-महत्वपूर्ण समग्र एफ-सांख्यिकीय के लिए महत्वपूर्ण टी-परीक्षण


35

मैं 4 श्रेणीबद्ध चर (प्रत्येक 4 स्तरों के साथ) और एक संख्यात्मक आउटपुट के बीच एक बहु रैखिक प्रतिगमन मॉडल फिटिंग कर रहा हूं। मेरे डेटासेट में 43 अवलोकन हैं।

प्रतिगमन मुझे प्रत्येक ढलान गुणांक के लिए -est से निम्नलिखित -values देता है : । इस प्रकार, 4 भविष्यवक्ता के लिए गुणांक विश्वास स्तर पर महत्वपूर्ण है।पीटी.15,.67,.27,.02α=.05

दूसरी ओर, प्रतिगमन मुझे एक देता एक समग्र से -value शून्य परिकल्पना है कि सभी मेरी ढलान गुणांक शून्य के बराबर हैं के टेस्ट। मेरी डाटासेट के लिए, यह -value है ।पीएफपी।1 1

मेरा प्रश्न: मुझे इन परिणामों की व्याख्या कैसे करनी चाहिए? मुझे कौन सा क्यू इस्तेमाल करना चाहिए और क्यों? 4 चर के लिए गुणांक से विश्वास स्तर पर काफी भिन्न है?पी0α=.05

मैं एक संबंधित सवाल, देखा है और एक प्रतिगमन में आंकड़े , लेकिन एक विपरीत स्थिति नहीं थी: उच्च -Test -values और कम -Test -value। ईमानदारी से, मुझे यह समझ में नहीं आता है कि क्यों हमें -टेस्ट के अलावा -टेस्ट की आवश्यकता होगी, यह देखने के लिए कि क्या रैखिक प्रतिगमन गुणांक शून्य से काफी अलग हैं।एफटीटीपीएफपीएफटी


2
यदि आपके पास 4 स्तरों के साथ 4 श्रेणीबद्ध चर हैं, तो आपके पास अपने स्वतंत्र चर (प्लस अवरोधन) के लिए 3 * 4 = 12 गुणांक होने चाहिए ...
boscovich

@andrea: मैंने उन्हें संख्यात्मक चर के रूप में मानने का फैसला किया है।
लियो

4
0.02 मुश्किल से महत्वपूर्ण है (खासकर यदि आप इस तथ्य पर विचार करते हैं कि आपके पास कुल पांच परीक्षण हैं) और 0.11 बहुत अधिक नहीं है। एक उदार व्याख्या यह होगी कि थोड़ी अधिक शक्ति के साथ समग्र एफ-परीक्षण भी महत्वपूर्ण होगा (और शायद पहला गुणांक भी)। एक अधिक रूढ़िवादी व्याख्या यह है कि आपको इनमें से किसी भी परिणाम में बहुत अधिक विश्वास नहीं होना चाहिए (एक .02 पी मान के साथ गुणांक सहित)। किसी भी तरह से, आपको .02 और .11 के अंतर में बहुत अधिक नहीं पढ़ना चाहिए।
गला

3
विपरीत मामले की चर्चा के लिए, आप यहां भी देख सकते हैं: एक प्रतिगमन कैसे महत्वपूर्ण हो सकता है फिर भी सभी भविष्यवक्ता गैर-महत्वपूर्ण हो सकते हैं , ऊपर दिए गए प्रश्न के अलावा।
गंग -

जवाबों:


37

मुझे यकीन नहीं है कि मल्टीकोलीनिटी यहां चल रही है। यह निश्चित रूप से हो सकता है, लेकिन दी गई जानकारी से मैं यह निष्कर्ष नहीं निकाल सकता, और मैं वहां शुरू नहीं करना चाहता। मेरा पहला अनुमान है कि यह एक बहु तुलनात्मक मुद्दा हो सकता है। यही है, यदि आप पर्याप्त परीक्षण चलाते हैं, तो कुछ दिखाई देगा, भले ही वहां कुछ भी न हो।

जिन मुद्दों पर मैं वीणा करता हूं उनमें से एक यह है कि कई जोड़ीदार तुलनाओं की जांच के संदर्भ में हमेशा कई तुलनाओं की समस्या पर चर्चा की जाती है - जैसे, प्रत्येक अद्वितीय युग्मन स्तरों पर टी-परीक्षण चलाना। (कई तुलनाओं के विनोदी उपचार के लिए, यहां देखें ।) यह इस धारणा के साथ लोगों को छोड़ देता है कि यह एकमात्र स्थान है जहां यह समस्या दिखाई देती है। लेकिन यह बस सच नहीं है - कई तुलनाओं की समस्या हर जगह दिखाई देती है। उदाहरण के लिए, यदि आप 4 व्याख्यात्मक चर के साथ एक प्रतिगमन चलाते हैं, तो वही मुद्दे मौजूद हैं। एक अच्छी तरह से डिजाइन किए गए प्रयोग में, IV का ऑर्थोगोनल हो सकता है, लेकिन लोग नियमित रूप से ए-प्राथमिकता, ऑर्थोगोनल विरोधाभासों के सेट पर बोनफेरोनी सुधार का उपयोग करने के बारे में चिंता करते हैं, और दो बार एनोवा के तथ्यात्मक के बारे में नहीं सोचते हैं। मेरे दिमाग में यह असंगत है।

वैश्विक F परीक्षण को 'युगपत' परीक्षण कहा जाता है। यह देखने के लिए जाँचता है कि क्या आपके सभी भविष्यवक्ता प्रतिक्रिया चर से असंबंधित हैं। एक साथ परीक्षण शक्ति-खोने वाले बोनफेरोनी मार्ग पर जाने के बिना कई तुलनाओं की समस्या के खिलाफ कुछ सुरक्षा प्रदान करता है। दुर्भाग्य से, आप जो रिपोर्ट करते हैं, उसकी मेरी व्याख्या है कि आपके पास एक अशक्त खोज है।

पी।1 1


24

मैं यह सुझाव देना चाहता हूं कि इस घटना (एक महत्वपूर्ण व्यक्तिगत चर के बावजूद एक गैर-महत्वपूर्ण समग्र परीक्षण) को एक प्रकार के समग्र "मास्किंग प्रभाव" के रूप में समझा जा सकता है और हालांकि यह अनुमानतः मल्टीकोलियर व्याख्यात्मक चर से उत्पन्न हो सकता है, इसकी आवश्यकता नहीं है वह बिल्कुल। यह कई तुलनात्मक समायोजन के कारण भी नहीं निकला। इस प्रकार यह उत्तर उन उत्तरों में कुछ योग्यताएँ जोड़ रहा है जो पहले से ही सामने आए हैं, जो इसके विपरीत सुझाव देते हैं कि या तो बहुसंख्या या कई तुलनाओं को दोषियों के रूप में देखा जाना चाहिए।

इन अभिकथनों की पठनीयता को स्थापित करने के लिए, आइए हम पूरी तरह से ऑर्थोगोनल चर का एक संग्रह उत्पन्न करें - जितना संभव हो उतने ही गैर-समाप्य - और एक आश्रित चर जो स्पष्ट रूप से पहले स्पष्टीकरण से निर्धारित होता है (साथ ही यादृच्छिक त्रुटि की एक अच्छी राशि) बाकी सब से स्वतंत्र)। इसमें Rकिया जा सकता है (प्रतिलिपि प्रस्तुत करने योग्य, यदि आप प्रयोग करना चाहते हैं)

set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)

यह महत्वहीन है कि व्याख्यात्मक चर द्विआधारी हैं; उनकी ओर्थोगोनलिटी क्या मायने रखती है, जिसे हम यह सुनिश्चित करने के लिए जांच सकते हैं कि कोड अपेक्षित रूप से काम कर रहा है, जो उनके सहसंबंधों का निरीक्षण करके किया जा सकता है। वास्तव में, सहसंबंध मैट्रिक्स दिलचस्प है : छोटे गुणांक का सुझाव yहै कि पहले (जो डिजाइन द्वारा है) को छोड़कर किसी भी चर के साथ बहुत कम है और ऑफ-विकर्ण शून्य व्याख्यात्मक चर की orthogonality की पुष्टि करते हैं:

> cor(cbind(x,y))
     Var1  Var2  Var3   Var4  Var5      y
Var1 1.00 0.000 0.000  0.000  0.00  0.486
Var2 0.00 1.000 0.000  0.000  0.00  0.088
Var3 0.00 0.000 1.000  0.000  0.00  0.044
Var4 0.00 0.000 0.000  1.000  0.00 -0.014
Var5 0.00 0.000 0.000  0.000  1.00 -0.167
y    0.49 0.088 0.044 -0.014 -0.17  1.000

चलो केवल पहले चर, फिर पहले दो, और इसी तरह का उपयोग करते हुए, कुछ श्रृंखलाओं को चलाते हैं । संक्षिप्तता और आसान तुलना के लिए, हर एक में मैं केवल पहली चर और समग्र एफ-परीक्षण के लिए लाइन दिखाता हूं:

>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))

#              Estimate Std. Error t value Pr(>|t|)   
1  x[, 1:i]       0.898      0.294    3.05   0.0048 **
F-statistic: 9.29 on 1 and 30 DF,  p-value: 0.00478 

2  x[, 1:i]Var1    0.898      0.298    3.01   0.0053 **
F-statistic: 4.68 on 2 and 29 DF,  p-value: 0.0173 

3  x[, 1:i]Var1   0.8975     0.3029    2.96   0.0062 **
F-statistic: 3.05 on 3 and 28 DF,  p-value: 0.0451 

4  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0072 **
F-statistic: 2.21 on 4 and 27 DF,  p-value: 0.095 

5  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0073 **
F-statistic: 1.96 on 5 and 26 DF,  p-value: 0.118

देखें कि कैसे (ए) पहले चर का महत्व बमुश्किल बदलता है, (एक) पहला चर महत्वपूर्ण रहता है (पी <.05) तब भी जब कई तुलनाओं के लिए समायोजन किया जाता है ( उदाहरण के लिए , नाममात्र पी-मान को गुणा करके बोनफेरोनी लागू करें व्याख्यात्मक चर की संख्या), (बी) पहले चर के गुणांक में बमुश्किल परिवर्तन होता है, लेकिन (ग) समग्र महत्व तेजी से बढ़ता है, जल्दी से एक गैर-महत्वपूर्ण स्तर तक पहुंच जाता है।

मैं इसकी व्याख्या यह करते हुए करता हूं कि व्याख्यात्मक चर सहित जो निर्भर चर से काफी हद तक स्वतंत्र हैं, प्रतिगमन के समग्र पी-मूल्य को "मुखौटा" कर सकते हैं। जब नए चर मौजूदा वाले और आश्रित चर के लिए रूढ़िवादी होते हैं, तो वे अलग-अलग पी-वैल्यू नहीं बदलेंगे। (यहां देखे गए छोटे परिवर्तन इसलिए हैं क्योंकि यादृच्छिक त्रुटि को जोड़ा गया yहै, दुर्घटना के साथ, अन्य सभी चर के साथ थोड़ा सहसंबद्ध है।) इससे एक सबक यह है कि पार्सिमनी मूल्यवान है : आवश्यकतानुसार कुछ चर का उपयोग करना महत्व को मजबूत कर सकता है। परिणाम।

मैं यह नहीं कह रहा हूं कि यह प्रश्न में डेटासेट के लिए जरूरी हो रहा है, जिसके बारे में बहुत कम खुलासा किया गया है। लेकिन ज्ञान कि यह मास्किंग प्रभाव परिणाम की हमारी व्याख्या के साथ ही चर चयन और मॉडल निर्माण के लिए हमारी रणनीतियों को सूचित कर सकता है।


+1, मैं डब्ल्यू / इस विश्लेषण से सहमत हूं। एफडब्ल्यूआईडब्ल्यू, यह स्पष्टीकरण है जिसे मैं दूसरे प्रश्न के उत्तर में सत्ता के बारे में अपनी चर्चा में (शायद अच्छी तरह से नहीं) बता रहा था । मेरे पास आपके संस्करण के बारे में 1 प्रश्न है, आप अपनी त्रुटि अवधि के साधन के रूप में 32 का उपयोग क्यों करते हैं? क्या वह टाइपो है, या यह किसी तरह से महत्वपूर्ण है?
गंग -

@gung आपको 32 कहाँ दिखाई दे रहे हैं? यदि आप इसका उल्लेख कर रहे हैं rnorm(2^p, sd=2), तो कृपया ध्यान दें कि पहला तर्क शब्दों की संख्या है, न कि माध्य। डिफ़ॉल्ट रूप से इसका मतलब शून्य है और इसलिए इसे स्पष्ट रूप से निर्दिष्ट नहीं किया गया है।
whuber

rnorm()एन(μ,σ)

@ गुंग मैं कोड स्पष्ट करने के अवसर के लिए आभारी हूं और इसलिए आपत्तिजनक लाइन को संपादित किया है।
whuber

11

आपके पास अक्सर ऐसा होता है जब आपके व्याख्यात्मक चर के बीच उच्च स्तर की कोलीनियरिटी होती है। एनोवा एफ एक संयुक्त परीक्षण है जो सभी रजिस्टरों को संयुक्त रूप से असंक्रमित करता है। जब आपके एक्स में समान जानकारी होती है, तो मॉडल एक प्रतिक्षेपक या किसी अन्य को व्याख्यात्मक शक्ति नहीं दे सकता है, लेकिन उनका संयोजन प्रतिक्रिया चर में बहुत भिन्नता को समझा सकता है।

एक्स1y


यदि कोलिनियरिटी एक समस्या है, तो आपके पास उच्च मानक त्रुटियां होंगी और संभवतः बड़े गुणांक, शायद गलत संकेतों के साथ भी। यह सुनिश्चित करने के लिए कि यह क्या हो रहा है, अपने प्रतिगमन के बाद विचरण मुद्रास्फीति कारकों (VIF) की गणना करें। अंगूठे का एक उचित नियम यह है कि कोलीनियरिटी एक समस्या है यदि सबसे बड़ा VIF 10 से अधिक है। यदि हां, तो आपके पास वास्तव में दो विकल्प हैं। एक मॉडल को फिर से निर्दिष्ट करना है ताकि आपके कुछ चर को गिराकर निकट-रैखिक निर्भरता को कम किया जा सके। दूसरा एक बड़ा और / या बेहतर (कम समरूप) नमूना प्राप्त करना है।
दिमित्री वी। मास्टरोव

1
(+1) यह स्पष्टीकरण एक अच्छा है, लेकिन इस घटना को बहुस्तरीयता के लिए विशेषता देना अनावश्यक है: प्रमुख अंतर संयुक्त रूप से सूचनात्मक और व्यक्तिगत रूप से जानकारीपूर्ण है। अतिरिक्त असंबद्ध रजिस्टरों (जिसमें किसी भी बहुसंस्कृति से बचा जाता है) को शामिल करना पूर्ववर्ती को छोड़ते समय पूर्व को कम करता है।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.