क्यों महत्वपूर्ण एफ सांख्यिकीय (पी <.001) प्राप्त करना संभव है, लेकिन गैर-महत्वपूर्ण प्रतिगामी टी-परीक्षण?


70

एक बहु-रेखीय प्रतिगमन में, अत्यधिक महत्वपूर्ण F आँकड़ा (p <.001) होना क्यों संभव है, लेकिन सभी regressor के t परीक्षणों पर बहुत उच्च p-मान हैं?

मेरे मॉडल में, 10 रजिस्ट्रार हैं। एक का पी-मान 0.1 है और बाकी 0.9 से ऊपर हैं


इस समस्या से निपटने के लिए अनुवर्ती प्रश्न देखें


2
क्या स्थिरांक भी नगण्य है? कितने मामले शामिल हैं? कितने चर?
whuber

बहुसंस्कृति का निदान कैसे किया गया? कई तरीके हैं, कुछ दूसरों की तुलना में अधिक जानकारीपूर्ण हैं। जितना आप हमें बताएंगे, समुदाय उतना ही बेहतर जवाब दे सकता है।
StasK

3
यह सवाल एक सवाल बन गया है। यहाँ कुछ उत्तरों को काफी हद तक इसी तरह के धागों से मिलाया गया था।
whuber


मुझे भी यही समस्या थी और ऊपर दिए गए गैर जवाब मेरी मदद कर सकते थे। अब मुझे उत्तर पता है (कम से कम मेरी समस्या के लिए): मॉडल 2 का एफ-मूल्य महत्वपूर्ण हो सकता है, क्योंकि आपको मॉडल 1 के रूप में समान 'स्थिर' (चर) मिला है (जो एफ-मूल्य भी महत्वपूर्ण है)। आपको कॉलम 'सिग' में 'मॉडल सारांश' नामक तालिका को देखना होगा। F परिवर्तन 'यह देखने के लिए कि क्या R वर्ग में परिवर्तन महत्वपूर्ण है (मॉडल 2 के लिए)। यदि वह महत्वपूर्ण है, तो बी-मान भी महत्वपूर्ण होना चाहिए। आप एफ-मूल्य को पूरी तरह से अनदेखा कर सकते हैं।

जवाबों:


53

जैसा कि रोब का उल्लेख है, यह तब होता है जब आपके पास अत्यधिक सहसंबद्ध चर होते हैं। मैं जिस मानक उदाहरण का उपयोग करता हूं वह जूता के आकार से वजन की भविष्यवाणी है। आप दाएं या बाएं जूते के आकार के साथ वजन का समान रूप से अनुमान लगा सकते हैं। लेकिन एक साथ यह काम नहीं करता है।

संक्षिप्त अनुकरण उदाहरण

RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99

weights = 120 + rnorm(RSS, 10*RSS, 10)

##Fit a joint model
m = lm(weights ~ LSS + RSS)

##F-value is very small, but neither LSS or RSS are significant
summary(m)

##Fitting RSS or LSS separately gives a significant result. 
summary(lm(weights ~ LSS))

9
यह ध्यान रखना दिलचस्प और महत्वपूर्ण है कि आपके दोनों मॉडल इस मामले में समान रूप से अच्छी तरह से भविष्यवाणी करते हैं। भविष्यवक्ताओं के बीच उच्च सहसंबंध जरूरी भविष्यवाणी के लिए एक समस्या नहीं है। मल्टीकोलिनेरिटी केवल एक समस्या है जब 1) विश्लेषकों ने कई प्रतिगमन गुणांकों की अनुचित व्याख्या करने की कोशिश की; 2) मॉडल अनुमान योग्य नहीं है; और 3) एसईएस फुलाया जाता है और गुणांक अस्थिर होते हैं।
ब्रेट

मैं समझता हूं कि दो चर एक दूसरे के साथ अत्यधिक सहसंबद्ध हैं, इस प्रकार टी परीक्षण का परिणाम गैर-महत्वपूर्ण है जबकि एफ परीक्षण का परिणाम महत्वपूर्ण है। लेकिन यह कैसे होता है? मेरा मतलब है, क्या कारण है जो इस तथ्य को रेखांकित करता है?
yue86231

105

इसके कारण स्वतंत्र चर के बीच बहुत कम सहसंबंध होता है।

यह देखने के लिए कि, निम्नलिखित प्रयास करें:

  • गुणांक iid मानक सामान्य के साथ दस वैक्टर के 50 सेट बनाएं ।(x1,x2,,x10)

  • कंप्यूट के लिएमैं=1,2,...,9। इस बनाता हैyमैंव्यक्तिगत रूप से मानक सामान्य लेकिन उनमें कुछ सह-संबंध के साथ।yi=(xi+xi+1)/2i=1,2,,9yi

  • कंप्यूट । ध्यान दें कि डब्ल्यू = w=x1+x2++x10w=2(y1+y3+y5+y7+y9)

  • लिए कुछ सामान्य रूप से वितरित त्रुटि जोड़ें । एक छोटे से प्रयोग के साथ मुझे लगता है कि पाया जेड = w + ε साथ ε ~ एन ( 0 , 6 ) बहुत अच्छी तरह से काम करता है। इस प्रकार, जेड का योग है एक्स मैं प्लस कुछ त्रुटि। यह भी का योग है में से कुछ y मैं प्लस एक ही त्रुटि।wz=w+εεN(0,6)zxiyi

हम विचार करेंगे स्वतंत्र चर और होना करने के लिए जेड निर्भर चर।yiz

इस तरह के एक डेटासेट का एक मैट्रिक्स है, जो शीर्ष और बाईं ओर साथ है और y i क्रम में आगे बढ़ रहा है।zyi

स्कैटरप्लॉट मैट्रिक्स

के बीच की उम्मीद सहसंबंध और y हैं 1 / 2 जब | मैं - जे | = 1 और 0 अन्यथा। एहसास सहसंबंध 62% तक होता है। वे विकर्ण के बगल में तंग तितर बितर के रूप में दिखाते हैं।yiyj1/2|ij|=10

के प्रतिगमन को देखो के खिलाफ y मैं :zyi

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  9,    40) =    4.57
       Model |  1684.15999     9  187.128887           Prob > F      =  0.0003
    Residual |  1636.70545    40  40.9176363           R-squared     =  0.5071
-------------+------------------------------           Adj R-squared =  0.3963
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3967

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.184007   1.264074     1.73   0.092    -.3707815    4.738795
          y2 |   1.537829   1.809436     0.85   0.400    -2.119178    5.194837
          y3 |   2.621185   2.140416     1.22   0.228    -1.704757    6.947127
          y4 |   .6024704   2.176045     0.28   0.783    -3.795481    5.000421
          y5 |   1.692758   2.196725     0.77   0.445    -2.746989    6.132506
          y6 |   .0290429   2.094395     0.01   0.989    -4.203888    4.261974
          y7 |   .7794273   2.197227     0.35   0.725    -3.661333    5.220188
          y8 |  -2.485206    2.19327    -1.13   0.264     -6.91797    1.947558
          y9 |   1.844671   1.744538     1.06   0.297    -1.681172    5.370514
       _cons |   .8498024   .9613522     0.88   0.382    -1.093163    2.792768
------------------------------------------------------------------------------

एफ आँकड़ा अत्यधिक महत्वपूर्ण है लेकिन स्वतंत्र चर में से कोई भी नहीं है, यहां तक ​​कि उन सभी 9 के लिए किसी भी समायोजन के बिना।

zyi

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  5,    44) =    7.77
       Model |  1556.88498     5  311.376997           Prob > F      =  0.0000
    Residual |  1763.98046    44  40.0904649           R-squared     =  0.4688
-------------+------------------------------           Adj R-squared =  0.4085
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3317

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.943948   .8138525     3.62   0.001     1.303736     4.58416
          y3 |   3.403871   1.080173     3.15   0.003     1.226925    5.580818
          y5 |   2.458887    .955118     2.57   0.013      .533973    4.383801
          y7 |  -.3859711   .9742503    -0.40   0.694    -2.349443    1.577501
          y9 |   .1298614   .9795983     0.13   0.895    -1.844389    2.104112
       _cons |   1.118512   .9241601     1.21   0.233    -.7440107    2.981034
------------------------------------------------------------------------------

इनमें से कुछ वैरिएबल अत्यधिक महत्वपूर्ण हैं, यहां तक ​​कि एक बोनफेरोनी समायोजन के साथ भी। (इन परिणामों को देखकर बहुत कुछ कहा जा सकता है, लेकिन यह हमें मुख्य बिंदु से दूर ले जाएगा।)

zy2,y4,y6,y8z

yमैं

एक निष्कर्ष हम इससे आकर्षित कर सकते हैं कि जब बहुत से चर एक मॉडल में शामिल किए जाते हैं तो वे वास्तव में महत्वपूर्ण लोगों को मुखौटा बना सकते हैं। इसका पहला संकेत व्यक्तिगत गुणांक के लिए अत्यधिक-महत्वपूर्ण टी-परीक्षण के साथ अत्यधिक महत्वपूर्ण समग्र एफ स्टेटिस्टिक है। (यहां तक ​​कि जब कुछ चर व्यक्तिगत रूप से महत्वपूर्ण होते हैं, तो इसका मतलब यह नहीं है कि दूसरे लोग नहीं हैं। यह स्टेपवाइज रिग्रेशन रणनीतियों के बुनियादी दोषों में से एक है: वे इस मास्किंग समस्या के शिकार होते हैं।) संयोग से, प्रसरण मुद्रास्फीति कारक।4.79 के औसत के साथ 2.55 से 6.09 के पहले प्रतिगमन रेंज में: अंगूठे के सबसे रूढ़िवादी नियमों के अनुसार बस कुछ बहुसंस्कृति का निदान करने की सीमा पर; अन्य नियमों के अनुसार थ्रेशोल्ड के नीचे (जहां 10 एक ऊपरी कटऑफ है)।


5
बहुत बढ़िया जवाब। एक प्लस 1 मुझसे। मैं इसे और अधिक देना पसंद करूंगा।
माइकल चेरिक

41

Multicollinearity

  • आर2
  • बेशक, बहुसंस्कृति केवल एक पूर्ण सीमा के बारे में नहीं है। रिग्रेशन गुणांक पर मानक त्रुटियां फोकल प्रेडिक्टर वृद्धि के साथ इंटरकोर्सल के रूप में बढ़ेंगी।

एकाधिक लगभग महत्वपूर्ण भविष्यवक्ता

  • यहां तक ​​कि अगर आपके पास कोई बहुस्तरीयता नहीं थी, तो आप अभी भी गैर-महत्वपूर्ण भविष्यवक्ता और एक समग्र महत्वपूर्ण मॉडल प्राप्त कर सकते हैं यदि दो या अधिक व्यक्तिगत भविष्यवाणियां महत्वपूर्ण के करीब हैं और इस प्रकार सामूहिक रूप से, समग्र भविष्यवाणी सांख्यिकीय महत्व की सीमा से गुजरती है। उदाहरण के लिए, .05 के अल्फा का उपयोग करते हुए, यदि आपके पास .0, और .07 के पी-मान के साथ दो भविष्यवाणियां थीं, तो मुझे आश्चर्य नहीं होगा यदि समग्र मॉडल में पी <.05 था।

अच्छा संक्षिप्त जवाब। इसे जोड़ने के लिए, मैं सुझाव दूंगा कि डेटा को नष्ट किया जाए (या एक भविष्यवक्ता को हटाकर) और यह देखने के लिए कि क्या प्रतिगमन के गुणांकों में ध्यान देने योग्य परिवर्तन है। उदाहरण के लिए, साइन परिवर्तन के लिए देखें।
मुस्तफा एस आइसा

38

यह तब होता है जब भविष्यवक्ता अत्यधिक सहसंबद्ध होते हैं। ऐसी स्थिति की कल्पना करें जहां बहुत उच्च सहसंबंध के साथ केवल दो भविष्यवाणियां हों। व्यक्तिगत रूप से, वे दोनों भी प्रतिक्रिया चर के साथ निकटता से संबंध रखते हैं। नतीजतन, एफ-परीक्षण का कम पी-मूल्य है (यह कह रहा है कि उत्तरदाताओं के साथ-साथ प्रतिक्रिया चर में भिन्नता को समझाने में अत्यधिक महत्वपूर्ण हैं)। लेकिन प्रत्येक भविष्यवक्ता के लिए टी-टेस्ट का एक उच्च पी-मूल्य है क्योंकि दूसरे भविष्यवक्ता के प्रभाव की अनुमति देने के बाद समझाने के लिए बहुत कुछ नहीं बचा है।


हाय रोब, आपको परेशान करने के लिए क्षमा करें। मैं आपके उत्तर के माध्यम से पढ़ता हूं (क्योंकि मैं अभी प्रश्न की स्थिति का सामना कर रहा हूं) लेकिन मैं यह नहीं समझ सकता कि आपके कहने का क्या मतलब है "दूसरे भविष्यवक्ता के प्रभाव की अनुमति देने के बाद समझाने के लिए बहुत कुछ नहीं बचा है।" क्या मैं आपको यह समझाने के लिए कह सकता हूं कि मुझे? बहुत बहुत धन्यवाद।
yue86231

1
@ yue86231 इसका मतलब यह है कि यद्यपि हमारे पास प्रत्येक पूर्वानुमानकर्ता के लिए एक पी-मान है, हम अलगाव में प्रत्येक पी-मूल्य की व्याख्या नहीं कर सकते हैं। प्रत्येक पूर्वसूचक टी-टेस्ट केवल एक चर के महत्व को दिखा सकता है जो अन्य सभी चर द्वारा समझाया गया विचरण के लिए लेखांकन के बाद है । रैखिक प्रतिगमन गुणांक और मानक त्रुटि एक ही समय में उत्पन्न होती है, इसलिए बोलने के लिए, और दो भविष्यवक्ता एक दूसरे के महत्व को कम करते हैं।
रॉबर्ट कुब्रिक

11

एक्स1~एन(0,1)एक्स2=एक्स1+δY=एक्स1+सीएक्स2+εδεएक्स1एन(0,1)

सीv(एक्स2,Y)=[(एक्स1+δ)(एक्स1+सीएक्स2+ε)]=[(एक्स1+δ)({+सी}एक्स1+सीδ+ε)]=(+सी)+सी

=1=2सी=-1

आपने कहा कि आप चर के मुद्दे को सहसंबद्ध मानते हैं और प्रतिगमन को महत्वहीन बताया जा रहा है; इसका शायद यह मतलब है कि आप बहुसंस्कृति के बार-बार उल्लेख करके वातानुकूलित किए गए हैं, लेकिन आपको कम से कम वर्गों की ज्यामिति की अपनी समझ को बढ़ावा देने की आवश्यकता होगी।


10

खोज करने वाला एक कीवर्ड "Collinearity" या "multicollinearity" होगा। Belsley , Kuh और Welsch द्वारा डायनोसियस इन्फ्लेशन फैक्टर्स (VIFs) जैसे डायग्नोस्टिक्स का उपयोग करके या इन्टेल टेक्स्टबुक "रिग्रेशन डायग्नॉस्टिक्स: आइडेंटिफिशियल इन्फ्लुएंशियल डेटा एंड कोलिनियरिटी के सोर्सेज ऑफ कोलिनियरिटी " के रूप में डायग्नोस्टिक्स का उपयोग करके इसका पता लगाया जा सकता है । VIFs बहुत समझना आसान है, लेकिन वे अवरोधन को शामिल समरैखिकता के साथ सौदा नहीं कर सकते हैं (यानी, भविष्यवक्ताओं कि खुद के द्वारा या में एक रेखीय संयोजन लगभग निरंतर कर रहे हैं) - इसके विपरीत, BKW निदान अब तक कम सहज ज्ञान युक्त हैं, लेकिन कर सकते हैं शामिल समरैखिकता के साथ सौदा अवरोधन।


9

आपको जो उत्तर मिलता है वह आपके द्वारा पूछे गए प्रश्न पर निर्भर करता है। पहले से ही किए गए अंकों के अलावा, व्यक्तिगत पैरामीटर F मान और समग्र मॉडल F मान अलग-अलग प्रश्नों का उत्तर देते हैं, इसलिए उन्हें अलग-अलग उत्तर मिलते हैं। मैंने ऐसा तब भी देखा है जब व्यक्तिगत एफ मान महत्वपूर्ण के करीब नहीं हैं, खासकर यदि मॉडल में 2 या 3 से अधिक आईवी हैं। मुझे व्यक्तिगत पी-वैल्यू को संयोजित करने और कुछ भी सार्थक प्राप्त करने का कोई तरीका नहीं पता है, इसके लिए एक तरीका हो सकता है।


2
(-1) हां - मूल पोस्टर यह ध्यान नहीं दे रहा है कि उसने ऐसा देखा है। सवाल यह था कि वास्तव में कुछ चीजें क्या हैं, जो इस संबंध के अलावा अन्य कारण हो सकती हैं और मैं नहीं देखता कि यह कैसे उत्तर है।
मैक्रो

4
@ मैक्रो डाउनवॉट थोड़ा कठोर लगता है, क्योंकि इस उत्तर में एक उपयोगी और वैध अवलोकन है: समग्र महत्व के लिए और व्यक्तिगत चर महत्व के लिए परीक्षण "विभिन्न प्रश्नों का उत्तर देते हैं।" माना जाता है कि यह गुणात्मक है, लेकिन अब और नहीं तो कई अपवोट के साथ पहला उत्तर; और उस उत्तर के लिए यह कुछ वैध अंतर्ज्ञान को जोड़ता है, यकीनन यह उस उत्तर पर सुधार करता है।
whuber

1
मैंने कभी नहीं कहा कि इस उत्तर द्वारा आपूर्ति की गई वैध जानकारी या अंतर्ज्ञान नहीं था। अगर मेरे पास इस सवाल का एक अच्छा जवाब होता तो मैं अब तक इसका जवाब दे देता - यह एक कठिन सवाल है - मैं केवल यह कह रहा था कि यह प्रतिक्रिया शब्द के किसी भी अर्थ में इस सवाल का जवाब नहीं देती।
मैक्रो

9

एक और बात ध्यान में रखना है कि व्यक्तिगत गुणांक पर परीक्षण प्रत्येक मान लेते हैं कि सभी अन्य भविष्यवक्ता मॉडल में हैं। दूसरे शब्दों में, प्रत्येक भविष्यवक्ता तब तक महत्वपूर्ण नहीं है जब तक कि सभी अन्य भविष्यवक्ता मॉडल में न हों। आपके दो या अधिक भविष्यवाणियों के बीच कुछ परस्पर क्रिया या अन्योन्याश्रितता होनी चाहिए।

जैसा कि ऊपर किसी और ने पूछा - आपने बहुसंस्कृति की कमी का निदान कैसे किया?


4

इसे समझने का एक तरीका है @StasK के अनुसार कम से कम वर्गों की ज्यामिति।

एक और एहसास यह है कि एक्स का मतलब वाई से संबंधित है जब अन्य चर के लिए नियंत्रित करते हैं, लेकिन अकेले नहीं। आप कहते हैं कि X का संबंध वाई से अनूठे रूप से है। यह सही है। वाई में अद्वितीय विचरण, हालांकि, कुल विचरण से अलग है। तो, दूसरे वेरिएबल्स किस वेरिएंट को हटा रहे हैं?

यदि आप हमें अपने चर बता सकते हैं तो यह मदद करेगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.