सरल रैखिक प्रतिगमन, पी-मान और एआईसी


14

मुझे लगता है कि इस विषय को यहाँ उदाहरण से पहले कई बार सामने आया है , लेकिन मैं अभी भी अनिश्चित हूं कि अपने प्रतिगमन उत्पादन की व्याख्या करने के लिए सबसे अच्छा कैसे हो।

मेरे पास एक बहुत ही साधारण डेटासेट है, जिसमें x मानों का एक स्तंभ और y मानों का एक स्तंभ है , जो स्थान ( लोकेशन ) के अनुसार दो समूहों में विभाजित है । अंक इस तरह दिखते हैं

यहाँ छवि विवरण दर्ज करें

एक सहकर्मी ने परिकल्पना की है कि हमें प्रत्येक समूह के लिए अलग-अलग सरल रेखीय रजिस्टरों को फिट करना चाहिए, जिनका मैंने उपयोग किया है y ~ x * C(loc)। आउटपुट नीचे दिखाया गया है।

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.873
Model:                            OLS   Adj. R-squared:                  0.866
Method:                 Least Squares   F-statistic:                     139.2
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           3.05e-27
Time:                        14:18:50   Log-Likelihood:                -27.981
No. Observations:                  65   AIC:                             63.96
Df Residuals:                      61   BIC:                             72.66
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
=================================================================================
                    coef    std err          t      P>|t|      [95.0% Conf. Int.]
---------------------------------------------------------------------------------
Intercept         3.8000      1.784      2.129      0.037         0.232     7.368
C(loc)[T.N]      -0.4921      1.948     -0.253      0.801        -4.388     3.404
x                -0.6466      0.230     -2.807      0.007        -1.107    -0.186
x:C(loc)[T.N]     0.2719      0.257      1.057      0.295        -0.242     0.786
==============================================================================
Omnibus:                       22.788   Durbin-Watson:                   2.552
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              121.307
Skew:                           0.629   Prob(JB):                     4.56e-27
Kurtosis:                       9.573   Cond. No.                         467.
==============================================================================

यहाँ छवि विवरण दर्ज करें

गुणांक के लिए पी-मूल्यों को देखते हुए, स्थान के लिए डमी चर और इंटरैक्शन शब्द शून्य से काफी अलग नहीं हैं, इस मामले में मेरा प्रतिगमन मॉडल अनिवार्य रूप से ऊपर की साजिश पर सिर्फ लाल रेखा को कम करता है। मेरे लिए, यह बताता है कि दो समूहों के लिए अलग-अलग लाइनें फिट करना एक गलती हो सकती है, और एक बेहतर मॉडल पूरे डेटासेट के लिए एक एकल प्रतिगमन लाइन हो सकती है, जैसा कि नीचे दिखाया गया है।

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.593
Model:                            OLS   Adj. R-squared:                  0.587
Method:                 Least Squares   F-statistic:                     91.93
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           6.29e-14
Time:                        14:24:50   Log-Likelihood:                -65.687
No. Observations:                  65   AIC:                             135.4
Df Residuals:                      63   BIC:                             139.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept      8.9278      0.935      9.550      0.000         7.060    10.796
x             -1.2446      0.130     -9.588      0.000        -1.504    -0.985
==============================================================================
Omnibus:                        0.112   Durbin-Watson:                   1.151
Prob(Omnibus):                  0.945   Jarque-Bera (JB):                0.006
Skew:                           0.018   Prob(JB):                        0.997
Kurtosis:                       2.972   Cond. No.                         81.9
==============================================================================

यहाँ छवि विवरण दर्ज करें

यह मुझे दृष्टिगत रूप से ठीक लगता है, और सभी गुणांक के पी-मान अब महत्वपूर्ण हैं। हालांकि, दूसरे मॉडल के लिए एआईसी पहले की तुलना में बहुत अधिक है।

मुझे लगता है कि मॉडल चयन के बारे में और अधिक से अधिक है तो बस पी मूल्यों या बस AIC, लेकिन मुझे यकीन है कि क्या इस बात का बनाने के लिए नहीं कर रहा हूँ। क्या कोई इस आउटपुट की व्याख्या करने और एक उपयुक्त मॉडल चुनने के बारे में कोई व्यावहारिक सलाह दे सकता है, कृपया ?

मेरी नज़र में, एकल प्रतिगमन रेखा ठीक लगती है (हालांकि मुझे लगता है कि उनमें से कोई भी विशेष रूप से अच्छा नहीं है), लेकिन ऐसा लगता है जैसे अलग-अलग मॉडल (?) को फिट करने के लिए कम से कम कुछ औचित्य है।

धन्यवाद!

टिप्पणियों के जवाब में संपादित

@ कगदास ओजेंक

दो-पंक्ति मॉडल को पायथन के सांख्यिकीमॉडल और निम्नलिखित कोड का उपयोग करके फिट किया गया था

reg = sm.ols(formula='y ~ x * C(loc)', data=df).fit()

जैसा कि मैं इसे समझता हूं, यह अनिवार्य रूप से इस तरह के एक मॉडल के लिए सिर्फ शॉर्टहैंड है

y=β0+β1x+β2l+β3xl

जहां एक द्विआधारी "डमी" चर है जो स्थान का प्रतिनिधित्व करता है। व्यवहार में यह अनिवार्य रूप से सिर्फ दो रैखिक मॉडल है, है ना? जब , और मॉडल कम हो जाता हैl o c = D l = 0lloc=Dl=0

y=β0+β1x

जो ऊपर की साजिश पर लाल रेखा है। जब , और मॉडल बन जाता हैl = 1loc=Nl=1

y=(β0+β2)+(β1+β3)x

जो कि ऊपर की साजिश पर नीली रेखा है। इस मॉडल के लिए एआईसी को स्टैटमोडेल सारांश में स्वचालित रूप से सूचित किया जाता है। एक लाइन मॉडल के लिए मैंने बस इस्तेमाल किया

reg = ols(formula='y ~ x', data=df).fit()

मुझे लगता है कि यह ठीक है?

@ user2864849

मुझे नहीं लगता कि सिंगल लाइन मॉडल स्पष्ट रूप से बेहतर है, लेकिन मुझे इस बात की चिंता है कि लिए रिग्रेशन लाइन को कैसे खराब किया जाए । दो स्थानों (डी और एन) अंतरिक्ष में बहुत दूर हैं, और अगर मैं पहले से ही लाल और नीले समूहों के बीच मोटे तौर पर साजिश रचने वाले बिंदुओं में कहीं से अतिरिक्त डेटा इकट्ठा कर रहा हूं, तो मुझे बिल्कुल आश्चर्य नहीं होगा। मेरे पास इसे वापस करने के लिए अभी तक कोई डेटा नहीं है, लेकिन मुझे नहीं लगता कि सिंगल लाइन मॉडल बहुत भयानक लग रहा है और मुझे चीजों को बनाए रखना पसंद है :-)loc=D

संपादित करें २

पूर्णता के लिए, यहां @whuber द्वारा सुझाए गए अवशिष्ट भूखंड हैं। दो-लाइन मॉडल वास्तव में इस दृष्टिकोण से बहुत बेहतर दिखता है

दो-लाइन मॉडल

यहाँ छवि विवरण दर्ज करें

एक-पंक्ति मॉडल

यहाँ छवि विवरण दर्ज करें

सबको शुक्रीया!


3
यह समझाने की परवाह करें कि एकल प्रतिगमन रेखा आपको बेहतर क्यों लगती है? मेरे लिए मुझे दो क्लस्टर दिखाई देते हैं जो रैखिक रूप से अलग होते हैं और श्रेणी N में बहुत कम विचरण होता है। क्या आपको लगता है कि अति आत्मविश्वास वाले बैंड की वजह से सबसे बुरा है?
Marsenau

6
(1) आपके अवरोधन के अनुमान आपको बहुत कम बताते हैं - वे आपके डेटा में मानों की श्रेणी के लिए प्रासंगिक नहीं हैं । उनके महत्व की स्पष्ट कमी आपको गुमराह कर रही है। (२) वास्तव में क्या चल रहा है, यह देखने के लिए, दोनों में से प्रत्येक के लिए अवशिष्टों को हल करें । यह तुरंत स्पष्ट हो जाएगा कि दूसरा (एक-पंक्ति) फिट कितना बुरा है। x
whuber

3
@STudentT मॉडल एक दूसरे के भीतर निहित हैं; उनकी तुलना करने के लिए AIC पूरी तरह से ठीक है। BTW, आँकड़े दोनों मामलों में पोस्ट किए गए हैं। R2
whuber

3
@StudentT दोनों मॉडल सभी डेटा पॉइंट का उपयोग करते हैं। सरल मॉडल कम स्वतंत्र चर का उपयोग करता है। एक डेटा बिंदु संपूर्ण टपल है।
कागदस ओजेंक

5
यदि आप मॉडल चयन के लिए एक परिकल्पना-परीक्षण आधारित दृष्टिकोण लेना चाहते हैं, तो आपको यह नहीं मानना ​​चाहिए कि क्योंकि दो भविष्यवक्ता मॉडल से दोनों को हटाने वाले प्रत्येक महत्वहीन हैं, इसलिए उनका आयात कम होगा। संयुक्त महत्व के लिए एफ-परीक्षण उपयुक्त होगा।
Scortchi - को पुनः स्थापित मोनिका

जवाबों:


1

क्या आपने बातचीत के बिना दोनों भविष्यवक्ताओं का उपयोग करने की कोशिश की? तो यह होगा:

y ~ x + स्थान

एआईसी पहले मॉडल में बेहतर हो सकता है क्योंकि स्थान महत्वपूर्ण है। लेकिन बातचीत महत्वपूर्ण नहीं है, यही वजह है कि पी-मान महत्वपूर्ण नहीं हैं। फिर आप इसे लो के लिए नियंत्रित करने के बाद एक्स के प्रभाव के रूप में व्याख्या करेंगे।


1

मुझे लगता है कि आपने इस धारणा को चुनौती देने के लिए अच्छा काम किया है कि पी-वैल्यू और एआईसी के मान एक मॉडल की व्यवहार्यता को निर्धारित कर सकते हैं। मुझे खुशी है कि आपने इसे यहां साझा करना चुना।

जैसा कि आपने प्रदर्शित किया है, विभिन्न ट्रेड-ऑफ हैं, जैसा कि आप विभिन्न शर्तों और संभवतः उनके इंटरैक्शन पर विचार करते हैं। तो एक सवाल मन में है कि मॉडल का उद्देश्य क्या है। आप के प्रभाव को निर्धारित करने के लिए कमीशन रहे हैं स्थान पर yहै, तो आप स्थान मॉडल में कैसे कमजोर पी-मूल्य है की परवाह किए बिना रखना चाहिए। एक अशक्त परिणाम उस मामले में महत्वपूर्ण जानकारी है।

पहली नज़र में, यह स्पष्ट लगता है कि Dस्थान एक बड़ा है y। लेकिन केवल एक संकीर्ण सीमा है xजिसके लिए आपके पास Dऔर Nस्थान के लिए दोनों मूल्य हैं। इस छोटे अंतराल के लिए अपने मॉडल गुणांक को पुन: उत्पन्न करने की संभावना एक बहुत बड़ी मानक त्रुटि होगी।

लेकिन शायद आप भविष्यवाणी करने की क्षमता से परे स्थान की परवाह नहीं करते y। यह वह डेटा था जो आपने अभी-अभी किया था और इसे आपके प्लॉट पर कलर कोड करने से एक दिलचस्प पैटर्न का पता चला। इस मामले में आप अपने पसंदीदा गुणांक की व्याख्या की तुलना में मॉडल की भविष्यवाणी में अधिक रुचि रख सकते हैं । मुझे संदेह है कि इस मामले में एआईसी के मूल्य अधिक उपयोगी हैं। मैं एआईसी से अभी तक परिचित नहीं हूँ; लेकिन मुझे संदेह है कि यह मिश्रित अवधि को दंडित कर सकता है क्योंकि केवल एक छोटी सी सीमा होती है जिसमें आप निश्चित स्थान बदल सकते हैं । उस स्थान को बहुत कम बताया गया है जो पहले से ही व्याख्या नहीं करता है।xx


0

आपको दोनों समूहों को अलग-अलग रिपोर्ट करना चाहिए (या शायद बहु-स्तरीय मॉडलिंग पर विचार करें)। बस समूहों को संयोजित करने के लिए प्रतिगमन की बुनियादी मान्यताओं में से एक (और सबसे अन्य सांख्यिकीय सांख्यिकीय तकनीक) का उल्लंघन है, टिप्पणियों की स्वतंत्रता। या इसे दूसरे तरीके से रखने के लिए, समूहीकरण चर (स्थान) एक छिपा हुआ चर है जब तक कि इसे आपके विश्लेषण में ध्यान में नहीं लिया जाता है।

एक चरम मामले में, एक समूहीकरण चर को अनदेखा करना सिम्पसन के विरोधाभास को जन्म दे सकता है। इस विरोधाभास में, आपके पास दो समूह हो सकते हैं, जिसमें एक सकारात्मक सहसंबंध है, लेकिन यदि आप उन्हें जोड़ते हैं तो आपके पास एक (गलत, गलत) नकारात्मक सहसंबंध है। (या इसके विपरीत, निश्चित रूप से।) http://www.theregister.co.uk/2014/05/28/theorums_3_sapps// देखें ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.