लॉजिस्टिक रिग्रेशन में अत्यधिक गुणांक - इसका क्या मतलब है और क्या करना है?


9

मुझे लॉजिस्टिक रिग्रेशन के दौरान भारी गुणांक मिलते हैं, इसके साथ गुणांक देखें krajULKV:

> summary(m5)

Call:
glm(formula = cbind(ml, ad) ~ rok + obdobi + kraj + resid_usili2 + 
    rok:obdobi + rok:kraj + obdobi:kraj + kraj:resid_usili2 + 
    rok:obdobi:kraj, family = "quasibinomial")

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.7796  -1.0958  -0.3101   1.0034   2.8370  

Coefficients:
                              Estimate     Std. Error t value Pr(>|t|)   
(Intercept)                 -486.72087      664.71911  -0.732  0.46424   
rok                            0.24232        0.33114   0.732  0.46452   
obdobinehn                  3400.43703     1354.14874   2.511  0.01223 * 
krajJHC                      786.22409      708.50291   1.110  0.26746   
krajJHM                      511.85538      823.03038   0.622  0.53417   
krajLBK                      -23.94180     2388.86316  -0.010  0.99201   
krajMSK                     1281.88767      955.09736   1.342  0.17992   
krajOLK                     -175.19425     1255.82946  -0.140  0.88909   
krajPAK                      349.76438     1071.03364   0.327  0.74408   
krajPLK                    -1335.73206     1534.09899  -0.871  0.38418   
krajSTC                      868.99157      692.30426   1.255  0.20976   
krajULKV                  245661.86828 17496742.31677   0.014  0.98880   
krajVYS                     3341.76686     1314.77140   2.542  0.01121 * 
krajZLK                     3950.75617     2922.25220   1.352  0.17676   
resid_usili2                  -1.44719        0.89315  -1.620  0.10555   
rok:obdobinehn                -1.69479        0.67462  -2.512  0.01219 * 
rok:krajJHC                   -0.39108        0.35295  -1.108  0.26817   
rok:krajJHM                   -0.25481        0.40997  -0.622  0.53443   
rok:krajLBK                    0.01621        1.19155   0.014  0.98915   
rok:krajMSK                   -0.63985        0.47592  -1.344  0.17917   
rok:krajOLK                    0.08714        0.62545   0.139  0.88923   
rok:krajPAK                   -0.17419        0.53344  -0.327  0.74410   
rok:krajPLK                    0.66539        0.76383   0.871  0.38394   
rok:krajSTC                   -0.43292        0.34490  -1.255  0.20976   
rok:krajULKV                -122.01076     8704.03367  -0.014  0.98882   
rok:krajVYS                   -1.66391        0.65468  -2.542  0.01122 * 
rok:krajZLK                   -1.96718        1.45474  -1.352  0.17667   
obdobinehn:krajJHC         -3623.86807     1385.86009  -2.615  0.00909 **
obdobinehn:krajJHM         -3220.08906     1458.83842  -2.207  0.02757 * 
obdobinehn:krajLBK         -1051.07131     3434.11845  -0.306  0.75963   
obdobinehn:krajMSK         -6415.65781     1978.30260  -3.243  0.00123 **
obdobinehn:krajOLK         -2427.66591     1777.51914  -1.366  0.17239   
obdobinehn:krajPAK         -3111.45312     1623.59145  -1.916  0.05566 . 
obdobinehn:krajPLK         -1800.26258     2065.74461  -0.871  0.38375   
obdobinehn:krajSTC         -4409.45624     1379.64196  -3.196  0.00145 **
obdobinehn:krajULKV      -187832.68360 16454272.74951  -0.011  0.99089   
obdobinehn:krajVYS         -5445.51446     1791.38012  -3.040  0.00244 **
obdobinehn:krajZLK         -6216.43343     3167.49836  -1.963  0.05003 . 
krajJHC:resid_usili2           1.60474        0.98554   1.628  0.10385   
krajJHM:resid_usili2           1.57822        1.04518   1.510  0.13143   
krajLBK:resid_usili2          11.53462       13.40012   0.861  0.38961   
krajMSK:resid_usili2          -1.33600        1.55241  -0.861  0.38971   
krajOLK:resid_usili2           0.07296        1.27034   0.057  0.95421   
krajPAK:resid_usili2           1.35880        1.23033   1.104  0.26974   
krajPLK:resid_usili2           1.90189        1.41163   1.347  0.17826   
krajSTC:resid_usili2           2.05237        0.95972   2.139  0.03277 * 
krajULKV:resid_usili2        599.79215    20568.86123   0.029  0.97674   
krajVYS:resid_usili2           3.03834        1.16464   2.609  0.00925 **
krajZLK:resid_usili2           1.18574        1.11024   1.068  0.28583   
rok:obdobinehn:krajJHC         1.80611        0.69042   2.616  0.00906 **
rok:obdobinehn:krajJHM         1.60475        0.72676   2.208  0.02751 * 
rok:obdobinehn:krajLBK         0.52268        1.71244   0.305  0.76027   
rok:obdobinehn:krajMSK         3.19712        0.98564   3.244  0.00123 **
rok:obdobinehn:krajOLK         1.21012        0.88541   1.367  0.17208   
rok:obdobinehn:krajPAK         1.55034        0.80886   1.917  0.05563 . 
rok:obdobinehn:krajPLK         0.89718        1.02893   0.872  0.38349   
rok:obdobinehn:krajSTC         2.19742        0.68732   3.197  0.00144 **
rok:obdobinehn:krajULKV       93.43130     8189.24994   0.011  0.99090   
rok:obdobinehn:krajVYS         2.71357        0.89236   3.041  0.00243 **
rok:obdobinehn:krajZLK         3.09624        1.57711   1.963  0.04996 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for quasibinomial family taken to be 1.258421)

    Null deviance: 1518.0  on 878  degrees of freedom
Residual deviance: 1228.6  on 819  degrees of freedom
  (465 observations deleted due to missingness)
AIC: NA

Number of Fisher Scoring iterations: 18

इसका क्या मतलब है?? क्या इस चर्चा में उल्लिखित @Scortchi जैसी कुछ बहुसंस्कृति का मतलब है ? या इसका मतलब ओवरफिटिंग है? समस्या का पता कैसे लगाएं? अब मुझे क्या करना चाहिये?

मैंने कुछ चर निकालने की कोशिश की। यह थोड़ा मदद करता है लेकिन इतना नहीं:

> m6 <- update(m5, ~.- kraj:resid_usili2)
> m7 <- update(m6, ~.- resid_usili2)
> summary(m7)

Call:
glm(formula = cbind(ml, ad) ~ rok + obdobi + kraj + rok:obdobi + 
    rok:kraj + obdobi:kraj + rok:obdobi:kraj, family = "quasibinomial")

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.9098  -1.1931  -0.2274   1.0529   3.1283  

Coefficients:
                           Estimate  Std. Error t value Pr(>|t|)
(Intercept)              -118.95199   476.34698  -0.250    0.803
rok                         0.05971     0.23718   0.252    0.801
obdobinehn                412.69412   646.95083   0.638    0.524
krajJHC                   447.69791   498.45358   0.898    0.369
krajJHM                   -62.92516   525.85737  -0.120    0.905
krajLBK                   677.73239  1595.20024   0.425    0.671
krajMSK                   278.24639   621.32312   0.448    0.654
krajOLK                  -705.97832   782.53474  -0.902    0.367
krajPAK                   387.96543   608.98961   0.637    0.524
krajPLK                  -653.68419   782.20737  -0.836    0.403
krajSTC                  -114.34822   489.06318  -0.234    0.815
krajULKV                -2117.64674  1797.75836  -1.178    0.239
krajVYS                   884.74411   681.05324   1.299    0.194
krajZLK                  -997.77613   925.93280  -1.078    0.281
rok:obdobinehn             -0.20602     0.32211  -0.640    0.523
rok:krajJHC                -0.22303     0.24819  -0.899    0.369
rok:krajJHM                 0.03092     0.26180   0.118    0.906
rok:krajLBK                -0.33909     0.79438  -0.427    0.670
rok:krajMSK                -0.13889     0.30935  -0.449    0.654
rok:krajOLK                 0.35102     0.38943   0.901    0.368
rok:krajPAK                -0.19392     0.30323  -0.640    0.523
rok:krajPLK                 0.32463     0.38937   0.834    0.405
rok:krajSTC                 0.05677     0.24351   0.233    0.816
rok:krajULKV                1.05287     0.89453   1.177    0.239
rok:krajVYS                -0.44149     0.33911  -1.302    0.193
rok:krajZLK                 0.49612     0.46081   1.077    0.282
obdobinehn:krajJHC       -776.31258   672.68911  -1.154    0.249
obdobinehn:krajJHM       -267.78650   700.38741  -0.382    0.702
obdobinehn:krajLBK      -1246.67321  1760.37329  -0.708    0.479
obdobinehn:krajMSK       -383.77613   858.81391  -0.447    0.655
obdobinehn:krajOLK        -96.72334   947.75189  -0.102    0.919
obdobinehn:krajPAK       -540.25140   827.13134  -0.653    0.514
obdobinehn:krajPLK       -517.49161  1124.63474  -0.460    0.645
obdobinehn:krajSTC       -683.81160   672.66674  -1.017    0.310
obdobinehn:krajULKV      2344.32314  2073.98366   1.130    0.259
obdobinehn:krajVYS       -795.62043   917.80551  -0.867    0.386
obdobinehn:krajZLK        618.33075  1093.37768   0.566    0.572
rok:obdobinehn:krajJHC      0.38725     0.33493   1.156    0.248
rok:obdobinehn:krajJHM      0.13374     0.34870   0.384    0.701
rok:obdobinehn:krajLBK      0.62237     0.87662   0.710    0.478
rok:obdobinehn:krajMSK      0.19114     0.42758   0.447    0.655
rok:obdobinehn:krajOLK      0.04842     0.47171   0.103    0.918
rok:obdobinehn:krajPAK      0.26922     0.41184   0.654    0.513
rok:obdobinehn:krajPLK      0.25790     0.55986   0.461    0.645
rok:obdobinehn:krajSTC      0.34078     0.33492   1.017    0.309
rok:obdobinehn:krajULKV    -1.16571     1.03236  -1.129    0.259
rok:obdobinehn:krajVYS      0.39675     0.45704   0.868    0.386
rok:obdobinehn:krajZLK     -0.30732     0.54422  -0.565    0.572

(Dispersion parameter for quasibinomial family taken to be 1.313286)

    Null deviance: 2396.8  on 1343  degrees of freedom
Residual deviance: 2110.3  on 1296  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 5

EDIT: Scortchi द्वारा प्रस्तावित के रूप में , मैंने VIF का उपयोग करने की कोशिश की और मुझे बहुत अधिक मूल्य मिले। इसका क्या मतलब है? देख:

> require(HH)
> vif(cbind(ml, ad) ~ rok + obdobi + kraj + resid_usili2 + 
+         rok:obdobi + rok:kraj + obdobi:kraj + kraj:resid_usili2 + 
+         rok:obdobi:kraj)
                    rok              obdobinehn                 krajJHC                 krajJHM 
              50.281603         45075363.969712         15194580.406796         11362184.620230 
                krajLBK                 krajMSK                 krajOLK                 krajPAK 
         7567915.376763          5228018.864051         17105623.986998         10944471.683601
[... cut out ...]

ठीक है, क्या आपने krjXXX चर के सहसंबंध मैट्रिक्स पर देखा है कि क्या वे अत्यधिक सहसंबद्ध हैं?
zbicyclist

@zbicyclist, धन्यवाद। kraj12 स्तरों (HKK (इंटरसेप्ट में छिपा हुआ), JHC, JHM, LBK, MSK, ...) का सिर्फ एक श्रेणीबद्ध चर है, इसलिए मुझे लगता है कि krajXXX के लिए सहसंबंध मैट्रिक्स का मतलब नहीं है, क्या मैं सही हूं? तब मुझे क्या करना चाहिए?
उत्सुक

त्वरित अनुरोध: Scortchi द्वारा चर्चा के लिए आपके लिंक में कोई वास्तविक लिंक नहीं है, क्या आप कृपया इसे जोड़ सकते हैं? धन्यवाद!
जेम्स स्टैनली

2
टॉमस, मुझे लगता है कि एचकेके स्तर एक लगातार स्तर है (यानी आपने सिर्फ 1 या 2 टिप्पणियों के साथ एक स्तर नहीं छोड़ा था)। एक गलती जो कभी-कभी की जाती है, वह है कम से कम लगातार स्तर गिराना। मुझे लगता है कि @ जेम्स स्टेनली के पास सबसे अच्छा सुझाव है कि आगे क्या करना है।
zbicyclist

1
कोई चिंता नहीं, यह जानने के लिए अच्छा है - मुझे लगता है कि @ zbicyclist की बात यह है कि यदि आप एक संदर्भ श्रेणी चुनते हैं, जिसका परिणाम वास्तव में असीम है, तो उस कारक के सभी पैरामीटर अर्ध-पूर्ण अलगाव (जबकि एक स्तर का चयन करते हुए प्रभावित हो सकते हैं) अधिक लगातार परिणाम यह सभी मापदंडों के लिए एक समस्या होने से रोकेगा)। [FYI करें, जिसे आप पहले से ही जानते हैं - यदि आवश्यक हो तो आप संदर्भ स्तर को बदल सकते हैं: R में, उदाहरण के लिए, kraj <- relevel(kraj, ref = "JHC")यदि आप JHC को संदर्भ स्तर के रूप में उपयोग करना चाहते हैं, तो उपयोग करेंगे।]
जेम्स स्टेनली

जवाबों:


14

मेरा सुझाव है कि बड़े पैमाने पर गुणांक, और इसी तरह के बड़े पैमाने पर मानक त्रुटियों, लगभग निश्चित रूप से अर्ध-पूर्ण या पूर्ण पृथक्करण के कारण होगा। यही है, मापदंडों के कुछ संयोजन के लिए, या तो हर किसी का परिणाम था या किसी का भी परिणाम नहीं था, और इसलिए अनंत के प्रति गुणांक प्रमुख (या नकारात्मक अनंत)।

यह विशेष रूप से तब होता है जब कोई व्यक्ति बहुत अधिक इंटरैक्शन शब्द निर्दिष्ट करता है, क्योंकि कुछ "खाली" (सेल में कोई परिणाम नहीं है, या सभी के परिणाम हैं) कोशिकाओं में वृद्धि होने वाले कारकों के संयोजन की संभावना बढ़ जाएगी।

कुछ और विवरणों और सुझाई गई रणनीतियों के लिए निम्न पृष्ठ देखें: http://www.ats.ucla.edu/stat/mult_pkg/faq/general/complete_separation_logit_models.htm

अधिक आम तौर पर, इसका मतलब है कि आप संभवतः अपने डेटासेट के आकार के लिए अपने मॉडल के साथ "बहुत अधिक" करने की कोशिश कर रहे हैं (विशेषकर आउटस्टैंड की संख्या)।

संपादित करें: व्यावहारिक सुझावों के एक जोड़े

आप कोशिश कर सकते हैं (1) त्वरित और सरल: अपने मॉडल से बातचीत की शर्तों को छोड़ें, यह देखने के लिए कि क्या मदद करता है (क्या यह एक शोध प्रश्न के नजरिए से समझ में आता है) एक पूरी तरह से अलग मुद्दा है; या (2) आपको परिणामी चर द्वारा (जैसे कॉलम) अंत: क्रिया में वर्णित संयोजनों के लिए एक द्वि-आईआईजी आकस्मिक तालिका बनाने के लिए आर मिलता है। आप यहाँ अलगाव के कुछ सबूत देख सकते हैं।


धन्यवाद जेम्स। तो क्या इसका मतलब वास्तव में ओवरफिटिंग है? क्या इसका मतलब यह है कि मुझे संभवतः मॉडल में इंटरैक्शन शामिल नहीं करना चाहिए?
उत्सुक

मुझे नहीं लगता कि यह तकनीकी रूप से "ओवरफिटिंग" है, लेकिन आपके मॉडल को ओवरस्ट्रेच करने का मामला है। उदाहरण के लिए देखें कि विकीपीडिया का आम तौर पर ओवरफिटिंग से क्या मतलब है (और मैं परिभाषा का विशेषज्ञ होने का दिखावा नहीं करूंगा): en.wikipedia.org/wiki/Overfitting - कि एक ओवरस्पीकेड मॉडल वह है जहां पैरामीटर अनुमानित नहीं होता है क्रॉस-वेलिडेशन, या दूसरे शब्दों में अच्छा प्रदर्शन करें, आपके द्वारा निर्दिष्ट मॉडल इस नमूने का वर्णन करेगा, लेकिन उसी जनसंख्या के दूसरे नमूने पर अच्छी तरह से काम नहीं करेगा।
जेम्स स्टैनली

धन्यवाद जेम्स - लेकिन यह वही है जो मैं ओवरफिटिंग शब्द के तहत कल्पना करता हूं .. BTW, मैंने वीआईएफ का इस्तेमाल किया और मुझे बहुत अधिक मूल्य मिले, कृपया मेरा संपादित प्रश्न देखें। क्या यह आपको मल्टीकोलिनरिटी / ओवरफिटिंग मुद्दों के बारे में कुछ नया बताता है?
उत्सुक

2
मुझे लगता है कि यह केवल शब्दावली / शब्दजाल का सवाल है - जो आप बता रहे हैं वह अभी भी एक समस्या है, और ओवरस्पीसीफिकेशन के कारण है, लेकिन मुझे नहीं लगता कि हम इसे औपचारिक अर्थों में "ओवरफिटिंग" के रूप में संदर्भित करेंगे। मुझे दूर जाना होगा और स्पष्ट होने के लिए कुछ बिट्स को भेदों पर पढ़ना होगा!
जेम्स स्टेनली

2
मुझे यकीन नहीं है कि अर्ध-पूर्ण अलगाव से परे एक तकनीकी शब्द है या नहीं। मैं कहूंगा कि "अर्ध-पूर्ण पृथक्करण से बचने के लिए (दो कारकों के संयोजन में विरल डेटा के कारण) हमने इंटरैक्शन के लिए परीक्षण नहीं किया"। जाहिर है यह बहुत सारे शब्दजाल है, लेकिन मुझे लगता है कि यह सबसे अच्छा वर्णन हो सकता है?
जेम्स स्टेनली
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.