आरएलएम () प्रतिगमन गुणांक अनुमान आरएम में एलएम () से अलग क्यों हैं?


15

मैं आर मैसिव पैकेज में rlm का उपयोग एक बहुभिन्नरूपी रैखिक मॉडल को पुनः प्राप्त करने के लिए कर रहा हूं। यह कई नमूनों के लिए अच्छी तरह से काम करता है, लेकिन मुझे एक विशेष मॉडल के लिए अर्ध-शून्य गुणांक मिल रहा है:

Call: rlm(formula = Y ~ X1 + X2 + X3 + X4, data = mymodel, maxit = 50, na.action = na.omit)
Residuals:
       Min         1Q     Median         3Q        Max 
-7.981e+01 -6.022e-03 -1.696e-04  8.458e-03  7.706e+01 

Coefficients:
             Value    Std. Error t value 
(Intercept)    0.0002   0.0001     1.8418
X1             0.0004   0.0000    13.4478
X2            -0.0004   0.0000   -23.1100
X3            -0.0001   0.0002    -0.5511
X4             0.0006   0.0001     8.1489

Residual standard error: 0.01086 on 49052 degrees of freedom
  (83 observations deleted due to missingness)

तुलना के लिए, ये lm () द्वारा गणना किए गए गुणांक हैं:

Call:
lm(formula = Y ~ X1 + X2 + X3 + X4, data = mymodel, na.action = na.omit)

Residuals:
    Min      1Q  Median      3Q     Max 
-76.784  -0.459   0.017   0.538  78.665 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -0.016633   0.011622  -1.431    0.152    
X1            0.046897   0.004172  11.240  < 2e-16 ***
X2           -0.054944   0.002184 -25.155  < 2e-16 ***
X3            0.022627   0.019496   1.161    0.246    
X4            0.051336   0.009952   5.159  2.5e-07 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 2.574 on 49052 degrees of freedom
  (83 observations deleted due to missingness)
Multiple R-squared: 0.0182, Adjusted R-squared: 0.01812 
F-statistic: 227.3 on 4 and 49052 DF,  p-value: < 2.2e-16 

कुक की दूरी के अनुसार मापा जाने वाला एलएम प्लॉट कोई विशेष रूप से उच्च रूपरेखा नहीं दिखाता है:

एलएम डायग्नोस्टिक

संपादित करें

संदर्भ के लिए और मैक्रो द्वारा प्रदान किए गए उत्तर के आधार पर परिणामों की पुष्टि करने के बाद, आर कमांड ट्यूनिंग पैरामीटर सेट करने के लिए k, ह्यूबर अनुमानक में ( k=100इस मामले में) है:

rlm(y ~ x, psi = psi.huber, k = 100)

अवशिष्ट मानक त्रुटियां, अन्य सूचनाओं के संयोजन में, यह देखती हैं कि rlmवजन फ़ंक्शन लगभग सभी टिप्पणियों को बाहर निकाल रहा है। क्या आपको यकीन है कि यह दो रजिस्टरों में एक ही वाई है? (बस जाँच ...) method="MM"अपने rlmकॉल में प्रयास करें, फिर प्रयास करें (यदि वह विफल रहता है) psi=psi.huber(k=2.5)(2.5 मनमाना है, तो डिफ़ॉल्ट 1.345 से अधिक बड़ा है) जो lmवजन फ़ंक्शन के समान क्षेत्र में फैलता है ।
जूलमैन

@ जुम्मन वाई सही है। MM विधि जोड़ा गया। मेरा अंतर्ज्ञान वही है जिसका आपने उल्लेख किया है। मेरे द्वारा आजमाए गए अन्य लोगों की तुलना में यह मॉडल अवशिष्ट अपेक्षाकृत कॉम्पैक्ट है। ऐसा लगता है कि कार्यप्रणाली अधिकांश टिप्पणियों को छोड़ रही है।
रॉबर्ट कुब्रिक

1
@RobertKubrick आपको समझ में आता है कि k को 100 के सेट करने का क्या मतलब है , है ना?
user603

इसके आधार पर: एकाधिक आर-वर्ग: 0.0182, समायोजित आर-वर्ग: 0.01812 आपको अपने मॉडल की एक बार और जांच करनी चाहिए। आउटलेयर, प्रतिक्रिया या भविष्यवाणियों का परिवर्तन। या आपको नॉनलाइन मॉडल पर विचार करना चाहिए। प्रिडिक्टर X3 महत्वपूर्ण नहीं है। आपने जो बनाया है वह अच्छा रैखिक मॉडल नहीं है।
मैरिजा मिलोजेविक

जवाबों:


15

अंतर यह है कि rlm()विभिन्न -estimators की अपनी पसंद का उपयोग करते हुए मॉडल फिट बैठता है , जबकि साधारण कम से कम वर्गों का उपयोग करता है।Mlm()

सामान्य तौर पर एक प्रतिगमन गुणांक के लिए -estimator कम से कम होता हैM

i=1nρ(YiXiβσ)

βYiiXii

ρ(x)=x2
rlm()M

ρ(x)={12x2if |x|kk|x|12k2if |x|>k.

krlm()k=1.345

संपादित करें: ऊपर दिखाए गए QQ प्लॉट से, ऐसा लगता है कि आपके पास एक बहुत लंबी पूंछ वाला त्रुटि वितरण है। यह उस तरह की स्थिति है, जैसा कि ह्यूबर एम-एसेलेटर के लिए डिज़ाइन किया गया है और उस स्थिति में, काफी अलग अनुमान दे सकते हैं:

ρ|x|<k|x|>k स्थिति, जो OLS से प्रस्थान है, जो विसंगति की व्याख्या करेगा।


मैंने कई अन्य मॉडल (समान संख्या में अवलोकन, समान IVs) की कोशिश की है और गुणांक आरएलएम और एलएम के बीच काफी समान हैं। इस विशेष डेटा सेट में कुछ होना चाहिए जो गुणांक में बड़े अंतर का उत्पादन कर रहा है।
रॉबर्ट कुब्रिक

1
k

1
k=1.5,2,2.5,3,3.5,4psi.huberklm अनुमानों के । इसके अलावा, यह संभव है कि इस डेटासेट के साथ प्रसार (एमएडी) का शुरुआती अनुमान बहुत छोटा है, जिसे आप एमएडी के अवशेषों से गणना करके देख सकते हैं rlm; इस मामले में, किसी भी परिमाण का सब कुछ बाहर फेंक दिया जा रहा है क्योंकि प्रसार का अनुमान बहुत छोटा है, और कश्मीर कुछ अलग नहीं होगा।
jbowman

1
यह जोड़ा जानकारी के लिए, @jbowman - ये उपयोगी टिप्पणियां हैं। आपकी अंतिम टिप्पणी के संबंध में, उन बड़े अवलोकनों को बिल्कुल नहीं निकाला जा रहा है - उनका प्रभाव बस नीचे डायल किया जा रहा है (जैसा कि ऐसा लगता है कि उन्हें होना चाहिए), है ना?
मैक्रों

1
σσ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.