मॉडल चयन प्रक्रिया के बारे में समस्या की गणना, रेगस्बिट्स और सामान्य प्रश्नों की व्याख्या करना


9

मैं मॉडल का उपयोग करके चयन करना चाहता हूं regsubsets()। मेरे पास एक डेटाफ़्रेम है जिसे ओलिम्पियाडेटन (डेटा अपलोड किया गया: http://www.sendspace.com/file/8e27d0 ) कहा जाता है । मैं पहले यह डेटाफ़्रेम संलग्न करता हूं और फिर विश्लेषण करना शुरू करता हूं, मेरा कोड है:

attach(olympiadaten)

library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + 
              Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")


summary(lm(Gesamt~ExpHealth))

प्लॉट का स्क्रीनशॉट:
http://tinypic.com/r/2pq8agy/6

समस्या अब यह है, कि मैं सबसे अच्छे मॉडल को "मैन्युअल रूप से" फिर से फिट करना चाहता हूं और उस पर एक नज़र डालना चाहता हूं, लेकिन समायोजित आर स्क्वेर का मूल्य रजिस्ट्रेट्स आउटपुट में समान नहीं है? यह अन्य मॉडलों के लिए भी मामला है, उदाहरण के लिए जब मैं ग्राफिक में सबसे सरल मॉडल करता हूं:

summary(lm(Gesamt~ExpHealth))

ग्राफिक कहता है, इसमें लगभग 0.14 का एक समायोजित आर वर्ग होना चाहिए, लेकिन जब मैं आउटपुट को देखता हूं, तो मुझे 0.06435 का मान मिलता है।

यहाँ का उत्पादन है summary(lm(Gesamt~ExpHealth)):

Call:
lm(formula = Gesamt ~ ExpHealth)

Residuals:
    Min      1Q  Median      3Q     Max 
-18.686  -9.856  -4.496   1.434  81.980 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  -3.0681     6.1683  -0.497   0.6203  
ExpHealth     1.9903     0.7805   2.550   0.0127 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 18.71 on 79 degrees of freedom
  (4 observations deleted due to missingness)
Multiple R-squared: 0.07605,    Adjusted R-squared: 0.06435 
F-statistic: 6.502 on 1 and 79 DF,  p-value: 0.01271 

मुझे नहीं पता कि मैंने क्या गलत किया है, किसी भी मदद की सराहना की जाएगी।

और अंतिम लेकिन कम से कम, कुछ और प्रश्न:

  • AIC और adj द्वारा मॉडल का चयन करने में क्या अंतर है। आर चुकता?
  • दोनों फिट को मापते हैं और चर की संख्या को पहचानते हैं, इसलिए एआईसी द्वारा चुना गया सबसे अच्छा मॉडल नहीं है, जो उच्चतम एडीजे वाला मॉडल भी है। r चुकता?
  • जब मेरे पास 12 चर होते हैं, तो इसका मतलब है, मॉडल की संभावनाएं हैं, है ना? 212
  • तो क्या regsubsets()कमांड प्रत्येक मॉडल की गणना करता है और nbest=2प्रत्येक आकार के दो सर्वश्रेष्ठ ( ) दिखाता है ?
  • यदि हां, तो क्या मुझे वास्तव में 'सर्वश्रेष्ठ' मॉडल मिलता है?
  • और जब मैं AIC बैकवर्ड सिलेक्शन (मॉडल के साथ शुरू करना जिसमें सभी चर होते हैं) का उपयोग करते हैं, तो क्या यह भी उसी मॉडल के साथ समाप्त होता है जो regsubsets()कहता है कि सबसे अच्छा है?

1
समायोजित में अंतर इसलिए है क्योंकि कुछ चर में लापता मान हैं। मेरा मानना ​​है कि यदि आप डेटा के सबसेट का उपयोग करके "मैन्युअल रूप से" फिट किए गए समान समायोजित प्राप्त करेंगे , जिसके लिए सभी चर (regsubsets में सूत्र) गैर-लापता हैं। नोट: regsubsets का उपयोग करके अपने मॉडल को चुनना एक खराब तरीका माना जाता है। R2R2
mark999

1
@ mark999 आपकी टिप्पणियाँ अच्छी हैं और ऐसा लगता है कि यह सही उत्तर देता है। आपको इसे उत्तर में बदलना चाहिए।
माइकल आर। चेरिक

धन्यवाद @MichaelChernick लेकिन मैं इसे केवल एक टिप्पणी के रूप में छोड़ना पसंद करता हूं।
mark999

@ user1690846 मैं सांख्यिकी के लिए पीटर फ्लॉम
mark999

@ mark999 सबसे पहले एक उत्तर के लिए धन्यवाद, लेकिन यह एक खराब तरीका क्यों है? और AIC के साथ चयन करना बेहतर है? तो क्या मुझे na.omit (olympiadaten) का उपयोग करके मॉडल को फिट करना चाहिए? यदि किसी के पास अन्य प्रश्नों का उत्तर है, तो कोई भी
भविष्य के

जवाबों:


7

"बेस्ट" फिटिंग मॉडल को खोजने के लिए सभी सबसेट या सर्वश्रेष्ठ सबसेट उपकरण का उपयोग करने के बारे में विचार को आगे बढ़ाने के लिए, डेरेल हफ की पुस्तक "हाउ टू लेट स्टैटिस्टिक्स" रीडर्स डाइजेस्ट द्वारा सिगरेट के धुएं में रसायनों की तुलना प्रकाशित करने के बारे में एक कहानी बताती है। उनके लेख का उद्देश्य यह बताना था कि विभिन्न ब्रांडों के बीच कोई वास्तविक अंतर नहीं था, लेकिन कुछ रसायनों में एक ब्रांड सबसे कम था (लेकिन इतने कम अंतर से कि अर्थहीन था) और उस ब्रांड ने एक बड़ा विज्ञापन अभियान शुरू किया रीडर्स डाइजेस्ट के अनुसार "सबसे कम" या "सर्वश्रेष्ठ" होना।

सभी सबसेट या बेस्ट सबसेट रेजिस्ट्रेशन समान हैं, आपके द्वारा दिखाए गए ग्राफ का वास्तविक संदेश "यहां सबसे अच्छा है" नहीं है, लेकिन वास्तव में यह है कि कोई भी सबसे अच्छा मॉडल नहीं है। एक सांख्यिकीय दृश्य (समायोजित r-squared का उपयोग करके) से आपके मॉडल के अधिकांश भाग बहुत अधिक हैं (नीचे के कुछ ऊपर के लोगों से नीच हैं, लेकिन बाकी सभी समान हैं)। उस तालिका से "सर्वश्रेष्ठ" मॉडल खोजने की आपकी इच्छा सिगरेट कंपनी की तरह है कि उनका उत्पाद सबसे अच्छा था जब उद्देश्य यह दिखाना था कि वे सभी समान थे।

यहाँ कुछ करने की कोशिश है, बेतरतीब ढंग से डेटासेट से एक बिंदु को हटा दें और विश्लेषण को फिर से करें, क्या आपको समान "सर्वश्रेष्ठ" मॉडल मिलता है? या यह बदल जाता है? "सर्वश्रेष्ठ" मॉडल कैसे बदलता है यह देखने के लिए हर बार एक अलग बिंदु को हटाने के लिए कुछ बार दोहराएं। क्या आप वास्तव में आरामदायक दावा करते हैं कि एक मॉडल "सर्वश्रेष्ठ" है जब डेटा में एक छोटा सा परिवर्तन एक "सर्वश्रेष्ठ" देता है? यह भी देखें कि विभिन्न मॉडलों के बीच गुणांक कितने भिन्न हैं, आप उन परिवर्तनों की व्याख्या कैसे करते हैं?

डेटा के पीछे के प्रश्न और विज्ञान को समझना बेहतर है और "सर्वश्रेष्ठ" मॉडल पर निर्णय लेने में सहायता के लिए उस जानकारी का उपयोग करें। 2 मॉडल पर विचार करें जो केवल एक ही अंतर के समान हैं एक मॉडल में और दूसरे में शामिल है । वाला मॉडल थोड़ा बेहतर बैठता है ( को 0.49 बनाम 0.48 के adj r-squared) हालांकि को मापने के लिए सर्जरी की आवश्यकता होती है और को समय प्रयोगशाला परिणामों के लिए 2 सप्ताह इंतजार करनाx1x2x1x1x25 मिनट और स्फिग्मोमेनोमीटर लेता है। क्या यह वास्तव में अतिरिक्त समय, व्यय और जोखिम के लायक होगा जो कि एडजस्टेबल आर-स्क्वेर में अतिरिक्त 0.01 पाने के लिए, या बेहतर मॉडल तेज, सस्ता, सुरक्षित मॉडल होगा? विज्ञान की दृष्टि से क्या समझ में आता है? ऊपर दिए गए अपने उदाहरण में क्या आप वास्तव में सोचते हैं कि सेना पर खर्च बढ़ने से ओलंपिक प्रदर्शन में सुधार होगा? या यह उस परिवर्तनीय अभिनय का एक मामला है जो अन्य खर्च करने वाले चर के लिए एक सरोगेट के रूप में है जो अधिक प्रत्यक्ष प्रभाव होगा?

अन्य चीजों पर विचार करने के लिए कई अच्छे मॉडल शामिल करना और उन्हें जोड़ना (मॉडल एवरेजिंग), या इसके बजाय प्रत्येक चर या तो सभी में होना चाहिए या किसी न किसी रूप में जुर्माना (रिज रिग्रेशन, LASSO, इलास्टिक, ...) को जोड़ना होगा।


अच्छा उत्तर! " हाइलाइट " सवाल और डेटा के पीछे के विज्ञान को समझना बेहतर है और उस जानकारी का उपयोग करने के लिए "बेस्ट" मॉडल और उसके बाद आने वाले सभी पैराग्राफ पर निर्णय लेने में मदद करें
आंद्रे सिल्वा

2

कुछ सवालों के जवाब दिए गए हैं इसलिए मैं केवल मॉडल चयन के बारे में लोगों को संबोधित कर रहा हूं। AIC, BIC, Mallow Cp और समायोजित R मॉडल की तुलना करने और चयन करने की सभी विधियाँ हैं जो एक समायोजित माप या मापदंड में एक दंड कार्य द्वारा ओवरफ़ीड मॉडल की समस्याओं को ध्यान में रखते हैं। लेकिन ऐसे मामलों में जहां पेनल्टी फ़ंक्शंस भिन्न होती हैं, दो समान मानदंडों के लिए अंतिम मॉडल के लिए अलग-अलग विकल्पों का नेतृत्व करना बहुत संभव है। विभिन्न मानदंडों के लिए न्यूनतम मान अलग-अलग मॉडल हो सकते हैं। एआईसी और बीआईसी द्वारा चुने गए मॉडलों को देखते हुए यह अक्सर देखा गया है।2

मैं वास्तव में नहीं जानता कि आपके लिए सबसे अच्छे मॉडल का क्या मतलब है। प्रत्येक मानदंड अनिवार्य रूप से सर्वश्रेष्ठ की एक अलग परिभाषा देता है। आप सूचना, एन्ट्रापी, स्टोकेस्टिक जटिलता, प्रतिशत विचरण (समायोजित) और अधिक के संदर्भ में किसी मॉडल को सर्वश्रेष्ठ कह सकते हैं। यदि आप एक विशिष्ट crtierion के साथ काम कर रहे हैं और सभी संभावित मॉडलों पर AIC कहने के लिए न्यूनतम न्यूनतम कैप्चरिंग का सबसे अच्छा अर्थ है, तो यह केवल सभी मॉडलों (यानी चर के लिए सभी सबसेट चयनों) को देखकर गारंटी दी जा सकती है। स्टेप-अप, स्टेप-डाउन और स्टेप-वाइज प्रक्रिया हमेशा एक विशिष्ट crtierion के अर्थ में सबसे अच्छा मॉडल नहीं ढूंढती है। चरण-वार प्रतिगमन के साथ आप अलग-अलग मॉडल शुरू करके अलग-अलग उत्तर भी प्राप्त कर सकते हैं। मुझे यकीन है कि फ्रैंक हैरेल के पास इस बारे में कहने के लिए बहुत कुछ होगा।

अधिक जानने के लिए, मॉडल / सबसेट चयन पर कई अच्छी पुस्तकें उपलब्ध हैं और मैंने कुछ अन्य पदों पर यहाँ संदर्भित किया है। साथ ही उनकी स्प्रिंगरब्रिज श्रृंखला में स्प्रिंगर के साथ लेसी गुंटर की मोनोग्राफ भी जल्द ही सामने आने वाली है। मैं उस किताब पर उसके साथ एक सह-कलाकार था।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.