एक चरणबद्ध चयन करने के बाद पी-वैल्यू भ्रामक क्यों हैं?


28

आइए उदाहरण के लिए एक रेखीय प्रतिगमन मॉडल पर विचार करें। मैंने सुना है कि, डेटा माइनिंग में, AIC मानदंड के आधार पर एक स्टेपवाइज़ सिलेक्शन करने के बाद, n की परिकल्पना का परीक्षण करने के लिए पी-वैल्यूज़ को देखना भ्रामक है कि प्रत्येक सच्चा प्रतिगमन गुणांक शून्य है। मैंने सुना है कि व्यक्ति को मॉडल में छोड़े गए सभी चरों पर विचार करना चाहिए क्योंकि इसके बजाय शून्य से भिन्न एक सच्चा प्रतिगमन गुणांक है। क्या कोई मुझे समझा सकता है क्यों? धन्यवाद।



1
सैद्धांतिक शास्त्र में ।wordpress.com / 2018 / 05 / 03/… , मैं A R चयन के बाद टाइप- I मुद्रास्फीति का प्रदर्शन करते हुए कुछ R कोड दिखाता हूं। ध्यान दें कि यह महत्वपूर्ण नहीं है अगर यह स्टेपवाइज़ या ग्लोबल है, तो मुद्दा यह है कि मॉडल का चयन मूल रूप से कई परीक्षण है।
फ्लोरियन हार्टिग

जवाबों:


33

एआईसी मानदंड के आधार पर एक स्टेपवाइज चयन करने के बाद, शून्य परिकल्पना का परीक्षण करने के लिए पी-मूल्यों को देखने के लिए भ्रामक है कि प्रत्येक सही प्रतिगमन गुणांक शून्य है।

वास्तव में, पी-वैल्यू एक टेस्ट स्टेटिस्टिक को देखने की संभावना का प्रतिनिधित्व करते हैं जो आपके पास कम से कम चरम है, जब शून्य परिकल्पना सच है। यदि सत्य है, तो पी-मान का एक समान वितरण होना चाहिए।एच0

लेकिन स्टेपवाइज सिलेक्शन (या वास्तव में, मॉडल चयन के लिए कई अन्य तरीकों के बाद) के बाद, उन शर्तों के पी-वैल्यू जो मॉडल में बने रहते हैं, उनके पास वह संपत्ति नहीं है, यहां तक ​​कि जब हम जानते हैं कि शून्य परिकल्पना सच है।

ऐसा इसलिए होता है क्योंकि हम उन चर का चयन करते हैं जिनके पास छोटे पी-मान हैं या जो हमारे द्वारा उपयोग किए गए सटीक मानदंडों के आधार पर हैं)। इसका मतलब यह है कि मॉडल में छोड़े गए चर के पी-मान आम तौर पर बहुत कम होते हैं, अगर वे एक मॉडल को फिट करते हैं। ध्यान दें कि चयन औसत पिक मॉडल पर होगा जो कि सच्चे मॉडल की तुलना में और भी बेहतर प्रतीत होता है, यदि मॉडल के वर्ग में सही मॉडल शामिल है, या यदि मॉडल का वर्ग पर्याप्त रूप से लचीला है तो सच्चे मॉडल को बारीकी से समझें।

[इसके अलावा और मूल रूप से एक ही कारण के लिए, जो गुणांक बने हुए हैं वे शून्य से पक्षपाती हैं और उनकी मानक त्रुटियां कम पक्षपाती हैं; यह बदले में विश्वास अंतराल और भविष्यवाणियों को प्रभावित करता है - उदाहरण के लिए हमारी भविष्यवाणियां बहुत संकीर्ण होंगी।]

इन प्रभावों को देखने के लिए, हम कई प्रतिगमन ले सकते हैं जहां कुछ गुणांक 0 होते हैं और कुछ नहीं होते हैं, एक चरणबद्ध प्रक्रिया करते हैं और फिर उन मॉडलों के लिए जिनमें चर होते हैं जिनमें शून्य गुणांक होते हैं, पी-मूल्यों को देखें।

(एक ही अनुकरण में, आप गुणांक के लिए अनुमानों और मानक विचलन को देख सकते हैं और उन लोगों की खोज कर सकते हैं जो गैर-शून्य गुणांक के अनुरूप हैं।)

संक्षेप में, सामान्य पी-मानों को सार्थक मानना ​​उचित नहीं है।

मैंने सुना है कि किसी को इसके बजाय मॉडल में छोड़े गए सभी चरों पर विचार करना चाहिए।

जैसा कि स्टेप वाइज के बाद के सभी मूल्यों को 'महत्वपूर्ण' माना जाना चाहिए, मुझे यकीन नहीं है कि यह देखने का एक उपयोगी तरीका है। "महत्व" का मतलब तब क्या होता है?


यहां stepAICn = 100 के साथ 1000 सिम्युलेटेड नमूनों पर डिफ़ॉल्ट सेटिंग्स के साथ आर चलाने का परिणाम है , और दस उम्मीदवार चर (जिनमें से कोई भी प्रतिक्रिया से संबंधित है)। प्रत्येक मामले में मॉडल में छोड़े गए शब्दों की संख्या गिनाई गई थी:

यहाँ छवि विवरण दर्ज करें

केवल 15.5% समय ही सही मॉडल चुना गया था; बाकी समय मॉडल में ऐसे शब्द शामिल थे जो शून्य से अलग नहीं थे। यदि यह वास्तव में संभव है कि उम्मीदवार चर के सेट में शून्य-गुणांक चर हैं, तो हमारे पास कई शर्तें होने की संभावना है जहां हमारे मॉडल में वास्तविक गुणांक शून्य है। नतीजतन, यह स्पष्ट नहीं है कि उन सभी को गैर-शून्य के रूप में मानना ​​अच्छा है।


वाक्य के साथ "मैंने सुना है कि किसी को मॉडल में छोड़े गए सभी चरों को इसके बजाय महत्वपूर्ण समझना चाहिए" मेरा मतलब था: "मैंने सुना है कि किसी को मॉडल में छोड़े गए सभी चरों को एक सही प्रतिगमन गुणांक अलग-अलग रूप शून्य के रूप में मानना ​​चाहिए"
जॉन एम

ठीक है; मैंने एक सिमुलेशन के परिणामों को जोड़ा है जो उस पर बोलता है।
Glen_b -Reinstate मोनिका

10
कश्मीर=33910कश्मीर

7
@ वास्तव में, यह देखते हुए कि एक बोनफेरोनी का क्या प्रभाव होगा (समस्या के विभिन्न पहलुओं पर) उपरोक्त सिमुलेशन को पूरा करने पर मेरा तत्काल झुकाव था, लेकिन यह नहीं है कि लोग वास्तव में सौतेला व्यवहार करते हैं इसलिए मैंने संबोधित नहीं किया यह यहाँ। मैं आपको मॉडल चयन विधियों पर चर्चा करने के लिए मोहित करूँगा। मुझे उम्मीद है कि मैं काफी कुछ सीखूंगा।
Glen_b -Reinstate मोनिका

@Glen_b: (आपके उत्तर से उद्धृत) इसका मतलब यह है कि मॉडल में छोड़े गए चर के मान आमतौर पर बहुत छोटे होते हैं, जैसे कि यदि हम एक भी मॉडल फिट करते हैं, तो हम "फिट" होते हैं। वह जो डेटा उत्पन्न करता है, चाहे वह सच्चा मॉडल शून्य हो या नहीं "। क्या आप हाइलाइट किए गए हिस्से को थोड़ा समझा सकते हैं? यह कैसे हो सकता है कि पी-मान उस मॉडल में छोटे होते हैं जिनके पास डेटा बनाने की प्रक्रिया (सच्चे मॉडल) के समान विनिर्देश होते हैं?
शनि

8

टीएफपी-1,n-पी-1एफक्ष-1,n-क्ष-1क्ष<पीएफ

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.