परिवर्तनशील चयन के लिए विरोधी दृष्टिकोण: एआईसी, पी-मान या दोनों?


13

मैं जो समझता हूं, पी-मान (कम से कम प्रतिगमन संदर्भ में) के आधार पर चर चयन अत्यधिक त्रुटिपूर्ण है। ऐसा प्रतीत होता है कि AIC (या समान) पर आधारित चर चयन भी कुछ इसी तरह के कारणों से त्रुटिपूर्ण माना जाता है, हालांकि यह थोड़ा अस्पष्ट लगता है (उदाहरण के लिए इस विषय पर मेरा प्रश्न और कुछ लिंक देखें: वास्तव में "स्टेपवाइज मॉडल चयन" क्या है? )।

लेकिन कहते हैं कि आप अपने मॉडल में भविष्यवक्ताओं के सर्वोत्तम सेट को चुनने के लिए इन दो तरीकों में से एक के लिए जाते हैं।

बर्नहैम और एंडरसन 2002 (मॉडल चयन और मल्टीमॉडल इंजेक्शन: एक व्यावहारिक सूचना-सैद्धांतिक दृष्टिकोण, पृष्ठ 83) यह बताता है कि किसी को एआईसी के आधार पर चर चयन को परिकल्पना परीक्षण के आधार पर मिश्रण नहीं करना चाहिए : "अशक्त परिकल्पना के परीक्षण और सूचना-सिद्धांत संबंधी दृष्टिकोण एक साथ उपयोग नहीं किया जा सकता है; वे बहुत अलग विश्लेषण प्रतिमान हैं। "

दूसरी ओर, ज़ुआर एट अल। 2009 (R के साथ पारिस्थितिकी में मिश्रित प्रभाव वाले मॉडल, पृष्ठ 541) एआईसी के उपयोग की वकालत करने के लिए पहले इष्टतम मॉडल को खोजने की वकालत करते हैं , और फिर परिकल्पना परीक्षण का उपयोग करके "ठीक ट्यूनिंग" करते हैं : "नुकसान यह है कि एआईसी रूढ़िवादी हो सकता है एक बार एआईसी का एक इष्टतम मॉडल होने के बाद, आपको कुछ ठीक ट्यूनिंग (परिकल्पना परीक्षण के दृष्टिकोण से खरीद का उपयोग करके) लागू करने की आवश्यकता हो सकती है। "

आप देख सकते हैं कि यह किस तरह से किस दृष्टिकोण पर उलझा हुआ है दोनों पुस्तकों के पाठक को छोड़ देता है।

1) क्या ये सांख्यिकीय सोच के अलग-अलग "शिविर" हैं और सांख्यिकीविदों के बीच असहमति का विषय है? क्या इनमें से एक दृष्टिकोण अब "पुराना" हो गया है, लेकिन लेखन के समय इसे उचित माना गया था? या एक शुरुआत से ही गलत है?

2) क्या ऐसा कोई परिदृश्य होगा जिसमें यह दृष्टिकोण उचित होगा? उदाहरण के लिए, मैं एक जैविक पृष्ठभूमि से आता हूं, जहां मैं अक्सर यह निर्धारित करने की कोशिश कर रहा हूं कि, यदि कोई हो, चर मेरी प्रतिक्रिया को प्रभावित या ड्राइव करते हैं। मेरे पास अक्सर कई उम्मीदवार व्याख्यात्मक चर होते हैं और मैं खोजने की कोशिश कर रहा हूं जो "महत्वपूर्ण" (सापेक्ष शब्दों में) हैं। इसके अलावा, ध्यान दें कि उम्मीदवार भविष्यवक्ता चर का सेट पहले ही उन लोगों के लिए कम हो गया है जिनके पास कुछ जैविक प्रासंगिकता माना जाता है, लेकिन इसमें अभी भी 5-20 उम्मीदवार पूर्वानुमान शामिल हो सकते हैं।


3
मुझे आश्चर्य है कि एआईसी चयन के बाद परिकल्पना परीक्षण के साथ जुआर का सांख्यिकीय तर्क ठीक है। यह मॉडल निर्माण की एक सुसंगत रणनीति की तरह नहीं लगता है। लेकिन मुझे उन चीजों के बारे में पर्याप्त जानकारी नहीं है।
रिचर्ड हार्डी

2
मेरा कूबड़ यह है कि ज़्यूर एट अल का सुझाव बुरा है (आप मॉडल चयन के लिए कभी महत्व परीक्षणों का उपयोग क्यों करेंगे?), हालांकि मुझे यकीन नहीं है कि बर्नहैम और एंडरसन का कथन सही है, या तो। यह एक अच्छा सवाल है, लेकिन मुझे इसका जवाब देने के लिए मैंने अब तक जितना पढ़ा है, उससे अधिक गहराई से तकनीकी विवरण पढ़ना होगा।
कोडियोलॉजिस्ट

मैंने पैनल बिक्री की भविष्यवाणी करने के लिए मॉडल में दोनों विधियों का उपयोग किया है। AIC आधारित स्टेप वाइज बैकवर्ड रिग्रेशन मेरे अनुभव से बेहतर परिणाम देने वाला लग रहा था।
सौप्टिक धर

1
@SouptikDhar, जब आप "बेहतर" परिणाम कहते हैं, तो वास्तव में आपका क्या मतलब है?
तिलीन

शायद जवाब विश्लेषण के उद्देश्य पर निर्भर है? एक अवलोकन अध्ययन में, यह डाटासेट को दिए गए सबसे अधिक आदर्श मॉडल को खोजने के लिए वांछनीय हो सकता है, इस प्रकार उदाहरण के लिए "एआईसी पर आधारित चर चयन" पर निर्भर करता है। हालांकि, यदि उद्देश्य परीक्षण के लिए एक परिकल्पना करना है, तो मॉडल, हमारी परिकल्पना के लिए ब्याज की चर के लिए पर्याप्त परदे के पीछे की परिकल्पना का एक चाल होने के नाते, पहले से ही निर्दिष्ट है इसलिए इसमें कोई जगह नहीं है चर चयन IMHO
रोडोलफ

जवाबों:


6

एक छोटा जवाब।

डेटा-संचालित मॉडल का चयन या ट्यूनिंग करने का दृष्टिकोण , फिर चयनित / ट्यून्ड मॉडल (ए ला ज़्यूर एट अल। और कई अन्य सम्मानित पारिस्थितिकीविज्ञानी जैसे क्रॉली) पर मानक हीनता विधियों का उपयोग करना , हमेशा ओवरऑप्टिमिमल परिणाम देगा : अत्यधिक संकीर्ण आत्मविश्वास। अंतराल (खराब कवरेज), अत्यधिक छोटे पी-मान (उच्च प्रकार I त्रुटि)। ऐसा इसलिए है क्योंकि मानक हीन विधियाँ मानती हैं कि मॉडल एक प्राथमिकता निर्दिष्ट है ; वे मॉडल ट्यूनिंग प्रक्रिया को ध्यान में नहीं रखते हैं।

यही कारण है कि फ्रैंक हारेल ( प्रतिगमन मॉडलिंग रणनीतियाँ ) जैसे शोधकर्ताओं ने डेटा-चालित चयन तकनीकों जैसे स्टेप वाइज रिग्रेशन को दृढ़ता से अस्वीकार कर दिया है और सावधानी बरती है कि किसी को भी मॉडल जटिलता ("आयाम में कमी", जैसे कि भविष्यवक्ता चर का एक पीसीए की गणना करना चाहिए) और पहले कुछ पीसीए कुल्हाड़ियों को भविष्यवक्ताओं के रूप में चुनना) केवल भविष्यवक्ता चर को देखकर ।

यदि आप केवल सर्वश्रेष्ठ भविष्य कहनेवाला मॉडल खोजने में रुचि रखते हैं (और आपकी भविष्यवाणी की अनिश्चितता के किसी भी प्रकार के विश्वसनीय अनुमान में दिलचस्पी नहीं है, जो कि अनुमान के दायरे में आता है!), तो डेटा-चालित मॉडल ट्यूनिंग ठीक है (हालांकि चरणबद्ध चयन शायद ही कभी सबसे अच्छा उपलब्ध विकल्प है); मशीन लर्निंग / स्टैटिस्टिकल लर्निंग एल्गोरिदम सबसे अच्छा प्रेडिक्टिव मॉडल प्राप्त करने की कोशिश में काफी ट्यूनिंग करते हैं। "परीक्षण" या "आउट-ऑफ-सैंपल" त्रुटि का आकलन एक अलग, आयोजित-आउट नमूना पर किया जाना चाहिए, या किसी भी ट्यूनिंग विधियों को क्रॉस-सत्यापन प्रक्रिया में बनाया जाना चाहिए।

ऐसा लगता है कि इस विषय पर राय में ऐतिहासिक विकास हुआ है; कई क्लासिक सांख्यिकीय पाठ्यपुस्तकों, विशेष रूप से उन पर जो प्रतिगमन पर ध्यान केंद्रित करते हैं, मानक चयन प्रक्रिया का पालन करते हुए स्टेप वाइज दृष्टिकोण प्रस्तुत करते हैं, बिना मॉडल चयन के प्रभावों को ध्यान में रखते हुए [उद्धरण वांछित]]

चर महत्व को निर्धारित करने के कई तरीके हैं, और सभी पोस्ट-चर-चयन जाल में नहीं आते हैं।

  • बर्नहैम और एंडरसन सलाह देते हैं कि एआईसी वेट को सम्‍मिलित करें; इस दृष्टिकोण पर काफी असहमति है।
  • आप पूर्ण मॉडल (उचित रूप से स्केल / यूनिटलेस भविष्यवक्ताओं के साथ) और अनुमानित परिमाण [जैविक प्रभाव आकार] या जेड-स्कोर ["स्पष्टता" / सांख्यिकीय प्रभाव आकार] द्वारा भविष्यवक्ताओं को रैंक कर सकते हैं ।

1

मैं एक जैविक पृष्ठभूमि से आता हूं और एक किराए पर रहने वाले बायोस्टैटिस्टियन हूं, एक विश्वविद्यालय अस्पताल में काम कर रहा हूं। मैं इस पर बहुत कुछ पढ़ता हूं, विशेष रूप से हाल ही में, विशेष रूप से www पर हैरेल की राय, और उनकी पुस्तक प्रतिगमन मॉडलिंग रणनीतियाँ सहित। अब उसे उद्धृत नहीं करना, लेकिन अनुभव से बोलना: यह अत्यधिक संबंधित क्षेत्र है, मुझे लगता है कि यह पहला स्तर है जिसके लिए जिम्मेदार होना चाहिए। दूसरा स्तर एक अच्छा तर्कसंगत दृष्टिकोण प्राप्त करना होगा, जिसका अर्थ है कि आपके भविष्यवक्ताओं को वैज्ञानिक अनुभव द्वारा जो आप भविष्यवाणी करना चाहते हैं, उसे व्यक्त करने के लिए मुख्य अर्थपूर्ण होना चाहिए। 3 बातचीत के लिए जिम्मेदार होगा, जो सुपर महत्वपूर्ण है, और सांख्यिकीय दृष्टिकोण या अंतर्दृष्टि द्वारा संबोधित किया जा सकता है। केवल ४ वाँ तरीका चुना गया है, मेरे मामले में अस्पताल के आंकड़ों के साथ, जो कि अक्सर x * 10 ^ 3 डेटा पॉइंट और x * 10 ^ 1 अवलोकन के बारे में है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.