मॉडल चयन में विरोधाभास (एआईसी, बीआईसी, समझाने या भविष्यवाणी करने के लिए?)


18

गैलीट श्मुइली के "टू एक्सप्लेन ऑर प्रेडिक्ट " (2010) को पढ़कर मैं एक स्पष्ट विरोधाभास से हैरान हूँ। तीन परिसर हैं,

  1. AIC- बनाम BIC- आधारित मॉडल की पसंद (पृष्ठ 300 का अंत - p। 301 की शुरुआत): सीधे शब्दों में कहें तो AIC को भविष्यवाणी के लिए बनाए गए मॉडल का चयन करने के लिए उपयोग किया जाना चाहिए जबकि BIC का उपयोग स्पष्टीकरण के लिए एक मॉडल का चयन करने के लिए किया जाना चाहिए । इसके अतिरिक्त (उपरोक्त पेपर में नहीं), हम जानते हैं कि कुछ शर्तों के तहत BIC उम्मीदवार मॉडल के सेट के बीच सही मॉडल का चयन करता है ; सच्चा मॉडल वह है जो हम व्याख्यात्मक मॉडलिंग (पी। 293 के अंत) में चाहते हैं।
  2. सरल अंकगणित: एआईसी बनाम बीआईसी में विभिन्न जटिलता दंड के कारण आकार 8 या बड़े (संतोषजनक के नमूनों के लिए AIC BIC से बड़े मॉडल का चयन करेगा ।ln(n)>2
  3. "सही" मॉडल (यानी सही regressors और सही कार्यात्मक रूप लेकिन अपूर्ण अनुमान गुणांक के साथ मॉडल) भविष्यवाणी के लिए सबसे अच्छा मॉडल नहीं हो सकता है (पी 307।): एक लापता भविष्यवक्ता के साथ एक प्रतिगमन मॉडल एक बेहतर पूर्वानुमान मॉडल हो सकता है - गुमशुदा भविष्यवक्ता के कारण पूर्वाग्रह का परिचय अनुमान की कमी के कारण विचरण में कमी से कम हो सकता है।

अंक 1. और 2. सुझाव देते हैं कि बड़े मॉडल भविष्यवाणी से अधिक बेहतर मॉडल के लिए बेहतर हो सकते हैं। इस बीच, बिंदु 3. एक विपरीत उदाहरण देता है जहां एक बड़ा मॉडल की तुलना में अधिक प्रशस्त मॉडल भविष्यवाणी के लिए बेहतर है। मुझे यह गुदगुदी लगती है।

प्रशन:

  1. अंक {1 के बीच स्पष्ट विरोधाभास कैसे हो सकता है। और 2.} और 3. समझाया / हल किया जा सकता है?
  2. बिंदु 3 के प्रकाश में, क्या आप इस बात के लिए एक सहज स्पष्टीकरण दे सकते हैं कि AIC द्वारा चुना गया एक बड़ा मॉडल वास्तव में BIC द्वारा चुने गए अधिक प्रशंसनीय मॉडल की तुलना में भविष्यवाणी के लिए बेहतर क्यों है?

2
मुझे विरोधाभास / विरोधाभास नहीं मिलता है। AIC कुशल है (asymptotically अपेक्षित पूर्वानुमान त्रुटि को कम करता है) और BIC सुसंगत है (asymptotically सही क्रम का चयन करता है)। प्वाइंट 3) का कहना है कि पूर्वाग्रह को पूर्वाग्रह से निकाल दिया जा सकता है। स्पष्ट रूप से इसकी कोई गारंटी नहीं है कि एक निश्चित नमूने में एक दूसरे की तुलना में बेहतर है। तो आपका "विरोधाभास" प्रतीत होता है कि दिए गए नमूने के लिए, एआईसी भविष्यवाणी के लिए सबसे अच्छा नहीं हो सकता है, जो कोई आश्चर्य की बात नहीं है। आपके Q2 के लिए: यदि BIC के छोटे मॉडल से प्रेरित पूर्वाग्रह वृद्धि AIC के बड़े में विचरण वृद्धि से बड़ा है, तो AIC बेहतर है।
हेजसेब

2
मेरा सुझाव है कि आप निल्स हेजर्ट और गेरडा क्लेकेन्स द्वारा "मॉडल चयन और मॉडल एवरेजिंग" में पहले अध्यायों को देखें, शायद इससे चीजें साफ हो जाएंगी।
हेजसेब

जवाबों:


1

उन्हें एक ही संदर्भ में नहीं लिया जाना चाहिए; अंक 1 और 2 के अलग-अलग संदर्भ हैं। दोनों AIC और बीआईसी एक पहले की पड़ताल जो मानकों जिसमें संख्या सबसे अच्छा सूचकांक उपज का संयोजन (जब मैं शब्द का प्रयोग कुछ लेखकों मिरगी फिट है के लिए सूचकांकइस सन्दर्भ में। उन्हें अनदेखा करें, या शब्दकोश में अनुक्रमणिका देखें।) बिंदु 2 में, AIC सबसे अमीर मॉडल है, जहां अमीर का मतलब है कि अधिक मापदंडों के साथ मॉडल का चयन करना, केवल कभी-कभी, क्योंकि अक्सर इष्टतम AIC मॉडल BIC के रूप में पैरामीटर मॉडल की समान संख्या होती है। चयन। यही है, अगर AIC और BIC समान मापदंडों वाले मॉडल का चयन करते हैं तो दावा किया जाता है कि AIC BIC की तुलना में भविष्यवाणी के लिए बेहतर होगा। हालाँकि, यदि BIC एक कम मापदंडों वाले मॉडल (लेकिन कोई गारंटी नहीं) के साथ अधिकतम होता है, तो विपरीत हो सकता है। सोबर (2002) ने निष्कर्ष निकाला कि एआईसी भविष्य कहनेवाला सटीकता को मापता है जबकि बीआईसी फिट की अच्छाई को मापता है, जहां अनुमानित सटीकता का मतलब एक्स की चरम मूल्य सीमा के बाहर की भविष्यवाणी करना हो सकता है। जब बाहर, अक्सर एक कम इष्टतम एआईसी कमजोर भविष्य कहे जाने वाले मापदंडों को बेहतर ढंग से इसके चयनित मॉडल में अधिक मापदंडों से इष्टतम एआईसी इंडेक्स की तुलना में अतिरिक्त मूल्यों का अनुमान लगाएगा। मैं पास करने में ध्यान देता हूं कि एआईसी और एमएल एक्सट्रपलेशन त्रुटि परीक्षण की आवश्यकता को कम नहीं करते हैं, जो मॉडल के लिए एक अलग परीक्षण है। यह "प्रशिक्षण" सेट से चरम मानों को रोककर किया जा सकता है और अतिरिक्त "पोस्ट-प्रशिक्षण" मॉडल और रोक दिए गए डेटा के बीच त्रुटि की गणना कर सकता है।

अब BIC माना जाता है कि x की सीमा के चरम मूल्यों के भीतर y-मानों का कम त्रुटि वाला भविष्यवक्ता है । फिट की बेहतर अच्छाई अक्सर प्रतिगमन (एक्सट्रपलेशन के लिए) के पूर्वाग्रह की कीमत पर आती है, जिसमें उस पूर्वाग्रह को शुरू करने से त्रुटि कम हो जाती है। यह, उदाहरण के लिए, अक्सर औसत बाएं छंद दाएं के चिह्न को विभाजित करने के लिए ढलान को समतल करता है।(एक्स)-yअवशिष्ट (एक तरफ अधिक नकारात्मक अवशिष्ट के बारे में सोचते हैं और दूसरी ओर अधिक सकारात्मक अवशिष्ट) जिससे कुल त्रुटि कम होती है। तो इस मामले में हम एक x मान दिए गए सर्वोत्तम y मान के लिए पूछ रहे हैं, और AIC के लिए हम x और y के बीच सबसे अच्छे कार्यात्मक संबंध के लिए अधिक निकटता से पूछ रहे हैं। इनमें से एक अंतर यह है कि उदाहरण के लिए, BIC, अन्य पैरामीटर विकल्प समान होने के साथ, मॉडल और डेटा के बीच एक बेहतर सहसंबंध गुणांक होगा, और AIC के पास एक अतिरिक्त एक्सट्रपलेशन x- मान के लिए y- मूल्य त्रुटि के रूप में मापा बेहतर एक्सट्रपलेशन त्रुटि होगी।

बिंदु 3 कुछ शर्तों के तहत कभी-कभी बयान होता है

  • σ


  • β2

  • जब भविष्यवक्ता अत्यधिक सहसंबद्ध होते हैं; तथा

  • जब नमूना का आकार छोटा होता है या बाएं-बाहर के चर की सीमा छोटी होती है।

2222

मैं यह कहना चाहूंगा कि ये बयान आशावादी हैं। आमतौर पर, मॉडल गलत होते हैं, और अक्सर एक बेहतर मॉडल एक मानक को लागू करेगा जिसका उपयोग एआईसी या बीआईसी के साथ नहीं किया जा सकता है, या उनके आवेदन के लिए गलत अवशिष्ट संरचना मान ली गई है, और वैकल्पिक उपायों की आवश्यकता है। मेरे काम में, हमेशा ऐसा ही होता है।


1
मुझे यकीन नहीं है कि आप सवालों के जवाब दे रहे हैं। मैं सूचना मानदंड की सामान्य सीमाओं से अवगत हूं, लेकिन यह वह नहीं है जिसके बारे में मैं पूछ रहा हूं। इसके अलावा, मुझे आपकी बात समझ में नहीं आती है यदि एआईसी और बीआईसी के पास समान संख्या में पैरामीटर हैं तो दावा है कि एआईसी बीआईसी की तुलना में भविष्यवाणी के लिए बेहतर होगा । जब वैकल्पिक मॉडल में समान पैरामीटर होते हैं, तो एआईसी और बीआईसी तुलना की तुलना करने के लिए उबलते हैं, और एआईसी और बीआईसी दोनों एक ही विकल्प का चयन करेंगे। क्या आप यह भी विस्तृत कर सकते हैं कि एक बेहतर मॉडल से आपका क्या मतलब है जो एक मानक को लागू करेगा जिसे एआईसी या बीआईसी के साथ इस्तेमाल नहीं किया जा सकता है ?
रिचर्ड हार्डी

जारी: जब तक हमारे पास संभावना और स्वतंत्रता की डिग्री है, तब तक हम एआईसी और बीआईसी की गणना कर सकते हैं।
रिचर्ड हार्डी

@ रीचर्डहार्डी ट्रू: जब तक हमारे पास संभावना और स्वतंत्रता की डिग्री है, हम एआईसी और बीआईसी की गणना कर सकते हैं। हालांकि, गणना उप-इष्टतम और भ्रामक होगी यदि अवशिष्ट छात्र-टी हैं और हमने छात्र के-टी के लिए एआईसी और बीआईसी का उपयोग नहीं किया है। स्टूडेंट-टी के विपरीत, अवशिष्ट के वितरण होते हैं, जिसके लिए एमएल अप्रकाशित हो सकता है, उदाहरण के लिए गामा, बीटा आदि
कार्ल

सफाई देने के लिए धन्यवाद! मेरा मानना ​​है कि ऊपर दिए गए प्रश्नों का उत्तर मौजूद होना चाहिए जो कि काफी सरल और सामान्य है। विशेष रूप से, मुझे नहीं लगता कि इसमें एआईसी और बीआईसी की "बदसूरत" मामलों और विफलताओं को शामिल करने की आवश्यकता है। इसके विपरीत, मुझे लगता है कि एक मूल मामला होना चाहिए जो यह बता सके कि विरोधाभास केवल वास्तविक के बजाय स्पष्ट क्यों है। इसी समय, आपका दूसरा पैराग्राफ विपरीत दिशा में जाता है। ऐसा नहीं है कि यह अपने आप में मूल्यवान नहीं होगा, लेकिन मुझे डर है कि यह हमें यहां वास्तविक अंतर्निहित सवालों से विचलित कर सकता है।
रिचर्ड हार्डी

@ रीचर्डहार्डी अक्सर व्यावहारिक प्रश्न एआईसी के लिए अचूक होता है। उदाहरण के लिए, अलग-अलग मानदंडों और / या डेटा परिवर्तनों या जटिल मानदंडों के विश्लेषण के साथ एक ही या अलग-अलग मॉडल की तुलना, उदाहरण के लिए, एक व्युत्पन्न पैरामीटर के Tikhonov नियमितीकरण को कम करने में त्रुटि, सामान्य व्युत्क्रम आदि। यह उल्लेख किया जाना चाहिए कि कोई व्यक्ति AIC का उपयोग करता है। , गलत तरीके से बी.आई.सी.
कार्ल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.