क्या एआईसी या बीआईसी को दूसरे पर पसंद करने का कोई कारण है?


222

एआईसी और बीआईसी दोनों अनुमानित मापदंडों की संख्या के लिए दंडित मॉडल फिट का आकलन करने के दोनों तरीके हैं। जैसा कि मैं इसे समझता हूं, BIC AIC की तुलना में मुक्त मापदंडों के लिए मॉडल को अधिक दंडित करता है। मानदंडों की कठोरता के आधार पर वरीयता के अलावा, क्या बीआईसी या इसके विपरीत एआईसी को प्राथमिकता देने के लिए कोई अन्य कारण हैं?


1
मुझे लगता है कि इस चर्चा को "सुविधा" चयन या "कोवरिएट" चयन के रूप में कहा जाना अधिक उपयुक्त है। मेरे लिए, मॉडल का चयन त्रुटियों के वितरण, लिंक फ़ंक्शन के रूप, और सहसंयोजकों के रूप को शामिल करने के लिए बहुत व्यापक है। जब हम एआईसी / बीआईसी के बारे में बात करते हैं, तो हम आमतौर पर ऐसी स्थिति में होते हैं जहां मॉडल निर्माण के सभी पहलुओं को तय किया जाता है, कोवेट्स के चयन को छोड़कर।

6
किसी मॉडल में शामिल करने के लिए विशिष्ट कोवरिअट्स का निर्णय करना आमतौर पर मॉडल चयन शब्द से होता है और शीर्षक में मॉडल चयन के साथ कई किताबें होती हैं जो मुख्य रूप से यह तय करती हैं कि मॉडल में शामिल करने के लिए कौन से मॉडल कोवरिएट / पैरामीटर हैं।
माइकल चेरिक

अपने प्रश्न फिलोजेनी (जैव सूचना विज्ञान) के लिए विशेष रूप से लागू होता है अगर मैं नहीं जानता, लेकिन यदि ऐसा है तो, इस अध्ययन से इस पहलू पर कुछ विचार प्रदान कर सकते हैं: ncbi.nlm.nih.gov/pmc/articles/PMC2925852
tlorin

मर्ज किए गए प्रश्न KIC के बारे में भी पूछते हैं , कृपया प्रश्न पाठ को अपडेट करें और लिंक के साथ KIC की परिभाषा लिखें।
मुस्कान

1
@smci मैंने आँकड़े जोड़े हैं ।stackexchange.com/ questions/383923/… यदि लोगों को रुचि रखते हैं तो KIC से संबंधित प्रश्नों में खुदाई करने की अनुमति दें।
russellpierce

जवाबों:


179

आपके प्रश्न का अर्थ है कि AIC और BIC एक ही प्रश्न का उत्तर देने का प्रयास करते हैं, जो सत्य नहीं है। एआईसी उस मॉडल का चयन करने की कोशिश करता है जो एक अज्ञात, उच्च आयामी वास्तविकता का सबसे पर्याप्त रूप से वर्णन करता है। इसका मतलब यह है कि वास्तविकता उन उम्मीदवारों के मॉडल के सेट में कभी नहीं होती है जिन्हें माना जा रहा है। इसके विपरीत, बीआईसी उम्मीदवारों के सेट के बीच TRUE मॉडल खोजने की कोशिश करता है। मुझे यह धारणा काफी अजीब लगती है कि शोधकर्ताओं ने जिस मॉडल का निर्माण किया है, उसमें से किसी एक में वास्तविकता का तुरंत अनुमान लगाया गया है। यह बीआईसी के लिए एक वास्तविक मुद्दा है।

फिर भी, बहुत सारे शोधकर्ता हैं जो कहते हैं कि BIC AIC से बेहतर है, एक तर्क के रूप में मॉडल रिकवरी सिमुलेशन का उपयोग करें। इन सिमुलेशन में मॉडल ए और बी से डेटा उत्पन्न होता है, और फिर दोनों मॉडल के साथ दोनों डेटासेट फिटिंग होते हैं। ओवरफिटिंग तब होती है जब गलत मॉडल उत्पन्न होने से बेहतर डेटा को फिट करता है। इन सिमुलेशन के बिंदु यह देखना है कि एआईसी और बीआईसी इन ओवरफिट को कितनी अच्छी तरह से सही करते हैं। आमतौर पर, परिणाम इस तथ्य की ओर इशारा करते हैं कि एआईसी बहुत उदार है और अभी भी अक्सर एक सरल, सच्चे मॉडल पर अधिक जटिल, गलत मॉडल पसंद करता है। पहली नज़र में ये सिमुलेशन वास्तव में अच्छे तर्क हैं, लेकिन उनके साथ समस्या यह है कि वे एआईसी के लिए अर्थहीन हैं। जैसा कि मैंने पहले कहा था, एआईसी यह विचार नहीं करता है कि परीक्षण किए जा रहे किसी भी उम्मीदवार मॉडल वास्तव में सच है। एआईसी के अनुसार, सभी मॉडल वास्तविकता के लिए अनुमानित हैं, और वास्तविकता में कभी कम आयाम नहीं होना चाहिए। कम से कम कुछ उम्मीदवार मॉडल से कम।

मेरी सिफारिश एआईसी और बीआईसी दोनों का उपयोग करना है। ज्यादातर बार वे पसंदीदा मॉडल पर सहमत होंगे, जब वे नहीं करते हैं, तो बस रिपोर्ट करें।

यदि आप एआईसी और बीआईसी दोनों से नाखुश हैं और आपके पास निवेश करने का खाली समय है, तो न्यूनतम विवरण लंबाई (एमडीएल) देखें, जो पूरी तरह से अलग दृष्टिकोण है जो एआईसी और बीआईसी की सीमाओं को पार करता है। एमडीएल से उपजी कई उपाय हैं, जैसे सामान्यीकृत अधिकतम संभावना या फिशर सूचना सन्निकटन। एमडीएल के साथ समस्या यह है कि इसकी गणितीय रूप से मांग और / या कम्प्यूटेशनल रूप से गहन है।

फिर भी, यदि आप सरल समाधानों से चिपके रहना चाहते हैं, तो मॉडल लचीलेपन का आकलन करने के लिए एक अच्छा तरीका है (विशेषकर जब मापदंडों की संख्या बराबर है, तो एआईसी और बीआईसी बेकार प्रदान करना) पैरामीट्रिक बूटस्ट्रैप कर रहा है, जिसे लागू करना काफी आसान है। इस पर एक पेपर का लिंक दिया गया है।

कुछ लोग यहां क्रॉस-वैलिडेशन के उपयोग की वकालत करते हैं। मैंने व्यक्तिगत रूप से इसका उपयोग किया है और इसके खिलाफ कुछ भी नहीं है, लेकिन इसके साथ मुद्दा यह है कि नमूना-काटने के नियम (छोड़-एक-आउट, के-गुना, आदि) के बीच का विकल्प एक अप्रत्याशित है।


7
अंतर को विशुद्ध रूप से गणितीय दृष्टिकोण से देखा जा सकता है - बीआईसी को लॉग पी (डेटा) के एक असममित विस्तार के रूप में प्राप्त किया गया था, जहां सच्चे मॉडल मापदंडों को पहले से कहीं गायब होने के अनुसार नमूना लिया जाता है, एआईसी को समान रूप से सही मापदंडों के अनुसार निर्धारित किया गया था
यारोस्लाव बुलटोव

4
आपने कहा कि "बहुत सारे शोधकर्ता हैं जो कहते हैं कि BIC AIC से बेहतर है, एक तर्क के रूप में मॉडल रिकवरी सिमुलेशन का उपयोग करें। इन सिमुलेशन में मॉडल A और B से डेटा उत्पन्न करना और फिर दो मॉडल के साथ दोनों डेटासेट फिटिंग करना शामिल है।" क्या आप इतने दयालु होंगे कि कुछ संदर्भों को इंगित कर सकें। मैं उनके बारे में उत्सुक हूँ! :)
deps_stats

2
मुझे इस पोस्ट में दिए गए कथनों पर विश्वास नहीं है।
user9352

16
(-1) महान विवरण, लेकिन मैं एक चुनौती देना चाहूंगा। @ डेव केलीन क्या आप इस बात का संदर्भ दे सकते हैं कि BIC के लिए TRUE मॉडल का विचार कहां है? मैं इस पर जांच करना चाहूंगा, क्योंकि इस पुस्तक में लेखक इस बात का पुख्ता प्रमाण देते हैं कि ऐसा नहीं है।
गुइयूम

2
महान जवाब लेकिन मैं दृढ़ता से इस कथन से असहमत हूं कि "वास्तविकता में कभी कम आयाम नहीं होना चाहिए"। यह इस बात पर निर्भर करता है कि आप योरू मॉडल को किस "विज्ञान" पर लागू कर रहे हैं
डेविड

76

हालांकि एआईसी और बीआईसी दोनों अधिकतम संभावना का अनुमान लगा रहे हैं और ओवरफिटिंग से निपटने के प्रयास में मुक्त मापदंडों को दंडित करते हैं, वे ऐसा उन तरीकों से करते हैं जिनके परिणामस्वरूप काफी भिन्न व्यवहार होता है। आइए तरीकों के एक आम तौर पर प्रस्तुत संस्करण को देखें (जिसके परिणामस्वरूप परिणाम सामान्य रूप से वितरित त्रुटियों और अन्य अच्छी तरह से व्यवहार करने वाली मान्यताओं को निर्धारित करते हैं):

  • AIC = -2 * ln (संभावना) + 2 * k,

तथा

  • BIC = -2 * ln (संभावना) + ln (N) * k,

कहाँ पे:

  • k = स्वतंत्रता की मॉडल डिग्री
  • एन = टिप्पणियों की संख्या

तुलना में समूह में सबसे अच्छा मॉडल वह है जो इन स्कोर को कम करता है, दोनों मामलों में। स्पष्ट रूप से, AIC सीधे नमूना आकार पर निर्भर नहीं करता है। इसके अलावा, आम तौर पर बोलते हुए, एआईसी खतरे को प्रस्तुत करता है जो इसे ओवरफिट कर सकता है, जबकि बीआईसी यह खतरा प्रस्तुत करता है कि यह कम हो सकता है, बस इसके बजाय कि वे कैसे मुक्त मापदंडों को दंडित करते हैं (एआईसी में 2 * k; ln (एन) * बीआईसी में k)। Diachronically के रूप में, डेटा पेश किया जाता है और स्कोर को अपेक्षाकृत कम N (7 और उससे कम) पर रिकॉल किया जाता है, BIC AIC की तुलना में मुक्त मापदंडों के प्रति अधिक सहिष्णु है, लेकिन उच्च N पर कम सहिष्णु (एन ओवर 2 के प्राकृतिक लॉग के रूप में)।

इसके अतिरिक्त, एआईसी का उद्देश्य अज्ञात डेटा जनरेटिंग प्रक्रिया के लिए सबसे अच्छा अनुमानित मॉडल ढूंढना है (अनुमानित केएल विचलन को कम करने के माध्यम से )। जैसे, यह सत्य मॉडल (संभावना है कि मूल्यांकन किए गए समूह में मौजूद है) को संभावना में परिवर्तित करने में विफल रहता है, जबकि बीआईसी एन के रूप में अभिसरण करता है।

इसलिए, कई कार्यप्रणाली सवालों के रूप में, जिसे प्राथमिकता दी जानी है, यह इस बात पर निर्भर करता है कि आप क्या करने की कोशिश कर रहे हैं, अन्य तरीके क्या उपलब्ध हैं, और उल्लिखित सुविधाओं में से कोई है या नहीं (अभिसरण, मुक्त मापदंडों के लिए सापेक्ष सहिष्णुता, अपेक्षित केएल विचलन को कम करना। ), अपने लक्ष्यों से बात करें।


8
|t|>2|t|>log(n)

2
अच्छा जवाब, +1। मुझे विशेष रूप से इस बारे में चेतावनी पसंद है कि क्या सच मॉडल का मूल्यांकन समूह में मौजूद है। मैं तर्क दूंगा कि "सच्चा मॉडल" कभी मौजूद नहीं होता है । (बॉक्स और ड्रेपर ने कहा कि "सभी मॉडल झूठे हैं, लेकिन कुछ उपयोगी हैं", और बर्नहैम और एंडरसन इसे "टेंपरिंग इफेक्ट साइज" कहते हैं।) यही कारण है कि मैं अवास्तविक मान्यताओं के तहत बीआईसी के अभिसरण से अकुशल हूं और एआईसी के लक्ष्य से अधिक हूं। वास्तव में हम जिस मॉडल को देखते हैं, उनमें सबसे अच्छा सन्निकटन है।
स्टीफन कोलासा

68

मेरी त्वरित व्याख्या है

  • AIC भविष्यवाणी के लिए सबसे अच्छा है क्योंकि यह समान रूप से क्रॉस-वैलिडेशन के बराबर है।
  • बीआईसी स्पष्टीकरण के लिए सबसे अच्छा है क्योंकि यह अंतर्निहित डेटा जनरेटिंग प्रक्रिया के निरंतर अनुमान की अनुमति देता है।

एआईसी, के-फोल्ड क्रॉस-वैलिडेशन के बराबर है, बीआईसी लेव-वन-आउट क्रॉस-वैरिलेशन के बराबर है। अभी भी, दोनों प्रमेय केवल रेखीय प्रतिगमन के मामले में हैं।

5
mbq, यह AIC / LOO (LKO या K-fold नहीं है) और मुझे नहीं लगता कि स्टोन 1977 में प्रमाण रैखिक मॉडल से संबंधित है। मुझे बीआईसी परिणाम का विवरण नहीं पता है।
आर्स

11
ars सही है। यह AIC = LOO और BIC = K- गुना है जहां K नमूना आकार का एक जटिल कार्य है।
रॉब हयंडमैन

बधाई हो, आपने मुझे पा लिया है; मैं लिखने की जल्दी में था और इसलिए मैंने यह त्रुटि की, जाहिर है कि रोब ने इसे कैसे लिखा। Neverthelss यह शाओ 1995 से है, जहां एक धारणा थी कि मॉडल रैखिक है। मैं स्टोन का विश्लेषण करूँगा, फिर भी मुझे लगता है कि आप, ars, सही हो सकते हैं क्योंकि मेरे क्षेत्र में LOO में विभिन्न * IC के समान ही खराब प्रतिष्ठा है।

विकिपीडिया ( en.wikipedia.org/wiki/… ) पर विवरण ऐसा लगता है जैसे K- गुना क्रॉस-वैधीकरण मापदंडों की स्थिरता का अनुमान लगाने के लिए दोहराया सिमुलेशन की तरह है। मैं देख सकता हूं कि AIC को LOO के साथ स्थिर होने की उम्मीद होगी (चूंकि LOO को थकावट से संचालित किया जा सकता है), लेकिन मुझे यह समझ में नहीं आता कि BIC K-fold के साथ स्थिर क्यों होगा जब तक कि K भी संपूर्ण नहीं होता। क्या K का मूल्य अंतर्निहित जटिल सूत्र इसे संपूर्ण बनाता है? या कुछ और हो रहा है?
रुसलपिएरेस

16

मेरे अनुभव में, BIC गंभीर अंडरफ़िटिंग में परिणाम करता है और AIC आम तौर पर अच्छा प्रदर्शन करता है, जब लक्ष्य भविष्य कहनेवाला भेदभाव को अधिकतम करना होता है।


1
सुपर में देरी हो रही है, लेकिन चूंकि यह अभी भी Google पर उच्च स्थान पर है, क्या आप इस बात का ध्यान रखते हैं कि आप किस क्षेत्र में काम कर रहे हैं? मैं उत्सुक हूँ अगर वहाँ डोमेन का कुछ प्रभाव है जिसे हमें देखना चाहिए।
बहुतबदुतियाँ

@verybadatthis: क्लीनिकल बायोस्टैटिस्टिक्स (सिर्फ गूगल "फ्रैंक हरेल", उनकी एक वेब उपस्थिति है)
बेन बोल्कर

13

ब्रायन रिप्ले द्वारा एआईसी और बीआईसी का एक सूचनात्मक और सुलभ "व्युत्पत्ति" यहां पाया जा सकता है: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf

रिप्ले गणितीय परिणामों के पीछे की धारणाओं पर कुछ टिप्पणी करता है। कुछ अन्य उत्तरों के संकेत के विपरीत, रिप्ले ने जोर दिया कि एआईसी यह मानने पर आधारित है कि मॉडल सत्य है। यदि मॉडल सच नहीं है, तो एक सामान्य गणना से पता चलेगा कि "मापदंडों की संख्या" को अधिक जटिल मात्रा से बदलना होगा। Ripleys स्लाइड्स में कुछ संदर्भ दिए गए हैं। ध्यान दें, हालांकि, रैखिक प्रतिगमन के लिए (कड़ाई से एक ज्ञात विचरण के साथ बोलते हुए), सामान्य तौर पर, अधिक जटिल मात्रा मापदंडों की संख्या के बराबर होने के लिए सरल करती है।


3
(+1) हालांकि, रिप्ले उस बिंदु पर गलत है जहां वह कहता है कि मॉडल को नेस्टेड होना चाहिए। एक्के के मूल व्युत्पत्ति पर ऐसा कोई अवरोध नहीं है, या, कुल्क-लीब्लर विचलन के अनुमानक के रूप में एआईसी का उपयोग करके व्युत्पत्ति पर स्पष्ट होने के लिए। वास्तव में, जिस पेपर पर मैं काम कर रहा हूं, मैं कुछ हद तक "अनुभवजन्य" दिखाता हूं कि एआईसी को कोविरियन संरचनाओं के मॉडल चयन के लिए भी इस्तेमाल किया जा सकता है (मापदंडों की विभिन्न संख्या, स्पष्ट रूप से गैर-नेस्टेड मॉडल)। टाइम-सीरीज़ के हजारों सिमुलेशन से जो मैं अलग-अलग सहसंयोजक संरचनाओं के साथ दौड़ा, उनमें से किसी में भी एआईसी गलत नहीं हुआ ...
नेस्टर

... अगर "सही" मॉडल वास्तव में मॉडल के सेट पर है (यह, हालांकि, यह भी अर्थ है कि मैं जिन मॉडलों पर काम कर रहा हूं, उनके लिए अनुमानक का संस्करण बहुत छोटा है ... लेकिन यह केवल एक तकनीकी है विस्तार)।
नेस्टर

1
@ Néstor, मैं सहमत हूं। मॉडल के नेस्टेड होने की बात अजीब है।
एनआरएच

3
अनुदैर्ध्य डेटा (मिश्रित प्रभाव वाले मॉडल या सामान्यीकृत कम से कम वर्ग) के लिए सहसंयोजक संरचनाओं का चयन करते समय एआईसी आसानी से 3 से अधिक उम्मीदवार संरचनाओं को गलत संरचना का पता लगा सकता है। यदि 3 से अधिक हैं, तो आपको संरचना का चयन करने के लिए एआईसी का उपयोग करके मॉडल अनिश्चितता के लिए समायोजित करने के लिए बूटस्ट्रैप या अन्य साधनों का उपयोग करना होगा।
फ्रैंक हरेल

8

वास्तव में अंतर केवल इतना है कि बीआईसी एआईसी को वस्तुओं की संख्या (नमूने) को ध्यान में रखते हुए बढ़ाया गया है। मैं यह कहूंगा कि जबकि दोनों काफी कमजोर हैं (उदाहरण के लिए क्रॉस-वैलिडेशन की तुलना में) एआईसी का उपयोग करना बेहतर है, इससे अधिक लोग संक्षिप्त नाम से परिचित होंगे - वास्तव में मैंने कभी पेपर या प्रोग्राम नहीं देखा है जहां बीआईसी होगा इस्तेमाल किया जा सकता है (फिर भी मैं मानता हूं कि मैं उन समस्याओं के पक्षपाती हूं जहां ऐसे मापदंड बस काम नहीं करते हैं)।

संपादित करें: AIC और BIC दो महत्वपूर्ण मान्यताओं को प्रदान करते हुए क्रॉस-वैलिडेशन के बराबर हैं - जब उन्हें परिभाषित किया जाता है, तो जब मॉडल एक अधिकतम संभावना है और जब आप केवल एक प्रशिक्षण डेटा पर मॉडल प्रदर्शन में रुचि रखते हैं। कुछ आंकड़ों को किसी तरह की आम सहमति में ढहाने के मामले में वे पूरी तरह से ठीक हैं।
कुछ वास्तविक दुनिया की समस्या के लिए एक भविष्यवाणी मशीन बनाने के मामले में, पहला झूठा है, क्योंकि आपका प्रशिक्षण सेट केवल उस समस्या के बारे में जानकारी के एक स्क्रैप का प्रतिनिधित्व करता है, जिसके साथ आप काम कर रहे हैं, इसलिए आप अपने मॉडल का अनुकूलन नहीं कर सकते हैं; दूसरा गलत है, क्योंकि आप उम्मीद करते हैं कि आपका मॉडल नए डेटा को संभाल लेगा, जिसके लिए आप यह उम्मीद भी नहीं कर सकते हैं कि प्रशिक्षण सेट प्रतिनिधि होगा। और इस अंत तक सीवी का आविष्कार किया गया था; एक स्वतंत्र डेटा के साथ सामना होने पर मॉडल के व्यवहार का अनुकरण करना। मॉडल के चयन के मामले में, सीवी आपको न केवल गुणवत्ता अनुमानित देता है, बल्कि गुणवत्ता सन्निकटन वितरण भी करता है, इसलिए इसका यह बड़ा फायदा है कि यह कह सकता है "मुझे नहीं पता, जो भी नया डेटा आएगा, उनमें से कोई भी हो सकता है बेहतर है। "


क्या इसका मतलब यह है कि कुछ नमूने के लिए BIC AIC से कम कठोर हो सकता है?
रुसैलपिएरेस

1
स्ट्रिंगर यहां एक सबसे अच्छा शब्द नहीं है, बल्कि मापदंडों के लिए अधिक सहिष्णु है; अभी भी, हाँ, सामान्य परिभाषाओं के लिए (प्राकृतिक लॉग के साथ) यह 7 और कम वस्तुओं के लिए होता है।

AIC क्रॉस-वेलिडेशन के समान विषम है।
रोब हंडमैन

5
@mbq - मैं यह नहीं देखता कि क्रॉस वेलिडेशन "संयुक्त राष्ट्र-प्रतिनिधित्व" समस्या को कैसे पार करता है। यदि आपका प्रशिक्षण डेटा भविष्य में आपके द्वारा प्राप्त किए गए डेटा का प्रतिनिधि है, तो आप अपने इच्छित सभी को पार कर सकते हैं, लेकिन यह "सामान्यीकरण त्रुटि" का अप्रमाणिक होगा जिसे आप वास्तव में सामना करने जा रहे हैं (जैसा कि "" सच "नया डेटा प्रशिक्षण डेटा के गैर-मॉडल वाले भाग द्वारा प्रस्तुत नहीं किया गया है)। यदि आपको अच्छी भविष्यवाणियां करनी हैं तो प्रतिनिधि डेटा सेट प्राप्त करना महत्वपूर्ण है।
प्रायिकतालोगिक

1
@mbq - मेरा कहना है कि आप एक विकल्प के आधार पर आईसी आधारित चयन को "धीरे से अस्वीकार" करने लगते हैं जो समस्या को ठीक नहीं करता है। क्रॉस-वेलिडेशन अच्छा है (हालांकि इसके लायक गणना?), लेकिन अन-रिप्रेजेंट डेटा को डेटा संचालित प्रक्रिया का उपयोग करके नहीं निपटाया जा सकता है। कम से कम मज़बूती से तो नहीं। आपको पूर्व जानकारी रखने की आवश्यकता है जो आपको बताती है कि यह कैसे अन-रिप्रेजेंटेटिव है (या आम तौर पर, "अन-रिप्रेजेंट" डेटा का क्या तार्किक कनेक्शन आपके द्वारा देखे जाने वाले वास्तविक भविष्य के डेटा से है)।
probabilityislogic

5

जैसा कि आपने उल्लेख किया है, एआईसी और बीआईसी अधिक प्रतिगामी चर रखने के लिए मॉडल को दंडित करने के तरीके हैं। इन विधियों में एक दंड फ़ंक्शन का उपयोग किया जाता है, जो मॉडल में मापदंडों की संख्या का एक फ़ंक्शन है।

  • एआईसी को लागू करते समय, पेनल्टी फ़ंक्शन z (p) = 2 p है

  • BIC को लागू करते समय, पेनल्टी फ़ंक्शन z (p) = p ln ( n ) है, जो कि पूर्व सूचना से व्युत्पन्न के रूप में दंड की व्याख्या करने पर आधारित है (इसलिए नाम Bayesian Information Criterion)।

जब n बड़ा होता है तो दो मॉडल काफी अलग परिणाम देंगे। तब बीआईसी जटिल मॉडल के लिए बहुत बड़ा जुर्माना लागू करता है, और इसलिए एआईसी की तुलना में सरल मॉडल को जन्म देगा। हालांकि, जैसा कि विकिपीडिया पर बीआईसी में कहा गया है :

यह ध्यान दिया जाना चाहिए कि कई अनुप्रयोगों में ..., BIC अधिकतम संभावना चयन को कम कर देता है क्योंकि मापदंडों की संख्या ब्याज के मॉडल के लिए समान है।


4
ध्यान दें कि जब आयाम नहीं बदलता है तो एआईसी भी एमएल के बराबर होता है। आपका जवाब ऐसा लगता है कि यह केवल BIC के लिए है।
probabilityislogic

5

मैं जो बता सकता हूं, उसमें एआईसी और बीआईसी के बीच बहुत अंतर नहीं है। वे दोनों गणितीय रूप से सुविधाजनक हैं सन्निकटन हैं जो किसी मॉडल की कुशलता से तुलना करने के लिए कर सकते हैं। यदि वे आपको अलग-अलग "सर्वश्रेष्ठ" मॉडल देते हैं, तो इसका मतलब है कि आपके पास उच्च मॉडल अनिश्चितता है, जिसके बारे में चिंता करना अधिक महत्वपूर्ण है कि आपको एआईसी या बीआईसी का उपयोग करना चाहिए या नहीं। मैं व्यक्तिगत रूप से बीआईसी को बेहतर पसंद करता हूं क्योंकि यह एक मॉडल के अधिक (कम) पूछता है यदि उसके मापदंडों को फिट करने के लिए अधिक (कम) डेटा है - एक शिक्षक की तरह जो अपने छात्र के अधिक (कम) होने पर प्रदर्शन के उच्च (निम्न) मानक के लिए पूछ रहा है। ) विषय के बारे में जानने का समय। मेरे लिए यह सिर्फ सहज बात करने जैसा लगता है। लेकिन फिर मुझे यकीन है कि एआईसी के लिए भी समान रूप से सहज और सम्मोहक तर्क मौजूद हैं, इसका सरल रूप दिया गया है।

अब जब भी आप कोई सन्निकटन करते हैं, तो निश्चित रूप से कुछ स्थितियाँ होंगी, जब वे सन्निकटन रूखे होते हैं। यह निश्चित रूप से एआईसी के लिए देखा जा सकता है, जहां कुछ "समायोजन" (एआईसीसी) मौजूद हैं जो कुछ शर्तों के लिए जिम्मेदार हैं जो मूल सन्निकटन को खराब करते हैं। यह बीआईसी के लिए भी मौजूद है, क्योंकि विभिन्न अन्य अधिक सटीक (लेकिन अभी भी कुशल) विधियां मौजूद हैं, जैसे कि ज़ेलर के जी-पुजारियों (बीआईसी इंटीग्रल्स के लिए लैप्लस सन्निकटन विधि के लिए एक सन्निकटन है) के मिश्रण के लिए पूरी तरह से लाप्लास अनुमोदन।

एक जगह जहां वे दोनों बकवास हैं, जब आपके पास किसी भी मॉडल के भीतर मापदंडों के बारे में पर्याप्त पूर्व जानकारी होती है। एआईसी और बीआईसी उन मॉडलों को अनावश्यक रूप से दंडित करते हैं जहां मापदंडों को उन मॉडलों की तुलना में आंशिक रूप से जाना जाता है जिनके लिए डेटा से अनुमान लगाने की आवश्यकता होती है।

P(D|M,A)P(M|D,A)MMA

Mi:the ith model is the best description of the dataA:out of the set of K models being considered, one of them is the best

और फिर एक ही प्रायिकता मॉडल (एक ही पैरामीटर, एक ही डेटा, एक ही अनुमान, आदि) असाइन करना जारी रखें, मुझे बीआईसी मानों का एक ही सेट मिलेगा। यह तार्किक पत्र "एम" के लिए किसी प्रकार के अनूठे अर्थ को संलग्न करके ही होता है, जो "सच्चे मॉडल" ("सच्चे धर्म" की गूँज) के बारे में अप्रासंगिक प्रश्नों में खींचा जाता है। केवल एक चीज जो "एम" को परिभाषित करती है, वह गणितीय समीकरण हैं जो इसे अपनी गणना में उपयोग करते हैं - और यह शायद ही कभी एक और केवल एक परिभाषा से बाहर है। मैं समान रूप से एम के बारे में एक भविष्यवाणी प्रस्ताव में डाल सकता था ("आइथ मॉडल सबसे अच्छा पूर्वानुमान देगा")। मैं व्यक्तिगत रूप से यह नहीं देख सकता कि यह किसी भी संभावना को कैसे बदल देगा, और इसलिए बीआईसी कितना अच्छा या बुरा होगा (एआईसी उस मामले के लिए भी - हालांकि एआईसी एक अलग व्युत्पत्ति पर आधारित है)

और इसके अलावा, बयान में क्या गलत है यदि सही मॉडल उस सेट पर है जिस पर मैं विचार कर रहा हूं, तो 57% संभावना है कि यह मॉडल बी है । मेरे लिए पर्याप्त उचित लगता है, या आप अधिक "सॉफ्ट" संस्करण जा सकते हैं एक 57% संभावना है कि मॉडल बी को सेट से बाहर सबसे अच्छा माना जाता है

एक अंतिम टिप्पणी: मुझे लगता है कि आप एआईसी / बीआईसी के बारे में कई राय पाएंगे, क्योंकि ऐसे लोग हैं जो उनके बारे में जानते हैं।


4

एआईसी को शायद ही कभी इस्तेमाल किया जाना चाहिए, क्योंकि यह वास्तव में केवल विषम रूप से मान्य है। एआईसीसी का उपयोग करना लगभग हमेशा बेहतर होता है ( परिमित नमूना आकार के लिए एक सी के साथ एआईसी )। AIC ओवरएपेरिमेट करता है: AICc के साथ यह समस्या बहुत कम हो गई है। एआईसीसी का उपयोग करने का मुख्य अपवाद तब होता है जब अंतर्निहित वितरण भारी लेप्टोक्यूरिक होते हैं। इस पर अधिक जानकारी के लिए, बर्नहैम और एंडरसन की पुस्तक मॉडल चयन देखें ।


1
तो, आप जो कह रहे हैं कि एआईसी मापदंडों के लिए पर्याप्त रूप से मॉडल को दंडित नहीं करता है, इसलिए इसे एक मानदंड के रूप में उपयोग करने से ओवरपैरमेटिज़ेशन हो सकता है। आप इसके बजाय एआईसीसी के उपयोग की सलाह देते हैं। मेरे प्रारंभिक प्रश्न के संदर्भ में इसे वापस रखना, क्योंकि BIC पहले से ही AIC से अधिक कठोर है, BIC पर AICc का उपयोग करने का कोई कारण है?
रुसलपिएरेस

1
एआईसी द्वारा आपका क्या मतलब है asymptotically मान्य है। जैसा कि जॉन टेलर एआईसी द्वारा बताया गया है असंगत है। मुझे लगता है कि बीआईसी के साथ एआईसी के विपरीत उसके सहसंबंध सबसे अच्छे दिए गए हैं। मैं दोनों को क्रॉस-वैरिफिकेशन के समान नहीं देखता हूं। उन सभी के पास एक अच्छी संपत्ति है कि वे आमतौर पर एक मॉडल पर अधिकतम चर से कम की संख्या में चोटी रखते हैं। लेकिन वे सभी अलग-अलग मॉडल चुन सकते हैं।
माइकल चेरिक

4

एआईसी और बीआईसी मॉडल की तुलना करने के लिए सूचना मानदंड हैं। प्रत्येक मॉडल फिट और पार्सिमनी को संतुलित करने की कोशिश करता है और प्रत्येक मापदंडों की संख्या के लिए अलग-अलग दंड देता है।

AIC=2k2ln(L)
kL2ln(L)2k , लेकिन मुझे विवरण याद नहीं है)

BIC=kln(n)2ln(L)
और यह AIC की तुलना में अधिक प्रशंसनीय मॉडल का पक्षधर है

मैंने केआईसी के बारे में नहीं सुना है।


केआईसी के बारे में नहीं सुना है, लेकिन एआईसी और बीआईसी के लिए लिंक किए गए प्रश्न पर एक नज़र है, या एआईसी की खोज करें। आँकड़े.स्टैकएक्सचेंज.com
हेनरिक

1
(यह जबाब डुप्लिकेट सवाल है कि यह भी "आई सी" की व्याख्या के लिए कहा से विलय हो गया।)
whuber

3
मॉडल को एआईसी या बीआईसी के साथ तुलना करने के लिए नेस्टेड होने की आवश्यकता नहीं है।
मैक्रों

1

बहुत संक्षिप्त रूप से:

  • n अनंत तक जा रहा है) के साथ और अगर सही मॉडल उम्मीदवार मॉडल के बीच है, तो एआईसी मानदंड के आधार पर सच्चे मॉडल का चयन करने की संभावना नहीं होगी 1 इसके बजाय, यह कई सुविधाओं को बनाए रखेगा।
  • P(D|M,A)(D=Data,M=model,A=assumptions)P(M|D,A)nnk=n[11/(log(n)1)]n=नमूना आकार (शाओ 1997)। बीआईसी के कई अलग-अलग संस्करण हैं, जो कि सीमांत संभावना के अलग-अलग अनुमान लगाने या अलग-अलग पुजारियों को संभालने के लिए आते हैं। उदाहरण के लिए, मूल बीआईसी के रूप में सभी संभावित मॉडलों की एक पूर्व वर्दी का उपयोग करने के बजाय, EBIC निश्चित आकार ( चेन और चेन 2008 ) के मॉडल की एक समान वर्दी का उपयोग करता है, जबकि BICq एक बर्नौली वितरण का उपयोग करता है जिसमें प्रत्येक पैरामीटर के लिए पूर्व संभाव्यता को शामिल किया जाना शामिल है

lambda=2lambda=log(n), जहां एक उद्देश्य (LASSO या लोचदार शुद्ध प्रतिगमन) का अनुकूलन कुछ अन्य उद्देश्य के आधार पर नियमितीकरण पैरामीटर (ओं) के ट्यूनिंग द्वारा किया जाता है (जो कि क्रॉस सत्यापन भविष्यवाणी त्रुटि, एआईसी या बीआईसी को कम करता है)।

n1n

ध्यान दें कि LOOCV त्रुटि को अवशिष्ट और हट मैट्रिक्स के विकर्ण से विश्लेषणात्मक रूप से गणना की जा सकती है , वास्तव में बिना किसी क्रॉस सत्यापन के। यह हमेशा एओओसीवी त्रुटि के एक असममित सन्निकटन के रूप में एआईसी के लिए एक विकल्प होगा।

संदर्भ

स्टोन एम। (1977) क्रॉस-वेलिडेशन और एकाइक की कसौटी पर मॉडल की पसंद का एक विषमतापूर्ण समकक्ष। रॉयल स्टैटिस्टिकल सोसाइटी श्रृंखला बी। 39, 44-7 की पत्रिका।

शाओ जे (1997) रैखिक मॉडल चयन के लिए एक विषम सिद्धांत। स्टेटिस्टिका सिनिका 7, 221-242।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.