एआईसी और बीआईसी का उपयोग किया जाता है, उदाहरण के लिए स्टेप वाइज रिग्रेशन। वे वास्तव में "उत्तराधिकार" के एक बड़े वर्ग का हिस्सा हैं, जिनका उपयोग भी किया जाता है। उदाहरण के लिए डीआईसी (डीवियनस सूचना मानदंड) का उपयोग अक्सर बायेसियन मॉडल चयन में किया जाता है।
हालांकि, वे मूल रूप से "उत्तराधिकार" हैं। जबकि यह दिखाया जा सकता है, कि AIC और BIC दोनों क्रॉस-वेलिडेशन अप्रोच की ओर asymptotically जुटे हैं (मुझे लगता है कि AIC लीव-वन-आउट CV की ओर जाता है, और BIC कुछ अन्य दृष्टिकोण की ओर, लेकिन मुझे यकीन नहीं है), वे जाने जाते हैं क्रमशः दंड और अति-दंड। यानी AIC का उपयोग करने से आपको अक्सर एक मॉडल मिलेगा, जो कि इससे अधिक जटिल होना चाहिए, जबकि BIC के साथ आपको अक्सर एक मॉडल मिलता है जो बहुत सरल है।
चूंकि दोनों सीवी से संबंधित हैं, सीवी अक्सर एक बेहतर विकल्प होता है, जो इन समस्याओं से ग्रस्त नहीं होता है।
फिर अंत में # पैरामीटर का मुद्दा है जो बीआईसी और एआईसी के लिए आवश्यक है। वास्तविक-मूल्यवान आदानों पर सामान्य फ़ंक्शन सन्निकटन (जैसे KNNs) के साथ, मापदंडों को "छिपाना" करना संभव है, अर्थात एक वास्तविक संख्या का निर्माण करना जिसमें दो वास्तविक संख्याओं के समान जानकारी होती है (सोचें जैसे अंकों को काटना)। उस मामले में, मापदंडों की वास्तविक संख्या क्या है? दूसरी ओर, अधिक जटिल मॉडल के साथ, आप अपने मानकों के आधार पर की कमी हो सकती है, कहते हैं कि तुम केवल फिट मापदंडों इस तरह कर सकते हैं कि θ1>θ2 (जैसे देखने के लिए यहाँ )। या आपके पास गैर-पहचान हो सकती है, इस मामले में मापदंडों के कई मूल्य वास्तव में एक ही मॉडल देते हैं। इन सभी मामलों में, बस मापदंडों की गिनती एक उपयुक्त अनुमान नहीं देती है।
चूंकि कई समकालीन मशीन-लर्निंग एल्गोरिदम इन गुणों को दिखाते हैं (अर्थात सार्वभौमिक सन्निकटन, मापदंडों की अस्पष्ट संख्या, गैर-पहचान नहीं), एआईसी और बीआईसी इन मॉडल के लिए कम उपयोगी हैं, क्योंकि वे पहली नज़र में लग सकते हैं।
संपादित करें :
कुछ और बिंदु जिन्हें स्पष्ट किया जा सकता है:
- ऐसा लगता है कि मैं अंकों को R→RN ( यहाँ देखें ) के बीच एक आक्षेप का अंकन करके मानचित्रण पर विचार करना गलत था । हालाँकि, यह एक पूर्वाग्रह क्यों नहीं है इसका विवरण समझना थोड़ा कठिन है। हालाँकि, हमें वास्तव में इस विचार के लिए काम करने के लिए एक आक्षेप की आवश्यकता नहीं है (एक संवेग पर्याप्त है)।
- कैंटर (1877) द्वारा प्रमाण के अनुसार आर → आर के बीच एक आपत्ति होनी चाहिएR→RN। हालांकि इस आक्षेप को स्पष्ट रूप से परिभाषित नहीं किया जा सकता है, यह अस्तित्व सिद्ध किया जा सकता है (लेकिन इसके लिए विकल्प के अप्रमाण स्वयंसिद्ध की आवश्यकता है)। इस आक्षेप को अभी भी एक सैद्धांतिक मॉडल में इस्तेमाल किया जा सकता है (कंप्यूटर में इस मॉडल को वास्तव में लागू करना संभव नहीं हो सकता है), एक पैरामीटर को एक मनमाना संख्या में अनपैक करने के लिए।
- हमें वास्तव में R→RN बीच मानचित्रण की आवश्यकता नहीं है कि एक आक्षेप हो। कोई भी विशेषण फ़ंक्शन R→RN एक से कई मापदंडों को अनपैक करने के लिए पर्याप्त है। इस तरह के surjections को अन्य कार्यों के अनुक्रम की सीमा तक मौजूद दिखाया जा सकता है (तथाकथित स्पेस-फिलिंग कर्व्स , जैसे पीनो कर्व )।
- क्योंकि न तो कैंटर द्वारा प्रमाण रचनात्मक है (यह केवल उदाहरण दिए बिना जीव के अस्तित्व को साबित करता है), और न ही अंतरिक्ष भरने वाले घटता (क्योंकि वे केवल रचनात्मक वस्तुओं की सीमा के रूप में मौजूद हैं और इसलिए स्वयं रचनात्मक नहीं हैं), तर्क I बनाया केवल एक सैद्धांतिक प्रमाण है। सिद्धांत रूप में, हम किसी भी वांछित मूल्य (प्रशिक्षण सेट पर) के नीचे BIC को कम करने के लिए बस एक मॉडल में पैरामीटर जोड़कर रख सकते हैं। हालांकि, एक वास्तविक मॉडल कार्यान्वयन में हमें अंतरिक्ष-भरण वक्र का अनुमान लगाना होता है, इसलिए सन्निकटन त्रुटि हमें वास्तव में ऐसा करने से रोक सकती है (मैंने वास्तव में इसका परीक्षण नहीं किया है)।
- चूँकि यह सब पसंद के स्वयंसिद्ध की आवश्यकता होती है, यदि आप इस स्वयंसिद्ध को स्वीकार नहीं करते हैं, तो प्रमाण अमान्य हो जाता है (हालाँकि अधिकांश गणितज्ञ ऐसा करते हैं)। इसका मतलब यह है कि रचनात्मक गणित में यह संभव नहीं हो सकता है, लेकिन मुझे नहीं पता कि आंकड़ों के लिए रचनात्मक गणित क्या भूमिका निभाता है।
- पहचानशीलता आंतरिक रूप से कार्यात्मक जटिलता से जुड़ी होती है। यदि कोई बस एक पहचानने योग्य N -parameter मॉडल लेता है और एक सुपरफ्लुअस पैरामीटर (जैसे कि कहीं भी उपयोग नहीं किया जाता है) जोड़ता है, तो नया मॉडल गैर-पहचान योग्य हो जाता है। अनिवार्य रूप से, एक ऐसे मॉडल का उपयोग कर रहा है जिसमें एक समस्या को हल करने के लिए RN+1 की जटिलता है जिसमें जटिलता RN । इसी तरह, गैर-पहचान के अन्य रूपों के साथ। उदाहरण के लिए गैर-पहचानने योग्य पैरामीटर क्रमपरिवर्तन के मामले को लें। उस मामले में, एक मॉडल का उपयोग कर रहा है जिसमें RN की जटिलता है , हालांकि, वास्तविक समस्या में केवल आर एन पर समकक्ष कक्षाओं के एक सेट की जटिलता है।RN। हालाँकि, यह केवल एक अनौपचारिक तर्क है, मुझे "जटिलता" की इस धारणा के किसी भी औपचारिक उपचार का पता नहीं है।