मैं बस "एकैके सूचना मानदंड" में भाग गया, और मैंने मॉडल चयन पर साहित्य की इस बड़ी मात्रा पर ध्यान दिया (बीआईसी जैसी चीजें भी मौजूद हैं)।
समकालीन मशीन सीखने के तरीके इन BIC और AIC मॉडल चयन मानदंडों का लाभ क्यों नहीं उठाते हैं?
मैं बस "एकैके सूचना मानदंड" में भाग गया, और मैंने मॉडल चयन पर साहित्य की इस बड़ी मात्रा पर ध्यान दिया (बीआईसी जैसी चीजें भी मौजूद हैं)।
समकालीन मशीन सीखने के तरीके इन BIC और AIC मॉडल चयन मानदंडों का लाभ क्यों नहीं उठाते हैं?
जवाबों:
एआईसी और बीआईसी का उपयोग किया जाता है, उदाहरण के लिए स्टेप वाइज रिग्रेशन। वे वास्तव में "उत्तराधिकार" के एक बड़े वर्ग का हिस्सा हैं, जिनका उपयोग भी किया जाता है। उदाहरण के लिए डीआईसी (डीवियनस सूचना मानदंड) का उपयोग अक्सर बायेसियन मॉडल चयन में किया जाता है।
हालांकि, वे मूल रूप से "उत्तराधिकार" हैं। जबकि यह दिखाया जा सकता है, कि AIC और BIC दोनों क्रॉस-वेलिडेशन अप्रोच की ओर asymptotically जुटे हैं (मुझे लगता है कि AIC लीव-वन-आउट CV की ओर जाता है, और BIC कुछ अन्य दृष्टिकोण की ओर, लेकिन मुझे यकीन नहीं है), वे जाने जाते हैं क्रमशः दंड और अति-दंड। यानी AIC का उपयोग करने से आपको अक्सर एक मॉडल मिलेगा, जो कि इससे अधिक जटिल होना चाहिए, जबकि BIC के साथ आपको अक्सर एक मॉडल मिलता है जो बहुत सरल है।
चूंकि दोनों सीवी से संबंधित हैं, सीवी अक्सर एक बेहतर विकल्प होता है, जो इन समस्याओं से ग्रस्त नहीं होता है।
फिर अंत में # पैरामीटर का मुद्दा है जो बीआईसी और एआईसी के लिए आवश्यक है। वास्तविक-मूल्यवान आदानों पर सामान्य फ़ंक्शन सन्निकटन (जैसे KNNs) के साथ, मापदंडों को "छिपाना" करना संभव है, अर्थात एक वास्तविक संख्या का निर्माण करना जिसमें दो वास्तविक संख्याओं के समान जानकारी होती है (सोचें जैसे अंकों को काटना)। उस मामले में, मापदंडों की वास्तविक संख्या क्या है? दूसरी ओर, अधिक जटिल मॉडल के साथ, आप अपने मानकों के आधार पर की कमी हो सकती है, कहते हैं कि तुम केवल फिट मापदंडों इस तरह कर सकते हैं कि (जैसे देखने के लिए यहाँ )। या आपके पास गैर-पहचान हो सकती है, इस मामले में मापदंडों के कई मूल्य वास्तव में एक ही मॉडल देते हैं। इन सभी मामलों में, बस मापदंडों की गिनती एक उपयुक्त अनुमान नहीं देती है।
चूंकि कई समकालीन मशीन-लर्निंग एल्गोरिदम इन गुणों को दिखाते हैं (अर्थात सार्वभौमिक सन्निकटन, मापदंडों की अस्पष्ट संख्या, गैर-पहचान नहीं), एआईसी और बीआईसी इन मॉडल के लिए कम उपयोगी हैं, क्योंकि वे पहली नज़र में लग सकते हैं।
संपादित करें :
कुछ और बिंदु जिन्हें स्पष्ट किया जा सकता है: