मशीन सीखने में Akaike सूचना मानदंड का उपयोग अधिक क्यों नहीं किया जाता है?


16

मैं बस "एकैके सूचना मानदंड" में भाग गया, और मैंने मॉडल चयन पर साहित्य की इस बड़ी मात्रा पर ध्यान दिया (बीआईसी जैसी चीजें भी मौजूद हैं)।

समकालीन मशीन सीखने के तरीके इन BIC और AIC मॉडल चयन मानदंडों का लाभ क्यों नहीं उठाते हैं?


9
क्योंकि किसी की संभावना की गणना नहीं है?
अक्कल

1
"समकालीन मशीन सीखने के तरीकों" से आपका क्या मतलब है? जहाँ तक मैंने AIC और BIC का उपयोग किया है, अक्सर उपयोग किया जाता है।
फेरी

4
इसके अलावा क्यों -1? याद रखें कि मूर्खतापूर्ण प्रश्न नहीं हैं - प्रत्येक प्रश्न ब्रह्मांड पर प्रकाश डालने की कोशिश करता है
गूंज

4
@ जियो: मैंने डाउनवोट नहीं किया, लेकिन मुझे लगता है कि अगर आप मुख्य दावे का स्रोत / समर्थन कर सकते हैं (तो मशीन सीखने के तरीके इन बीआईसी और एआईसी मॉडल चयन मानदंडों का लाभ उठा सकते हैं) में
सुधार होगा

2
@ अक्षल थैंक्स मुझे लगता है कि यह बेहतर होता है कि एक व्यापक दावे के आसपास निर्मित प्रश्न उस दावे का स्रोत बन सकें। मेरा मतलब एक सामान्य नियम के रूप में है।
user603

जवाबों:


15

एआईसी और बीआईसी का उपयोग किया जाता है, उदाहरण के लिए स्टेप वाइज रिग्रेशन। वे वास्तव में "उत्तराधिकार" के एक बड़े वर्ग का हिस्सा हैं, जिनका उपयोग भी किया जाता है। उदाहरण के लिए डीआईसी (डीवियनस सूचना मानदंड) का उपयोग अक्सर बायेसियन मॉडल चयन में किया जाता है।

हालांकि, वे मूल रूप से "उत्तराधिकार" हैं। जबकि यह दिखाया जा सकता है, कि AIC और BIC दोनों क्रॉस-वेलिडेशन अप्रोच की ओर asymptotically जुटे हैं (मुझे लगता है कि AIC लीव-वन-आउट CV की ओर जाता है, और BIC कुछ अन्य दृष्टिकोण की ओर, लेकिन मुझे यकीन नहीं है), वे जाने जाते हैं क्रमशः दंड और अति-दंड। यानी AIC का उपयोग करने से आपको अक्सर एक मॉडल मिलेगा, जो कि इससे अधिक जटिल होना चाहिए, जबकि BIC के साथ आपको अक्सर एक मॉडल मिलता है जो बहुत सरल है।

चूंकि दोनों सीवी से संबंधित हैं, सीवी अक्सर एक बेहतर विकल्प होता है, जो इन समस्याओं से ग्रस्त नहीं होता है।

फिर अंत में # पैरामीटर का मुद्दा है जो बीआईसी और एआईसी के लिए आवश्यक है। वास्तविक-मूल्यवान आदानों पर सामान्य फ़ंक्शन सन्निकटन (जैसे KNNs) के साथ, मापदंडों को "छिपाना" करना संभव है, अर्थात एक वास्तविक संख्या का निर्माण करना जिसमें दो वास्तविक संख्याओं के समान जानकारी होती है (सोचें जैसे अंकों को काटना)। उस मामले में, मापदंडों की वास्तविक संख्या क्या है? दूसरी ओर, अधिक जटिल मॉडल के साथ, आप अपने मानकों के आधार पर की कमी हो सकती है, कहते हैं कि तुम केवल फिट मापदंडों इस तरह कर सकते हैं कि θ1>θ2 (जैसे देखने के लिए यहाँ )। या आपके पास गैर-पहचान हो सकती है, इस मामले में मापदंडों के कई मूल्य वास्तव में एक ही मॉडल देते हैं। इन सभी मामलों में, बस मापदंडों की गिनती एक उपयुक्त अनुमान नहीं देती है।

चूंकि कई समकालीन मशीन-लर्निंग एल्गोरिदम इन गुणों को दिखाते हैं (अर्थात सार्वभौमिक सन्निकटन, मापदंडों की अस्पष्ट संख्या, गैर-पहचान नहीं), एआईसी और बीआईसी इन मॉडल के लिए कम उपयोगी हैं, क्योंकि वे पहली नज़र में लग सकते हैं।

संपादित करें :

कुछ और बिंदु जिन्हें स्पष्ट किया जा सकता है:

  1. ऐसा लगता है कि मैं अंकों को RRN ( यहाँ देखें ) के बीच एक आक्षेप का अंकन करके मानचित्रण पर विचार करना गलत था । हालाँकि, यह एक पूर्वाग्रह क्यों नहीं है इसका विवरण समझना थोड़ा कठिन है। हालाँकि, हमें वास्तव में इस विचार के लिए काम करने के लिए एक आक्षेप की आवश्यकता नहीं है (एक संवेग पर्याप्त है)।
  2. कैंटर (1877) द्वारा प्रमाण के अनुसार आरआर के बीच एक आपत्ति होनी चाहिएRRN। हालांकि इस आक्षेप को स्पष्ट रूप से परिभाषित नहीं किया जा सकता है, यह अस्तित्व सिद्ध किया जा सकता है (लेकिन इसके लिए विकल्प के अप्रमाण स्वयंसिद्ध की आवश्यकता है)। इस आक्षेप को अभी भी एक सैद्धांतिक मॉडल में इस्तेमाल किया जा सकता है (कंप्यूटर में इस मॉडल को वास्तव में लागू करना संभव नहीं हो सकता है), एक पैरामीटर को एक मनमाना संख्या में अनपैक करने के लिए।
  3. हमें वास्तव में RRN बीच मानचित्रण की आवश्यकता नहीं है कि एक आक्षेप हो। कोई भी विशेषण फ़ंक्शन RRN एक से कई मापदंडों को अनपैक करने के लिए पर्याप्त है। इस तरह के surjections को अन्य कार्यों के अनुक्रम की सीमा तक मौजूद दिखाया जा सकता है (तथाकथित स्पेस-फिलिंग कर्व्स , जैसे पीनो कर्व )।
  4. क्योंकि न तो कैंटर द्वारा प्रमाण रचनात्मक है (यह केवल उदाहरण दिए बिना जीव के अस्तित्व को साबित करता है), और न ही अंतरिक्ष भरने वाले घटता (क्योंकि वे केवल रचनात्मक वस्तुओं की सीमा के रूप में मौजूद हैं और इसलिए स्वयं रचनात्मक नहीं हैं), तर्क I बनाया केवल एक सैद्धांतिक प्रमाण है। सिद्धांत रूप में, हम किसी भी वांछित मूल्य (प्रशिक्षण सेट पर) के नीचे BIC को कम करने के लिए बस एक मॉडल में पैरामीटर जोड़कर रख सकते हैं। हालांकि, एक वास्तविक मॉडल कार्यान्वयन में हमें अंतरिक्ष-भरण वक्र का अनुमान लगाना होता है, इसलिए सन्निकटन त्रुटि हमें वास्तव में ऐसा करने से रोक सकती है (मैंने वास्तव में इसका परीक्षण नहीं किया है)।
  5. चूँकि यह सब पसंद के स्वयंसिद्ध की आवश्यकता होती है, यदि आप इस स्वयंसिद्ध को स्वीकार नहीं करते हैं, तो प्रमाण अमान्य हो जाता है (हालाँकि अधिकांश गणितज्ञ ऐसा करते हैं)। इसका मतलब यह है कि रचनात्मक गणित में यह संभव नहीं हो सकता है, लेकिन मुझे नहीं पता कि आंकड़ों के लिए रचनात्मक गणित क्या भूमिका निभाता है।
  6. पहचानशीलता आंतरिक रूप से कार्यात्मक जटिलता से जुड़ी होती है। यदि कोई बस एक पहचानने योग्य N -parameter मॉडल लेता है और एक सुपरफ्लुअस पैरामीटर (जैसे कि कहीं भी उपयोग नहीं किया जाता है) जोड़ता है, तो नया मॉडल गैर-पहचान योग्य हो जाता है। अनिवार्य रूप से, एक ऐसे मॉडल का उपयोग कर रहा है जिसमें एक समस्या को हल करने के लिए RN+1 की जटिलता है जिसमें जटिलता RN । इसी तरह, गैर-पहचान के अन्य रूपों के साथ। उदाहरण के लिए गैर-पहचानने योग्य पैरामीटर क्रमपरिवर्तन के मामले को लें। उस मामले में, एक मॉडल का उपयोग कर रहा है जिसमें RN की जटिलता है , हालांकि, वास्तविक समस्या में केवल आर एन पर समकक्ष कक्षाओं के एक सेट की जटिलता है।RN। हालाँकि, यह केवल एक अनौपचारिक तर्क है, मुझे "जटिलता" की इस धारणा के किसी भी औपचारिक उपचार का पता नहीं है।

इस पोस्ट पर झंकार करने के लिए ध्यान रखें चूहे ।stackexchange.com/questions/325129/… ? मैं थोड़ी देर के लिए इसके साथ कोई भाग्य नहीं था।
स्कैंडर एच।

1
@ लिकाओ क्या आप अंकों के अंतर को छुपाने के मामले की तरह, छुपा मापदंडों के "तकनीकों" पर संदर्भ का हवाला दे सकते हैं।
राशियाँ

@horaceT दुर्भाग्य से मैं किसी भी कागज के बारे में नहीं जानता, जो इसका उदाहरण देता है। एमडीएल पर कागजात में "कार्यात्मक जटिलता" (जैसे lpl.psy.ohio-state.edu/documents/MNP.pdf eq 10 देखें) की धारणा है । अक्सर उदाहरण विवश मापदंडों (उदाहरण के लिए researchgate.net/publication/… ) के साथ बनाया जाता है । मुझे इस पर चर्चा करते समय उदाहरण को चारों ओर मोड़ना पसंद है, और यह दर्शाता है कि एक जटिल एकल पैरामीटर एकाधिक सरल मापदंडों को पकड़ सकता है क्योंकि मुझे यह अधिक सहज लगता है।
लीकाओ

f1,2:RR2f1,N:RRNNf1,NNN1

@ लिकाओ यह काफी आकर्षक है। Pls संदर्भ ने "दाखिल घटता" का प्रमाण दिया। मैं देख सकता था कि विवश मापदंडों में स्वतंत्रता की "कम" डिग्री है। Naively, यदि f (x, y) = 0, y केवल x का एक कार्य है; तुम बस जी (x) को रखो जहां y है। क्या आप विवश अनुकूलन के साथ ऐसी ही बातें नहीं कर सकते।
21
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.