क्या आप CV / बूटस्ट्रैप का उपयोग करके मशीन लर्निंग एल्गोरिदम द्वारा ओवरफिट कर सकते हैं?


34

यह सवाल एक निश्चित जवाब पाने के लिए अच्छी तरह से खुला हो सकता है, लेकिन उम्मीद नहीं है।

मशीन लर्निंग एल्गोरिदम, जैसे एसवीएम, जीबीएम, रैंडम फॉरेस्ट आदि, आम तौर पर कुछ मुफ्त पैरामीटर होते हैं, जो अंगूठे के मार्गदर्शन के कुछ नियम से परे, प्रत्येक डेटा सेट पर ट्यून करने की आवश्यकता होती है। यह आम तौर पर कुछ प्रकार के री-सैंपलिंग तकनीक (बूटस्ट्रैप, सीवी आदि) के साथ किया जाता है ताकि सर्वोत्तम सामान्यीकरण त्रुटि देने वाले मापदंडों के सेट को फिट किया जा सके।

मेरा सवाल यह है कि क्या आप यहां बहुत दूर जा सकते हैं? लोग ग्रिड खोजों को आगे करने के बारे में बात करते हैं, लेकिन क्यों नहीं इसे केवल एक अनुकूलन समस्या के रूप में माना जाता है और मापदंडों के सर्वोत्तम संभव सेट तक ड्रिल करता है? मैंने इस प्रश्न में इसके कुछ यांत्रिकी के बारे में पूछा , लेकिन इस पर अधिक ध्यान नहीं दिया गया। शायद सवाल बुरी तरह से पूछा गया था, लेकिन शायद सवाल ही एक बुरे दृष्टिकोण का प्रतिनिधित्व करता है जो लोग आमतौर पर नहीं करते हैं?

मुझे क्या परेशान करता है नियमितीकरण की कमी। मैं पुनः नमूना करके यह पता लगा सकता हूं कि इस डेटा सेट के लिए GBM में पेड़ों की सबसे अच्छी संख्या 647 है, जिसमें 4 की सहभागिता गहराई है, लेकिन मैं यह कैसे सुनिश्चित कर सकता हूं कि यह नए डेटा का सच होगा (नई आबादी को मानते हुए प्रशिक्षण सेट के समान है)? 'हटना' (या यदि आप करेंगे, तो कोई जानकारीपूर्ण पूर्व सूचना नहीं) के लिए उचित मूल्य के साथ पुन: नमूने सबसे अच्छा लगता है जैसे हम कर सकते हैं। मुझे अभी इस बारे में कोई बात नहीं सुनाई देती है, इसलिए मुझे आश्चर्य होता है कि क्या कोई ऐसी चीज़ है जो मुझे याद आ रही है।

स्पष्ट रूप से एक बड़ी कम्प्यूटेशनल लागत है जो एक मॉडल से बाहर हर आखिरी बिट की भविष्यवाणी करने के लिए कई पुनरावृत्तियों को करने से जुड़ी है, इसलिए स्पष्ट रूप से यह कुछ ऐसा है जिसे आप अनुकूलन और हर बार करने के लिए समय / ग्रन्ट मिला है प्रदर्शन में सुधार मूल्यवान है।


सीवी का उपयोग विभिन्न चीजों के लिए किया जा सकता है। स्पष्ट होने के लिए, जब आप 'ग्रिड खोज' या 'हाइपरपैरेट ट्यूनिंग' कहते हैं, तो आप मॉडल चयन के बारे में बात कर रहे हैं , सुविधा चयन नहीं , या केवल वर्गीकरण त्रुटि का अनुमान लगा रहे हैं।
एसएमसीआई

जवाबों:


30

इस सवाल का एक निश्चित उत्तर है जो "हाँ, यह निश्चित रूप से एक क्रॉस-मान्यता आधारित मॉडल चयन मानदंड को खत्म करने और एक मॉडल के साथ समाप्त होने के लिए संभव है जो सामान्य रूप से खराब होता है! "। मेरे विचार में, यह व्यापक रूप से सराहा नहीं जाता है, लेकिन मशीन सीखने के तरीकों के अनुप्रयोग में एक बड़ा नुकसान है, और यह मेरे वर्तमान शोध का मुख्य केंद्र बिंदु है; मैंने अब तक इस विषय पर दो पत्र लिखे हैं

GC Cawley और NLC टैलबोट, मॉडल चयन में ओवर-फिटिंग और प्रदर्शन मूल्यांकन में बाद के चयन पूर्वाग्रह, जर्नल ऑफ मशीन लर्निंग रिसर्च, 2010। रिसर्च, वॉल्यूम। 11, पीपी। 2079-2107, जुलाई 2010. ( www )

जो दर्शाता है कि मॉडल चयन में ओवर-फिटिंग मशीन सीखने में एक महत्वपूर्ण समस्या है (और यदि आप प्रदर्शन मूल्यांकन के दौरान मॉडल चयन में कोनों को काटते हैं तो आप गंभीर रूप से पक्षपाती प्रदर्शन अनुमान प्राप्त कर सकते हैं) और

GC Cawley और NLC टैलबोट, हाइपर-मापदंडों के बेसेसियन नियमितीकरण के माध्यम से मॉडल चयन में ओवर-फिटिंग को रोकना, जर्नल ऑफ़ मशीन लर्निंग रिसर्च, वॉल्यूम 8, पृष्ठ 841-861, अप्रैल 2007। ( www )

जहां क्रॉस-वेलिडेशन आधारित मॉडल चयन मानदंड को मॉडल चयन में पर्याप्त ओवर-फिटिंग की कोशिश करने के लिए नियमित किया जाता है (जो कि कई हाइपर-मापदंडों के साथ कर्नेल का उपयोग करने पर एक महत्वपूर्ण समस्या है)।

मैं इस समय ग्रिड-खोज आधारित मॉडल चयन पर एक पेपर लिख रहा हूं, जो दर्शाता है कि एक ग्रिड का उपयोग करना निश्चित रूप से संभव है जो बहुत ही ठीक है जहां आप एक मॉडल के साथ अंत में हैं जो कि एक मॉडल द्वारा बहुत हद तक चयनित मॉडल से हीन है मोटे ग्रिड (यह StackExchange पर एक प्रश्न था जिसने मुझे ग्रिड-खोज में देखने के लिए प्रेरित किया)।

उम्मीद है की यह मदद करेगा।

पीएस निष्पक्ष प्रदर्शन मूल्यांकन और विश्वसनीय मॉडल चयन वास्तव में कम्प्यूटेशनल रूप से महंगा हो सकता है, लेकिन मेरे अनुभव में यह अच्छी तरह से सार्थक है। नेस्ट क्रॉस-वेलिडेशन, जहां बाहरी क्रॉस-वेलिडेशन का उपयोग प्रदर्शन आकलन के लिए किया जाता है और मॉडल चयन के लिए आंतरिक क्रॉस-वेलिडेशन एक अच्छा बुनियादी दृष्टिकोण है।


उत्तम! लगता है कि उन कागजों में वही है जो मैं था। उसके लिए धन्यवाद।
बोगडानोविस्ट

मुझे बताएं कि क्या आपके पास कागजात के बारे में कोई सवाल है (ईमेल के माध्यम से - मैं पहला लेखक हूं और मेरा ईमेल पता कागज पर है)।
डिक्रान मार्सुपियल

@DikranMarsupial आप मॉडल चयन और ट्रेन और टेस्ट सेट के बीच बेमेल नमूने के कारण ओवरफिटिंग को कैसे भेदते हैं?
image_doctor

1
सिद्धांत रूप में, एक सिंथेटिक डेटासेट का उपयोग करना जहां जमीनी सच्चाई उपलब्ध है, फिर यह सीधे-आगे है, क्योंकि तब कोई नमूना बेमेल नहीं है; प्रशिक्षण सेट अंतर्निहित वितरण से सिर्फ एक यादृच्छिक नमूना है और आप परिमित नमूने के बजाय वितरण से त्रुटि का अनुमान लगा सकते हैं। वास्तविक-शब्द डेटासेट्स के लिए, हालांकि AFAICS सबसे अच्छा आप प्रबंधित कर सकते हैं, जो रेज़मैपलिंग का उपयोग करना है और कई यादृच्छिक परीक्षण / प्रशिक्षण विभाजन से अधिक मॉडल चयन मानदंड के प्रभावों को निर्धारित करना है।
डिक्रान मार्सुपियल

2
अफसोस की बात है कि इसे अस्वीकार कर दिया गया था, लेकिन मैं इसे समीक्षकों (बहुत उपयोगी) टिप्पणियों को ध्यान में रखते हुए संशोधित करूंगा और इसे किसी अन्य पत्रिका में फिर से भेजूंगा।
डिक्रान मार्सुपियल

7

क्रॉस सत्यापन और बूटस्ट्रैप को त्रुटि दर के अनुमान देने के लिए दिखाया गया है जो लगभग निष्पक्ष हैं और कुछ मामलों में क्रॉस-सत्यापन पर बूटस्ट्रैप द्वारा अधिक सटीक रूप से। पुनर्जीवन जैसी अन्य विधियों के साथ समस्या यह है कि उसी डेटा सेट पर त्रुटि का अनुमान लगाने से जो आप के साथ क्लासिफायर फिट करते हैं, वह त्रुटि दर को कम कर सकता है और एल्गोरिदम के लिए नेतृत्व किया जा सकता है जिसमें बहुत सारे पैरामीटर शामिल हैं और भविष्य के मूल्यों का सटीक अनुमान नहीं लगाएगा। एक एल्गोरिथ्म मापदंडों के एक छोटे से सेट के लिए फिट है। सांख्यिकीय विधियों के उपयोग की कुंजी यह है कि आपके पास जो क्लासिफायरियर है, वह डेटा आपके द्वारा देखे जाने वाले डेटा का विशिष्ट है जहां भविष्य में कक्षाएं गायब हैं और क्लासिफायरियर द्वारा भविष्यवाणी की जानी चाहिए। अगर आपको लगता है कि भविष्य का डेटा बहुत अलग हो सकता है तो सांख्यिकीय तरीके मदद नहीं कर सकते हैं और मैं डॉन '


जवाब के लिए धन्यवाद। मैंने इस प्रश्न को स्पष्ट करने के लिए संपादित किया है कि मैं ट्रेन और परीक्षण सेटों के बीच आबादी में बदलाव के बारे में नहीं पूछ रहा हूं। मुझे लगता है कि यह एक अलग सवाल है कि मुझे इस सवाल में कोई दिलचस्पी नहीं है।
बोगदानोविस्ट

1
+1 इस मामले में निष्पक्षता अनिवार्य रूप से अप्रासंगिक है। क्रॉस-वैलिडेशन अनुमान का विचरण एक समस्या का बहुत अधिक हो सकता है। एक मॉडल चयन मानदंड के लिए आप कसौटी की न्यूनतम आवश्यकता होने के लिए मज़बूती से सामान्यीकरण त्रुटि की न्यूनतम के करीब (अति मापदंडों के एक समारोह के रूप में)। अगर यह सही जगह पर है, तो इसका कोई फायदा नहीं है, लेकिन डेटा के अलग-अलग महीन नमूनों के मिनीमा फ्रोर के फैलने से सभी जगह ऐसा ही होता है।
डिक्रान मार्सुपियल

1
बेशक सटीकता पूर्वाग्रह और विचरण का एक संयोजन है और एक बड़े विचरण के साथ एक निष्पक्ष अनुमान एक छोटे से विचरण के साथ थोड़ा पक्षपाती अनुमानक जितना अच्छा नहीं है। त्रुटि दर का नीव अनुमान पुनर्जीवन है और इसमें एक बड़ा पूर्वाग्रह है। बूटस्ट्रैप 632 और 632+ इतनी अच्छी तरह से काम करते हैं क्योंकि वे पूर्वाग्रह के बिना समायोजन के लिए एक अच्छा काम करते हैं। यही कारण है कि रैखिक विभेदक कार्यों और द्विघात विभेदक कार्यों के लिए वे क्रॉस-सत्यापन के अवकाश-एक-आउट संस्करण की तुलना में बहुत बेहतर काम करते हैं।
माइकल आर। चेर्निक

वर्गीकरण पेड़ के साथ बूटस्ट्रैप को बेहतर करने के लिए प्रदर्शन नहीं किया गया है।
माइकल आर। चेर्निक

1
शायद कठिनाइयों में से एक यह है कि ओवर-फिटिंग का मतलब अक्सर मशीन सीखने और आंकड़ों में अलग-अलग चीजें होती हैं। यह मुझे लगता है कि सांख्यिकीविद कभी-कभी ज़रूरत से ज़्यादा मापदंडों वाले एक मॉडल का उपयोग करने के लिए ओवर-फिटिंग का उपयोग करते हैं, बजाय इसके कि यह बहुत हद तक टिप्पणियों के करीब है (जैसा कि प्रशिक्षण मानदंड द्वारा मापा जाता है)। मैं सामान्य रूप से उस स्थिति में "ओवर-पैरामीटराइज़्ड" का उपयोग करूंगा, और "ओवर-फिट" का उपयोग करने का मतलब होगा कि एक मॉडल को सामान्यीकरण प्रदर्शन की कीमत पर टिप्पणियों के बहुत करीब से फिट किया गया है। शायद यह वह जगह है जहां हम क्रॉस-उद्देश्यों पर बात कर रहे हैं?
डिक्रान मार्सुपियल

4

मुझे यहां एक उत्तर पर संदेह है कि अनुकूलन के संदर्भ में, आप जो खोजने की कोशिश कर रहे हैं वह एक noisyलागत समारोह पर वैश्विक न्यूनतम है। इसलिए आपके पास बहु-आयामी वैश्विक अनुकूलन के साथ-साथ लागत समारोह में एक स्टोकेस्टिक घटक की सभी चुनौतियां हैं।

स्थानीय मिनीमा की चुनौतियों से निपटने के लिए कई दृष्टिकोण और एक महंगी खोज स्थान के पास खुद पैरामीटर हैं जो ट्यूनिंग की आवश्यकता हो सकती है, जैसे कि नकली एनालिंग या मोंटे कार्लो तरीके।

एक आदर्श, कम्प्यूटेशनल रूप से अनबाउंड ब्रह्मांड में, मुझे संदेह है कि आप त्रुटि फ़ंक्शन के अपने अनुमान के पूर्वाग्रह और विचरण पर उपयुक्त तंग सीमाओं के साथ अपने पैरामीटर स्थान का वैश्विक न्यूनतम खोजने का प्रयास कर सकते हैं। क्या यह परिदृश्य नियमितीकरण एक मुद्दा नहीं होगा क्योंकि आप विज्ञापन का पुन: नमूना ले सकते हैं।

वास्तविक दुनिया में मुझे संदेह है कि आप आसानी से खुद को स्थानीय न्यूनतम में पा सकते हैं।

जैसा कि आप उल्लेख करते हैं, यह एक अलग मुद्दा है, लेकिन यह अभी भी आपको आपके लिए उपलब्ध आंकड़ों से जुड़े नमूनाकरण मुद्दों के कारण ओवरफिटिंग के लिए खुला छोड़ देता है और यह नमूना स्थान के वास्तविक अंतर्निहित वितरण के साथ संबंध है।


4

यह दृढ़ता से एल्गोरिथ्म पर निर्भर करता है, लेकिन आप निश्चित रूप से कर सकते हैं - हालांकि ज्यादातर मामलों में यह प्रयास का एक सौम्य अपशिष्ट होगा।

f(x)xxoptf(x)+ϵϵxfXoptxoptf+ϵ

xoptXoptXoptf

f

इस प्रकार, अच्छी तरह से, (अच्छी पत्रिकाओं में मौजूद प्रथाओं पर आधारित) पूर्ण, पैरामीटर चयन की बाहरी मान्यता कुछ ऐसा नहीं है जिसे आपको सख्ती से करना है (सुविधा चयन को मान्य करने के विपरीत), लेकिन केवल तभी जब अनुकूलन सरसरी हो और क्लासिफायर के बजाय असंवेदनशील हो पैरामीटर।


4

हाँ, मापदंडों को पारगमन या बूटस्ट्रैपिंग के दौरान प्रशिक्षण और परीक्षण सेट पर "ओवरफिट" किया जा सकता है। हालांकि, इसे रोकने के लिए कुछ तरीके हैं। पहला सरल तरीका है, आप अपने डेटासेट को 3 विभाजनों में विभाजित करते हैं, एक परीक्षण के लिए (~ 20%), एक परीक्षण अनुकूलित मापदंडों के लिए (~ 20%) और एक सेट पैरामीटर के साथ क्लासिफायर फिटिंग के लिए। यह केवल तभी संभव है जब आपके पास काफी बड़े डेटासेट हों। अन्य मामलों में डबल क्रॉसवेलाइडेशन का सुझाव दिया गया है।

रोमेन फ्रैंकोइस और फ्लोरेंट लैंगरोगनेट, "मॉडल आधारित वर्गीकरण के लिए डबल क्रॉस सत्यापन", 2006

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.