यदि हाइपरपरमेटर्स ट्यूनिंग करते समय मैं सत्यापन डेटा पर मॉडल के प्रदर्शन का मूल्यांकन करता हूं तो सत्यापन डेटा के बारे में जानकारी क्यों लीक हुई है?


9

पायथन के साथ फ्रांस्वा चोलट की डीप लर्निंग में यह कहा गया है:

परिणामस्वरूप, सत्यापन सेट पर इसके प्रदर्शन के आधार पर मॉडल के कॉन्फ़िगरेशन को ट्यूनिंग करने से सत्यापन सेट पर ओवरफिटिंग हो सकती है, भले ही आपका मॉडल उस पर सीधे प्रशिक्षित न हो।

इस घटना का केंद्र सूचना लीक की धारणा है। हर बार जब आप सत्यापन सेट पर मॉडल के प्रदर्शन के आधार पर अपने मॉडल के हाइपरपैरमीटर को ट्यून करते हैं, तो मॉडल में सत्यापन डेटा लीक के बारे में कुछ जानकारी । यदि आप ऐसा केवल एक बार, एक पैरामीटर के लिए करते हैं, तो बहुत कम जानकारी लीक होगी , और मॉडल का मूल्यांकन करने के लिए आपका सत्यापन सेट विश्वसनीय रहेगा। लेकिन अगर आप इसे कई बार दोहराते हैं - एक प्रयोग चल रहा है, सत्यापन सेट पर मूल्यांकन कर रहा है, और परिणामस्वरूप अपने मॉडल को संशोधित कर रहा है - तो आप मॉडल में सत्यापन सेट के बारे में जानकारी की एक महत्वपूर्ण मात्रा में रिसाव करेंगे।

यदि हाइपरपरमेटर्स ट्यूनिंग करते समय मैं सत्यापन डेटा पर मॉडल के प्रदर्शन का मूल्यांकन करता हूं तो सत्यापन डेटा के बारे में जानकारी क्यों लीक हुई है?


BTW: यह न केवल आप कितनी बार ऐसा करते हैं, बल्कि अनुकूलन के दौरान आपके प्रदर्शन मूल्यांकन (लक्ष्य कार्यात्मक) की यादृच्छिक अनिश्चितता पर भी निर्भर करता है।
21

1
@cbeleites क्षमा करें, इसका क्या मतलब है?
फेबियोमिया

1
यदि ऑप्टिमाइज़ेशन के लिए उपयोग किए गए वैधता परिणाम सही थे (अर्थात न तो व्यवस्थित और न ही यादृच्छिक त्रुटि), तो ऑप्टिमाइज़ेशन वास्तव में इष्टतम मॉडल का चयन करेगा, आपके पास कोई भी ओवरफिटिंग नहीं होगी और चुने हुए मॉडल का एक और स्वतंत्र सही सत्यापन बिल्कुल उसी परिणाम प्राप्त होगा। अनुकूलन तब भी व्यवस्थित त्रुटि (पूर्वाग्रह) को सहन कर सकता है जब तक कि अनुकूलन के दौरान आपके द्वारा भिन्न कारकों के साथ परिवर्तन नहीं होता है। अब विचार करें कि क्या होता है अगर प्रदर्शन अनुमान पर यादृच्छिक त्रुटि (विचरण अनिश्चितता) होती है: आपको सच्चे परफ़ॉर्मेंस "परिदृश्य" के शीर्ष पर शोर मिलता है।
SX

1
यह शोर कुछ हद तक बना सकता है (हाइपरपरमीटर सेटिंग्स) वास्तव में इससे बेहतर है, इसलिए उन हाइपरपरमीटर सेटिंग्स को गलती से चुना जा सकता है (और गलत तरीके से)। संभावना यह है कि ऐसा होता है) क के साथ बढ़ता है जब आप ऐसे प्रदर्शन मूल्यों को देखते हैं और ख) आपके द्वारा सही प्रदर्शन के शीर्ष पर शोर की मात्रा (सच्चे प्रदर्शन में वृद्धि की तुलना में) होती है। यह इस बारे में नहीं है कि सत्यापन परिणामों का पुन: उपयोग डेटा रिसाव क्यों है, लेकिन संबंधित ओवरफिटिंग कैसे होती है और आपको कितनी गंभीर समस्या की उम्मीद करनी चाहिए - इस प्रकार केवल एक टिप्पणी है।
एसएक्स

जवाबों:


11

जानकारी लीक हो गई है क्योंकि आप हाइपर-पैरामीटर विकल्प बनाने के लिए सत्यापन डेटा का उपयोग कर रहे हैं। अनिवार्य रूप से, आप एक जटिल अनुकूलन समस्या पैदा कर रहे हैं: हाइपर-पैरामीटर्स पर नुकसान को कम करनाϕ सत्यापन डेटा के खिलाफ मूल्यांकन के रूप में, जहां ये हाइपर-पैरामीटर एक तंत्रिका नेटवर्क मॉडल को नियमित करते हैं जिसमें पैरामीटर हैं θ एक विशिष्ट प्रशिक्षण सेट के उपयोग से प्रशिक्षित।

भले ही पैरामीटर θ सीधे प्रशिक्षण डेटा, हाइपर-मापदंडों द्वारा सूचित किया जाता है ϕसत्यापन डेटा के आधार पर चुना जाता है। इसके अलावा, क्योंकि हाइपर-पैरामीटरϕ स्पष्ट रूप से प्रभाव θसत्यापन डेटा से जानकारी अप्रत्यक्ष रूप से आपके द्वारा चुने गए मॉडल को प्रभावित कर रही है।


1
पूर्वव्यापी में, यह बहुत स्पष्ट था। लेकिन क्या करता है "यदि आप केवल एक बार, एक पैरामीटर के लिए करते हैं, तो बहुत कम जानकारी लीक होगी" मतलब? वहाँ क्या मतलब है और यह दूसरे मामले के साथ कैसे विपरीत होता है जिसमें "आप इसे कई बार दोहराते हैं"?
फैबियोमिया

4
मान लीजिए कि आप केवल 2 हाइपर-पैरामीटर कॉन्फ़िगरेशन की कोशिश करते हैं, सत्यापन डेटा के खिलाफ प्रदर्शन को मापते हैं, और सबसे अच्छा मॉडल चुनते हैं। एक छोटा सा मौका है कि, अंधे भाग्य से, आप सत्यापन डेटा को ओवरफिट करने में कामयाब रहे। इसके विपरीत, मान लीजिए आप कोशिश करते हैं210हाइपर-पैरामीटर कॉन्फ़िगरेशन और सत्यापन डेटा के आधार पर सर्वश्रेष्ठ मॉडल चुनें। एक बड़ा जोखिम है कि, विशुद्ध रूप से अंधे भाग्य से, आप सत्यापन डेटा को ओवरफिट करने में कामयाब रहे हैं। यह भी देखें: "पथ के पथिक का बगीचा" और शानदार प्रभावों की खोज।
साइकोरैक्स का कहना है कि मोनिका

1
यह सही समझ में आता है। मूल पुस्तक में शब्दांकन सर्वश्रेष्ठ नहीं था। धन्यवाद!
फेबियोमिया

पुस्तक में शब्दांकन उत्कृष्ट है।
माइकल एम

2
आपके लिए यह "उत्कृष्ट" लग सकता है क्योंकि आपको पहले से ही पता है कि लेखक किस बारे में बात कर रहा है। @ साइकोरेक्स की टिप्पणी मेरे लिए बहुत अधिक स्पष्ट और उपयोगी थी।
फैबियोमिया
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.