हाइपरपरमेटर ट्यूनिंग क्रॉस-वेलिडेशन के बाहर कितना बुरा है?


20

मुझे पता है कि क्रॉस-वैलिडेशन के बाहर हाइपरपैरेट ट्यूनिंग करने से बाहरी वैधता का पक्षपाती-उच्च अनुमान हो सकता है, क्योंकि प्रदर्शन को मापने के लिए आप जो डेटासेट का उपयोग करते हैं, वही आप सुविधाओं को ट्यून करने के लिए उपयोग करते हैं।

मैं सोच रहा हूँ कि यह एक समस्या का कितना बुरा है । मैं समझ सकता हूं कि फीचर चयन के लिए यह वास्तव में कितना बुरा होगा, क्योंकि यह आपको ट्यून करने के लिए बड़ी संख्या में पैरामीटर देता है। लेकिन क्या होगा यदि आप LASSO (जिसमें केवल एक पैरामीटर, नियमितीकरण शक्ति है), या सुविधा चयन के बिना एक यादृच्छिक जंगल (जैसे कुछ पैरामीटर हो सकते हैं लेकिन शोर सुविधाओं को जोड़ने / छोड़ने के रूप में नाटकीय रूप में कुछ भी नहीं हो सकता है) का उपयोग कर रहे हैं?

इन परिदृश्यों में, आप अपने प्रशिक्षण त्रुटि के अनुमान के बारे में कितनी आशावादी हो सकते हैं?

मैं इस पर किसी भी जानकारी की सराहना करता हूँ - मामले का अध्ययन, कागज, उपाख्यान, आदि धन्यवाद!

संपादित करें: स्पष्ट करने के लिए, मैं प्रशिक्षण डेटा पर मॉडल प्रदर्शन का अनुमान लगाने के बारे में बात नहीं कर रहा हूं (यानी, क्रॉस सत्यापन का उपयोग नहीं कर रहा हूं )। "क्रॉस-वैलिडेशन के बाहर हाइपरपैरेट ट्यूनिंग" से मेरा मतलब है कि केवल प्रत्येक व्यक्तिगत मॉडल के प्रदर्शन का अनुमान लगाने के लिए क्रॉस-वैलिडेशन का उपयोग करना, लेकिन हाइपरपैरेट ट्यूनिंग प्रक्रिया के भीतर सही करने के लिए एक बाहरी, दूसरा क्रॉस-वैलिडेशन लूप शामिल नहीं है (जैसा कि अलग है) प्रशिक्षण प्रक्रिया के दौरान ओवरफिटिंग)। उदाहरण यहाँ देखें ।

जवाबों:


17

इस पूर्वाग्रह के प्रभाव बहुत महान हो सकते हैं। इसका एक अच्छा प्रदर्शन खुली मशीन सीखने की प्रतियोगिताओं द्वारा दिया जाता है जो कुछ मशीन सीखने के सम्मेलनों में शामिल होते हैं। इनमें आमतौर पर एक प्रशिक्षण सेट, एक सत्यापन सेट और एक परीक्षण सेट होता है। प्रतियोगियों को सत्यापन सेट या परीक्षण सेट (स्पष्ट रूप से) के लिए लेबल देखने को नहीं मिलते हैं। सत्यापन सेट का उपयोग एक लीडरबोर्ड पर प्रतियोगियों की रैंकिंग को निर्धारित करने के लिए किया जाता है जिसे हर कोई देख सकता है जबकि प्रतियोगिता प्रगति पर है। परीक्षण डेटा के आधार पर अंतिम रैंकिंग में प्रतियोगिता के अंत में लीडरबोर्ड के प्रमुख के लिए यह बहुत सामान्य है। इसका कारण यह है कि उन्होंने लीडरबोर्ड पर अपने प्रदर्शन को अधिकतम करने के लिए अपनी सीखने की प्रणालियों के लिए हाइपर-मापदंडों को ट्यून किया है और ऐसा करने में सत्यापन डेटा को ओवर-फिट किया हैउनके मॉडल को ट्यून करके। अधिक अनुभवी उपयोगकर्ता लीडरबोर्ड पर कम या कोई ध्यान नहीं देते हैं और अपनी कार्यप्रणाली का मार्गदर्शन करने के लिए अधिक कठोर निष्पक्ष प्रदर्शन अनुमानों को अपनाते हैं।

मेरे पेपर में उदाहरण (जैक्स द्वारा उल्लिखित) से पता चलता है कि इस तरह के पूर्वाग्रह के प्रभाव एक ही तरह के आकार के हो सकते हैं, जैसे कि एल्गोरिदम सीखने के बीच का अंतर, इसलिए यदि आप हैं तो संक्षिप्त उत्तर पक्षपाती प्रदर्शन मूल्यांकन प्रोटोकॉल का उपयोग नहीं करते हैं। वास्तव में यह पता लगाने में रुचि रखता है कि क्या काम करता है और क्या नहीं। मूल नियम है "मॉडल चयन (जैसे हाइपर-पैरामीटर ट्यूनिंग) को मॉडल फिटिंग प्रक्रिया का एक अभिन्न अंग मानते हैं, और इसमें प्रदर्शन मूल्यांकन के लिए उपयोग किए जाने वाले क्रॉस-सत्यापन के प्रत्येक तह में शामिल हैं)।

तथ्य यह है कि सुविधा चयन की तुलना में नियमितीकरण ओवर-फिटिंग के लिए कम प्रवण होता है, यही कारण है कि LASSO आदि फीचर चयन के अच्छे तरीके हैं। हालांकि, पूर्वाग्रह का आकार सुविधाओं की संख्या, डेटासेट के आकार और सीखने के कार्य की प्रकृति पर निर्भर करता है (यानी एक ऐसा तत्व है जो किसी विशेष डेटासेट पर निर्भर करता है और आवेदन से आवेदन के लिए भिन्न होगा)। इस पर डेटा-निर्भर प्रकृति का अर्थ है कि आप निष्पक्ष प्रोटोकॉल का उपयोग करके पूर्वाग्रह के आकार का अनुमान लगाने से बेहतर हैं और अंतर की तुलना करते हुए (रिपोर्टिंग है कि इस विशेष मामले में मॉडल चयन में ओवर-फिटिंग के लिए मजबूत है ब्याज की हो सकती है) अपने आप में)।

GC Cawley and NLC Talbot (2010), "मॉडल चयन में ओवर-फिटिंग और प्रदर्शन मूल्यांकन में बाद के चयन पूर्वाग्रह", जर्नल ऑफ़ मशीन लर्निंग रिसर्च, 11, p.2079, अनुभाग 5.2। "


7
  • आप जिस पूर्वाग्रह की बात कर रहे हैं, वह अभी भी मुख्य रूप से ओवरफिटिंग से जुड़ा है।
  • आप नियमितीकरण हाइपरपैरेट के निर्धारण के लिए केवल बहुत ही कम मॉडलों का मूल्यांकन करके जोखिम को कम रख सकते हैं और प्रशंसनीय विकल्प के भीतर कम जटिलता के लिए जा रहे हैं।

  • जैसा कि @MarcClaesen बताते हैं, आपके पास सीखने की अवस्था है, जो कुछ हद तक पूर्वाग्रह को कम करेगी। लेकिन सीखने की अवस्था आम तौर पर केवल बहुत कम मामलों के लिए खड़ी होती है, और फिर ओवरफिटिंग भी एक समस्या है।

अंत में, मैं पूर्वाग्रह से बहुत कुछ निर्भर करना चाहूंगा

  • डेटा (यह एक univariate समस्या overfit करने के लिए मुश्किल है ...) और
  • आपका अनुभव और मॉडलिंग व्यवहार: मुझे लगता है कि यह संभव है कि आप अपने मॉडल के लिए लगभग उपयुक्त जटिलता पर निर्णय लेंगे, यदि आपके पास मॉडल के प्रकार और एप्लिकेशन दोनों के साथ पर्याप्त अनुभव है और यदि आप बहुत अच्छा व्यवहार करते हैं और उपज नहीं देते हैं अधिक जटिल मॉडल के लिए प्रलोभन। लेकिन निश्चित रूप से, हम आपको नहीं जानते हैं और इसलिए यह नहीं आंक सकते हैं कि आपका मॉडलिंग कितना रूढ़िवादी है।
    इसके अलावा, यह मानते हुए कि आपका फैंसी सांख्यिकीय मॉडल अत्यधिक व्यक्तिपरक है और आपके पास एक सत्यापन करने के लिए मामले नहीं बचे हैं, आमतौर पर वह नहीं है जो आप चाहते हैं। (उन स्थितियों में भी नहीं जहां समग्र परिणाम बेहतर होने की उम्मीद है।)

मैं LASSO का उपयोग नहीं करता हूं (चूंकि चर चयन भौतिक कारणों से मेरे डेटा के लिए बहुत मायने नहीं रखता है), लेकिन पीसीए या पीएलएस आमतौर पर अच्छी तरह से काम करते हैं। एक रिज एक विकल्प होगा जो LASSO के करीब है और डेटा के प्रकार के लिए अधिक उपयुक्त है। इन आंकड़ों के साथ, मैंने "शॉर्टकट-सत्यापन" बनाम उचित स्वतंत्र (बाहरी) सत्यापन सत्यापन पर अधिक मिसकैरेज का क्रम देखा है। इन चरम स्थितियों में, हालांकि, मेरा अनुभव कहता है कि शॉर्टकट-सत्यापन संदेहास्पद रूप से अच्छा लग रहा था, उदाहरण के लिए, उचित क्रॉस सत्यापन के साथ 2% गर्भपात => 20%।

मैं आपको वास्तविक संख्या नहीं दे सकता, जो सीधे आपके प्रश्न पर लागू होती है, हालांकि:

  • अब तक, मैंने अपने क्षेत्र में होने वाले अन्य प्रकार के "शॉर्टकट" के बारे में अधिक ध्यान दिया और डेटा लीक की ओर अग्रसर हुआ, उदाहरण के लिए रोगियों (विशाल पूर्वाग्रह) के बजाय वर्णक्रम को पार करना! मैं आपको 10% गर्भपात दिखा सकता हूं -> 70% = आपस में जुड़ना! 3 वर्गों), या क्रॉस सत्यापन में पीसीए को शामिल नहीं (2 - 5% -> 20 - 30%)।
  • उन स्थितियों में जहां मुझे यह तय करना है कि क्या मैं जो एक क्रॉस वेलिडेशन ले सकता हूं, वह मॉडल ऑप्टिमाइज़ेशन या वैलिडेशन पर खर्च किया जा सकता है या नहीं, मैं हमेशा सत्यापन के लिए तय करता हूं और अनुभव द्वारा जटिलता पैरामीटर को ठीक करता हूं। पीसीए और पीएलएस नियमितीकरण तकनीकों के रूप में अच्छी तरह से काम करते हैं, यह सम्मान है क्योंकि जटिलता पैरामीटर (# घटक) समस्या के भौतिक / रासायनिक गुणों से सीधे संबंधित है (उदाहरण के लिए मुझे एक अच्छा अनुमान हो सकता है कि मैं रासायनिक रूप से कितने अलग-अलग पदार्थ समूहों से बात करता हूं)। इसके अलावा, भौतिक-रासायनिक कारणों से मुझे पता है कि घटकों को स्पेक्ट्रा की तरह कुछ दिखना चाहिए और अगर वे शोर कर रहे हैं, तो मैं ओवरफिट कर रहा हूं। लेकिन अनुभव एक पिछले प्रयोग से निर्धारित पुराने डेटा पर मॉडल जटिलता का अनुकूलन भी हो सकता है जो हाइपरपैरमीटर को स्थानांतरित करने के लिए सामान्य रूप से पर्याप्त है और फिर बस उपयोगनए डेटा के लिए नियमितीकरण पैरामीटर।
    इस तरह, मैं इष्टतम मॉडल के लिए दावा नहीं कर सकता, लेकिन मैं उस प्रदर्शन का उचित अनुमान लगाने का दावा कर सकता हूं जो मुझे मिल सकता है।
    और मेरे पास रोगी संख्या के साथ, सांख्यिकीय रूप से सार्थक मॉडल तुलना करना असंभव है (याद रखें, मेरा कुल रोगी संख्या एक एकल अनुपात का अनुमान लगाने के लिए अनुशंसित नमूना आकार के नीचे है [अंगूठे के नियम के अनुसार @FrankHarreb देता है])।

आप कुछ सिमुलेशन क्यों नहीं चलाते हैं जो आपके डेटा के जितना संभव हो उतना करीब हैं और हमें बताएं कि क्या होता है?


मेरे डेटा के बारे में: मैं स्पेक्ट्रोस्कोपिक डेटा के साथ काम करता हूं। डेटा सेट आम तौर पर व्यापक होते हैं: कुछ दसियों स्वतंत्र मामले (मरीज; आमतौर पर प्रति मामले में बहुत सारे माप। सीए। 10³ कच्चे डेटा में भिन्न होते हैं, जो मैं बिन ज्ञान के क्षेत्रों में कटौती करने के लिए डोमेन ज्ञान को लागू करके 250 को कम करने में सक्षम हो सकता हूं। मेरे स्पेक्ट्रा से बाहर और वर्णक्रमीय संकल्प को कम करने के लिए।


5

यदि आप केवल LASSO के लिए हाइपरपरमीटर का चयन कर रहे हैं , तो एक नेस्टेड CV की कोई आवश्यकता नहीं है। हाइपर-पैरामीटर चयन एकल / फ्लैट सीवी इंटरैक्शन में किया जाता है।

यह देखते हुए कि आपने पहले से ही LASSO का उपयोग करने का निर्णय लिया है और यह देखते हुए कि आपने पहले ही तय कर लिया है कि अल्गोरिद्म को रखने और देने के लिए कौन सी सुविधाएँ हैं (LASSO संभवतः कुछ सुविधाओं को हटा देगा लेकिन यह कि LASSO ऑप्टिमाइज़ेशन आपका निर्णय नहीं है) केवल एक चीज बची है। hyperparameter चुनने के लिए , और आप एक फ्लैट / सिंगल CV के साथ क्या करेंगे:λ

1) डेटा को प्रशिक्षण में विभाजित करके लर्निंग को सेट और को सेट और को जो संबंधित साथ प्रशिक्षित होने पर सभी लिए माध्य त्रुटि को कम करता है ।T i λ T i L iLiTiλTiLi

2) आपकी हाइपरपैरमीटर का विकल्प है। किया हुआ।λ

(यह हाइपरपरमेटर्स का चयन करने का एकमात्र तरीका नहीं है, लेकिन यह सबसे आम है - जीसी केवली और एनएलसी टैलबोट (2010) द्वारा चर्चा की गई और "आलोचना" की "माध्यियन" प्रक्रिया भी है , "मॉडल चयन और बाद के चयन पूर्वाग्रह में ओवर-फिटिंग प्रदर्शन मूल्यांकन में ", मशीन लर्निंग रिसर्च के जर्नल, 11 , p.2079 , अनुभाग 5.2।"

जो मैं आपसे पूछ रहा हूं वह यह है: चरण 1 में गणना की गई त्रुटि का उपयोग करना कितना बुरा है (न्यूनतम त्रुटि जो मुझे का चयन करने की अनुमति देती है ) उस साथ वर्गीकृत के सामान्यीकरण त्रुटि के अनुमान के रूप में। भविष्य के डेटा के लिए? यहाँ आप हाइपर-पैरामीटर चयन नहीं अनुमान के बारे में बात कर रहे हैं !!λ *λλ

मुझे इस अनुमान के पूर्वाग्रह को मापने में दो प्रयोगात्मक परिणामों का पता है (सिंथेटिक डेटासेट के लिए एक सामान्य सामान्यीकरण त्रुटि की तुलना में)

दोनों खुली पहुँच।

आपको एक नेस्टेड सीवी चाहिए अगर:

क) आप एक LASSO और कुछ अन्य एल्गोरिदम के बीच चयन करना चाहते हैं, विशेष रूप से अगर उनके पास हाइपरपरमेटर्स भी हैं

ख) यदि आप अपने अंतिम क्लासिफायर / LASSO के साथ अपेक्षित सामान्यीकरण त्रुटि / सटीकता की निष्पक्ष अनुमान रिपोर्ट करना चाहते हैं (* लैम्बडा )।λ

वास्तव में नेस्टेड सीवी का उपयोग एक क्लासिफायरियर के सामान्यीकरण त्रुटि के एक निष्पक्ष अनुमान की गणना करने के लिए किया जाता है (हाइपरपरमेटर्स की सबसे अच्छी पसंद के साथ - लेकिन आपको यह जानने की जरूरत नहीं है कि हाइपरपरमेटर्स के मूल्य क्या हैं)। यह वह है जो आपको LASSO के बीच निर्णय लेने और एक SVM-RBF कहने की अनुमति देता है - सबसे अच्छा सामान्यीकरण त्रुटि वाले को चुना जाना चाहिए। और यह सामान्यीकरण त्रुटि वह है जिसे आप रिपोर्ट करने के लिए उपयोग करते हैं बी) (जो कि आश्चर्य की बात है, बी में) आप पहले से ही सबसे अच्छा हाइपरपैरमीटर - का मूल्य जानते हैं - लेकिन नेस्टेड सीवी प्रक्रिया उस जानकारी का उपयोग नहीं करती है)।λ

अंत में, नेस्टेड सीवी सामान्य सामान्यीकरण त्रुटि के एक उचित निष्पक्ष अनुमान की गणना करने का एकमात्र तरीका नहीं है। कम से कम तीन अन्य प्रस्ताव आए हैं


2
क्या आप समझा सकते हैं कि "हाइपरपरमेटर चयन के लिए कोई सीवी नहीं है" से आपका क्या मतलब है? आप जो लिखते हैं उससे मैं यह नहीं समझ सकता कि क्या आप ओपी को चेतावनी देना चाहते हैं कि वे नेस्टिंग नहीं करते थे, या क्या आप कहते हैं कि सामान्य रूप से ऐसी कोई चीज मौजूद नहीं है।
cbeleites ने मोनिका

(+1) मुद्दे और अच्छे संदर्भों के संक्षिप्त विवरण के लिए। लेकिन, जैसा कि @cbeleites बताते हैं, पहला वाक्य भ्रमित करने वाला है: ऐसा लगता है कि ओपी के पास गलतफहमी को ठीक करने का इरादा नहीं है।
Scortchi - को पुनः स्थापित मोनिका

@cbeleites (और Scortchi) - मैं ओपी को "EDIT:" का जवाब दे रहा हूं जहां (मुझे विश्वास है) वह दावा करता है कि वह मापदंडों का चयन करने के लिए CV का उपयोग कर रहा है ("केवल प्रत्येक व्यक्तिगत मॉडल के प्रदर्शन का अनुमान लगाने के लिए क्रॉस-वैधीकरण",)) वह चिंतित है कि उसने एक नेस्टेड सीवी का उपयोग नहीं किया ("लेकिन हाइपरपरमेटर ट्यूनिंग प्रक्रिया के भीतर सही करने के लिए एक बाहरी, दूसरे क्रॉस-सत्यापन लूप को शामिल नहीं किया गया")। मैं उसे यह बताने की कोशिश कर रहा था कि पैरामीटर चयन में कोई बाहरी सीवी नहीं है।
जैक्स वेनर

@JacquesWainer: मेरा मानना ​​है कि वह प्रक्रिया के आउट-ऑफ-सैंपल प्रदर्शन (आपकी स्थिति b ) का आकलन करते समय "हाइपरपरमीटर ट्यूनिंग प्रक्रिया के भीतर ओवरफिटिंग के लिए सही" चाहता है , बजाय इसके कि किसी तरह नेस्टेड सीवी का उपयोग करके हाइपरमीटर के चयनित मूल्य को सही किया जाए। किसी भी दर पर, आपका संपादन आपके उत्तर की शुरुआत को स्पष्ट बनाता है।
Scortchi - को पुनः स्थापित मोनिका

हां, मेरा मतलब था "हाइपरपरमेटर ट्यूनिंग प्रक्रिया के भीतर ओवरफिटिंग के लिए [भोले प्रदर्शन का अनुमान] सही करना", "ओवरफिटिंग के लिए [ट्यूनड हाइपरपरमेटर्स] सही करने के लिए" या ऐसा कुछ भी नहीं। मैं उलझन के लिए माफी चाहता हूँ; मुझे अधिक स्पष्ट रूप से कहा जाना चाहिए कि मैं त्रुटि अनुमान के बारे में चिंतित था, पैरामीटर चयन नहीं।
बेन कुह्न

2

कोई भी जटिल शिक्षण एल्गोरिथ्म, जैसे एसवीएम, न्यूरल नेटवर्क, रैंडम फॉरेस्ट, ... 100% प्रशिक्षण सटीकता प्राप्त कर सकते हैं यदि आप उन्हें (उदाहरण के लिए कमजोर / बिना किसी नियमितीकरण के), परिणामस्वरूप बिल्कुल सामान्यीकरण प्रदर्शन करते हैं।

उदाहरण के लिए, RBF कर्नेल साथ एक SVM का उपयोग करने देता है। । के लिए (या कुछ हास्यास्पद उच्च संख्या), गिरी मैट्रिक्स इकाई मैट्रिक्स हो जाता है। यह प्रशिक्षण सेट सटीकता और निरंतर परीक्षण सेट भविष्यवाणियों (जैसे सभी सकारात्मक या सभी नकारात्मक, पूर्वाग्रह पर निर्भर करता है) के साथ एक मॉडल में परिणाम देता है ।γ = 100 %κ(xi,xj)=exp(γxixj2)γ=100%

संक्षेप में, आप आसानी से अपने प्रशिक्षण सेट पर एक आदर्श क्लासिफायर के साथ समाप्त हो सकते हैं, जो कि स्वतंत्र परीक्षण सेट पर बिल्कुल उपयोगी नहीं है। यह कितना बुरा है।


मैं क्रॉस-सत्यापन के बाहर मॉडल को प्रशिक्षित करने के बारे में बात नहीं कर रहा हूं । मैं हाइपरपैरमीटर (और अभी भी हाइपरपरमेटर के प्रत्येक सेट के प्रदर्शन का अनुमान लगाने के लिए क्रॉस-मान्यता का उपयोग करके) ट्यूनिंग के बारे में बात कर रहा हूं । मैं यह स्पष्ट करने के लिए पोस्ट को संपादित करूँगा।
बेन कुह्न

यही मेरा सवाल है। यदि आप क्रॉस-सत्यापन नहीं करते हैं, तो आप कुछ मामलों में सटीकता और बेकार सामान्यीकरण प्रदर्शन देने वाले हाइपरपैरामीटर के साथ समाप्त हो जाएंगे100%
मार्क क्लेसेन

आपको क्या लगता है कि मैं क्रॉस-वैलिडेशन का उपयोग नहीं करने पर विचार कर रहा हूं? मैंने विशेष रूप से कहा, "... और अभी भी हाइपरपरमेटर्स के प्रत्येक सेट के प्रदर्शन का अनुमान लगाने के लिए क्रॉस-मान्यता का उपयोग कर रहा हूं।"
बेन कुह्न

1
आपके SVM ​​उदाहरण में, हाइपरपरमीटर सेटिंग हाइपरपरेटेट खोज प्रक्रिया द्वारा अस्वीकार कर दिया जाएगा क्योंकि इसका प्रदर्शन (एक CV लूप द्वारा मूल्यांकन किया गया) अधिक पार्सिमेनस मूल्यों की तुलना में बहुत खराब होगा । हालांकि, एक ही सीवी लूप द्वारा मूल्यांकन के रूप में उच्चतम स्कोर का उत्पादन करने वाला , मतलब / ओवरफिटिंग के प्रतिगमन के कारण, सीवी लूप अनुमानित की तुलना में आउट-ऑफ-सैंपल डेटा पर खराब करेगा। यह अक्सर सुझाव दिया जाता है कि एक दूसरे सीवी लूप (ट्यूनिंग प्रक्रिया के बाहर) का उपयोग करके क्षतिपूर्ति करता है। यही वह पूर्वाग्रह है जिसकी परिमाण में मुझे दिलचस्पी है।γ γγ=γγ
बेन कुहन

2
मैंने आपके प्रश्न को पूरी तरह गलत समझा। संपादन से पहले यह बहुत भ्रामक था। आप जिस पक्षपात में रुचि रखते हैं, जरूरी नहीं कि वह सकारात्मक हो; चूँकि कई दृष्टिकोण अधिक प्रशिक्षण डेटा दिए जाने पर बहुत बेहतर मॉडल पेश करते हैं, जो विशेष रूप से छोटे प्रशिक्षण सेट + क्रॉस-मान्यता के लिए प्रासंगिक है।
मार्क क्लेसेन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.