K- गुना क्रॉस सत्यापन पर ग्रिड खोज


16

मैंने 10-गुना क्रॉस सत्यापन सेटिंग में 120 नमूनों का डेटासेट किया है। वर्तमान में, मैं पहले होल्डआउट के प्रशिक्षण डेटा को चुनता हूं और ग्रिड खोज द्वारा गामा और सी के मूल्यों को लेने के लिए उस पर 5 गुना क्रॉस-सत्यापन करता हूं। मैं आरबीएफ कर्नेल के साथ एसवीएम का उपयोग कर रहा हूं। चूँकि मैं सटीकता, रिपोर्ट करने के लिए एक दस 10 क्रॉस-सत्यापन कर रहा हूं, इसलिए, क्या मैं प्रत्येक ग्रिड के प्रशिक्षण डेटा में यह ग्रिड खोज करता हूं (10 होल्डआउट हैं, प्रत्येक में 10% परीक्षण और 90% प्रशिक्षण डेटा है)? क्या यह बहुत समय लेने वाला नहीं होगा?

अगर मैं पहली होल्डआउट के गामा और सी का उपयोग करता हूं और इसे के-फोल्ड क्रॉस-वेलिडेशन के 9 होल्डआउट्स के लिए उपयोग करता हूं, तो क्या यह उल्लंघन है क्योंकि मैंने गामा और सी प्राप्त करने के लिए ट्रेन डेटा का उपयोग किया होगा और फिर से उपयोग करेगा दूसरे होल्डआउट में परीक्षण के रूप में ट्रेन डेटा का हिस्सा?


इस सवाल के लिए और जानकारी चाहिए। क्या मॉडल आप फिटिंग कर रहे हैं? इस मॉडल में गामा और सी क्या है? इसके अलावा, क्या आप इस प्रश्न को संपादित करके जानकारी दे सकते हैं, और टिप्पणियों के साथ नहीं।
probabilityislogic

जवाबों:


14

हां, यह उल्लंघन होगा क्योंकि बाहरी क्रॉस-सत्यापन के तह 2-10 के लिए परीक्षण डेटा तह 1 के प्रशिक्षण डेटा का हिस्सा रहा होगा जो कि कर्नेल और नियमितीकरण मापदंडों के मूल्यों को निर्धारित करने के लिए उपयोग किया गया था। इसका मतलब यह है कि परीक्षण डेटा के बारे में कुछ जानकारी संभावित रूप से मॉडल के डिजाइन में लीक हो गई है, जो संभावित रूप से प्रदर्शन मूल्यांकन के लिए एक आशावादी पूर्वाग्रह देता है, यह मॉडल के लिए सबसे अधिक आशावादी है जो हाइपर-मापदंडों की सेटिंग के लिए बहुत संवेदनशील हैं (अर्थात यह एक अवांछनीय विशेषता वाले मॉडल का सबसे अधिक पक्षधर है)।

यह पूर्वाग्रह छोटे डेटासेट के लिए सबसे मजबूत होने की संभावना है, जैसे कि यह एक है, क्योंकि मॉडल चयन मानदंड का विचरण छोटे डेटासेट के लिए सबसे बड़ा है, जो मॉडल चयन मानदंड को ओवर-फिटिंग करने के लिए प्रोत्साहित करता है, जिसका अर्थ है कि परीक्षण डेटा के बारे में अधिक जानकारी लीक हो सकती है के माध्यम से।

मैंने एक या दो साल पहले इस पर एक पेपर लिखा था क्योंकि मैं पूरी तरह से नेस्टेड क्रॉस-वैद्यता से पूर्वाग्रह विचलन के परिमाण द्वारा चौंका सकता था, जो कि क्लासिफायर सिस्टम के बीच के प्रदर्शन में अंतर को आसानी से दूर कर सकता है। पेपर "ऑन मॉडल-ओवर-फिटिंग इन मॉडल सिलेक्शन और उसके बाद के सिलेक्शन बायस इन परफॉरमेंस इवैल्यूएशन" गेविन सी। कवली, निकोला एलसी टैलबोट; जेएमएलआर 11 (जुलाई): 2079−2107, 2010।

हाइपर-मापदंडों को अनिवार्य रूप से ट्यूनिंग करना मॉडल को फिट करने का एक अभिन्न अंग माना जाना चाहिए, इसलिए हर बार जब आप एसवीएम को डेटा के एक नए नमूने पर प्रशिक्षित करते हैं, तो उस नमूने के लिए हाइपर-मापदंडों को स्वतंत्र रूप से पुन: निर्धारित करें। यदि आप उस नियम का पालन करते हैं, तो आप शायद बहुत गलत नहीं हो सकते। निष्पक्ष प्रदर्शन अनुमान प्राप्त करना कम्प्यूटेशनल खर्च के लायक है, अन्यथा आप अपने प्रयोग से गलत निष्कर्ष निकालने का जोखिम उठाते हैं।


1
मेरे व्यक्तिगत अनुभव ने मुझे ओवरफिटिंग के ऐसे स्रोतों के बारे में भी सतर्क किया।
cbeleites

6

प्रत्येक सरोगेट मॉडल के लिए ग्रिड खोज करने के बाद, आपको कुछ चीजों की जांच करनी चाहिए:

  • अनुकूलित मापदंडों की भिन्नता (यहाँ और C )। क्या इष्टतम पैरामीटर स्थिर हैं? यदि नहीं, तो आप बहुत परेशानी में हैं।γC
  • आंतरिक और बाहरी क्रॉस सत्यापन के रिपोर्ट किए गए प्रदर्शन की तुलना करें।
    यदि आंतरिक (यानी ट्यूनिंग) क्रॉस सत्यापन बाहरी (अंतिम मॉडल के सत्यापन) की तुलना में बहुत बेहतर दिखता है, तो आप मुसीबत में हैं, आप भी ओवरफिट कर रहे हैं। एक पर्याप्त जोखिम है, कि ट्यून्ड पैरामीटर बिल्कुल भी इष्टतम नहीं हैं। हालांकि, यदि बाहरी क्रॉस सत्यापन ठीक से किया जाता है (सभी परीक्षण सेट वास्तव में संबंधित सरोगेट मॉडल से स्वतंत्र हैं), तो कम से कम आपके पास अभी भी मॉडल के प्रदर्शन का एक निष्पक्ष (!) अनुमान है। लेकिन आप यह सुनिश्चित नहीं कर सकते कि यह इष्टतम है।
  • कैसे स्पष्ट है इष्टतम? क्या उप-स्तरीय मापदंडों के लिए प्रदर्शन जल्दी से कम हो जाता है? इष्टतम प्रदर्शन कितना अच्छा है?

मॉडल चयन द्वारा ओवरफिटिंग के बारे में कहने के लिए बहुत कुछ है। हालांकि, यह ध्यान रखना अच्छा है कि विचरण और आशावादी पूर्वाग्रह दोनों वास्तव में चोट पहुंचा सकते हैं

  • विचरण का मतलब है कि आप गलती से वास्तव में इष्टतम हाइपर-मापदंडों से काफी दूर समाप्त हो सकते हैं।
  • लेकिन पूर्वाग्रह भी चोट पहुंचा सकते हैं: यदि आप ओवरफिटिंग कर रहे हैं, तो आप उन स्थितियों में भाग सकते हैं जहां कई मॉडल आंतरिक क्रॉस सत्यापन के लिए एकदम सही दिखते हैं (लेकिन वे वास्तव में नहीं हैं)। उस मामले में, ट्यूनिंग भटक सकती है क्योंकि यह मॉडल के बीच के अंतर को नहीं पहचानता है।
  • यदि पूर्वाग्रह हाइपर-मापदंडों पर निर्भर करता है, तो आप बड़ी मुसीबत में हैं।

यदि आप एक उदाहरण में रुचि रखते हैं और आप जर्मन पढ़ सकते हैं, तो मैं अपनी डिप्लोमेसी थीसिस को ऑनलाइन कर सकता हूं।

मेरे अनुभव में, अतिपरजीविता ट्यूनिंग ओवरफिटिंग के लिए एक अत्यंत प्रभावी विचार है ...

अब, यदि आप महसूस करते हैं कि आप ओवरफिट कर रहे हैं, तो आपके पास मुख्य रूप से दो विकल्प हैं:

  • रिपोर्ट करें कि ऑप्टिमाइज़ेशन में ओवरफ़िटिंग की समस्या थी, लेकिन आपने एक उचित बाहरी सत्यापन किया, जिसके परिणामस्वरूप ... (बाहरी क्रॉस सत्यापन परिणाम)।
  • मॉडल की जटिलता को सीमित करें। ऐसा करने का एक तरीका हाइपर-मापदंडों को ठीक करना है:

प्रत्येक प्रशिक्षण सेट में हाइपर-मापदंडों को ट्यूनिंग करने के विकल्प के रूप में, आप पूर्व-निर्दिष्ट (हाइपर) पैरामीटर (यानी उन्हें पहले से तय कर सकते हैं) कर सकते हैं। मैं अपने मॉडलों के लिए जितना संभव हो उतना संभव हो सकता है क्योंकि मेरे पास आमतौर पर आपके पास इससे भी कम मामले हैं, नीचे देखें।
हालांकि, यह फिक्सिंग वास्तव में और ईमानदारी से पहले से ही किया जाना चाहिए: जैसे मैंने एक सहयोगी से एक समान डेटा सेट (स्वतंत्र प्रयोग) पर अपने अनुकूलित मापदंडों के लिए पूछा या मापदंडों पर ग्रिड खोज सहित एक पूर्व-प्रयोग किया। उस पहले प्रयोग को कुछ प्रयोगात्मक मापदंडों के साथ-साथ वास्तविक प्रयोग और डेटा विश्लेषण के लिए मॉडल मापदंडों को ठीक करने के लिए उपयोग किया जाता है। आगे स्पष्टीकरण के लिए नीचे देखें।

बेशक यह स्वचालित रूप से अनुकूलित मॉडल (डबल या नेस्टेड वेलिडेशन) पर उचित परीक्षण करना संभव है, लेकिन आपका नमूना आकार डेटा को दो बार विभाजित करने की अनुमति नहीं दे सकता है
उस स्थिति में, यह IMHO है ज्यादा बेहतर एक मॉडल है कि कैसे स्वचालित रूप से अनुकूलित मॉडल के कुछ प्रकार पर एक overoptimistic अनुमान रिपोर्टिंग से मानकों को मॉडलिंग का चयन करने पर व्यावसायिक अनुभव का उपयोग कर बनाया गया था के लिए एक ईमानदार अनुमान रिपोर्ट करने के लिए।
स्थिति पर एक और दृष्टिकोण यह है कि आपको व्यापार करना होगा

  • पैरामीटर अनुकूलन के लिए मामलों का एक और गुच्छा अलग सेट करने के कारण खराब प्रदर्शन (छोटे प्रशिक्षण नमूना आकार => बदतर मॉडल, लेकिन "इष्टतम" पैरामीटर)
  • विशेषज्ञ द्वारा (लेकिन बड़े प्रशिक्षण डेटा पर) फिक्सिंग को अपनाने के कारण खराब प्रदर्शन।

कुछ इसी तरह के प्रश्न पर कुछ विचार: /stats//a/27761/4598


मापदंडों और डिक्रान मार्सुपियल की टिप्पणियों को ठीक करने पर

मैं हाइपर-मापदंडों शब्द का उपयोग कर रहा हूं क्योंकि डिक्रान मार्सुपियल अपने पेपर में इसका उपयोग करता है (उसके उत्तर में लिंक)

मैं स्पेक्ट्रोस्कोपिक डेटा के साथ काम करता हूं। यह एक प्रकार का माप है जहां डेटा विश्लेषण और मॉडलिंग में अक्सर पूर्व-प्रसंस्करण का काफी कुछ शामिल होता है। इसे हाइपर-मापदंडों के रूप में देखा जा सकता है (जैसे बेसलाइन के लिए बहुपद के किस क्रम का उपयोग किया जाना चाहिए? क्या माप शामिल किया जाना चाहिए?)। ऐसे अन्य निर्णय हैं जो आपके svm मापदंडों के करीब हैं, उदाहरण के लिए "वास्तविक" मॉडल के प्रशिक्षित होने से पहले पीसीए को डायमेंशन में कमी के लिए कितने प्रमुख घटकों का उपयोग किया जाता है? और कभी-कभी मैं एसवीएम वर्गीकरण का भी उपयोग करता हूं, इसलिए मुझे एसवीएम मापदंडों पर निर्णय लेना होगा।

अब, हाइपर-मापदंडों को ठीक करने का सबसे अच्छा तरीका IMHO है यदि आपके पास आवेदन से आने वाले कारण हैं। उदाहरण के लिए, मैं आमतौर पर यह तय करता हूं कि भौतिक / रासायनिक / जैविक कारणों से किस तरह की आधार रेखा का उपयोग किया जाए (यानी नमूना और उस से होने वाले स्पेक्ट्रोस्कोपिक व्यवहार के बारे में ज्ञान)। हालाँकि, मैं ऐसे किसी तर्क से अवगत नहीं हूँ जो SVM मापदंडों के साथ मदद करता है ...

उपरोक्त पूर्व प्रयोगों का मामला इस प्रकार है:

  • हम कोशिकाओं के एक समूह का डेटा लेते हैं (विभिन्न सेल लाइनों को अलग करना चाहते हैं)।
  • स्पेक्ट्रा का विश्लेषण किया जाता है, पुनरावृत्त डबल क्रॉस सत्यापन एसवीएम चलाया जाता है (गणना सर्वर पर एक या दो रात बिताई जाती है)।

    • γC
    • मैं एक निश्चित ओवरफिटिंग का भी निरीक्षण करता हूं: बाहरी क्रॉस सत्यापन ट्यूनिंग परिणामों के रूप में बहुत अच्छा नहीं है। जैसी कि उम्मीद थी।
    • फिर भी, हाइपर-मापदंडों की ट्यूनिंग रेंज के प्रदर्शन में अंतर है, और ट्यूनिंग ग्रिड पर प्रदर्शन यथोचित रूप से सुचारू दिखता है। अच्छा।
  • मेरा निष्कर्ष यह है: जबकि मुझे यकीन नहीं है कि अंतिम हाइपर-पैरामीटर इष्टतम हैं, बाहरी क्रॉस सत्यापन मुझे सरोगेट मॉडल के प्रदर्शन का एक उचित अनुमान देता है।

  • प्रायोगिक भाग के दौरान, हमने प्रायोगिक सेट-अप (डेटा के शोर को संकेत को प्रभावित नहीं करने वाली चीज़ों पर कुछ बदलावों पर निर्णय लिया, लेकिन यह उपकरण के स्वचालितकरण में एक कदम और आगे जाता है)

  • हम प्रयोगात्मक सेटिंग्स में सुधार करते हैं और नए स्पेक्ट्रा प्राप्त करते हैं। कोशिकाओं के रूप में, उन्हें नए सिरे से विकसित होने की आवश्यकता है। यानी नए डेटा सेट स्वतंत्र संस्कृति बैच भी हैं।

अब मुझे निर्णय का सामना करना चाहिए: क्या मुझे आंतरिक क्रॉस सत्यापन को "छोड़ना" चाहिए और पुराने डेटा के साथ निर्धारित हाइपर-मापदंडों के साथ जाना चाहिए?

  • जैसा कि ऊपर उल्लेख किया गया है, मैं इस जोखिम को चलाता हूं कि ये पूर्व-निर्धारित हाइपर-पैरामीटर इष्टतम नहीं हैं।
  • लेकिन न तो मैं आंतरिक (ट्यूनिंग) क्रॉस सत्यापन करके वास्तव में इष्टतम हाइपर-मापदंडों को प्राप्त करना सुनिश्चित कर सकता हूं।
  • हालाँकि, पुराने डेटा पर ट्यूनिंग स्थिर थी।
  • ऑप्टिमाइज़िंग करने से मैं कम नमूनों पर प्रशिक्षण पाऊँगा: जैसा कि मेरे पास वैसे भी बहुत कम नमूने (TM) हैं, मुझे खराब मॉडल प्राप्त करने की अपेक्षा करनी है यदि मैं क्रॉस सत्यापन के दूसरे दौर के लिए अधिक नमूने अलग सेट करता हूं।

तो उस मामले में, मैंने तय मापदंडों के साथ जाने का फैसला किया (समान डेटा पर अनुभव करके और यह जानते हुए कि भविष्य में हमें अपना "होमवर्क" करना होगा, जिसमें बड़े डेटा के साथ इन फैसलों को फिर से जाँचना शामिल है)।

ध्यान दें कि महत्वपूर्ण बात यह है कि मैं आंतरिक ( ट्यूनिंग क्रॉस सत्यापन) को छोड़ देता हूं , बाहरी को नहीं। निश्चित हाइपर-पैरामीटर्स के साथ मुझे संभवतया उप-रूपी मॉडल के प्रदर्शन का निष्पक्ष अनुमान मिलता है। यह सच है कि यह अनुमान उच्च विचरण के अधीन है, लेकिन यह विचरण मूल रूप से एक ही है कि मैं आंतरिक ट्यूनिंग करता हूं या नहीं।
बाहरी क्रॉस वैडेशन को छोड़ना मुझे एक ट्यून किए गए मॉडल का एक आशावादी पक्षपाती अनुमान मिलेगा - जो कि अनुप्रयोग और डेटा के आधार पर बेकार हो सकता है (यदि बहुत अधिक अडॉप्टिमिस्टिक) और आशावादी पूर्वाग्रह स्पष्ट रूप से अस्वीकार्य हो सकते हैं।


इस उत्तर को अस्वीकार करने के लिए खेद है, लेकिन हाइपर-मापदंडों के लिए पूर्व-निर्दिष्ट मानों का उपयोग करना अच्छा नहीं है क्योंकि इष्टतम सामान्यीकरण इन मापदंडों के लिए उपयुक्त सेटिंग्स पर निर्भर करता है, जो कि डेटासेट से डैटसेट तक भिन्न होगा (और समस्याओं के लिए नमूने से बहुत कम डेटा होगा नमूना लेना)। एक पूर्व-प्रयोग ग्रिड खोज और भी बदतर है क्योंकि यह मेरे कागज में चर्चा किए गए पूर्वाग्रह के समान रूप में परिणत होती है। एसवीएम के लिए डेटा को दो बार विभाजित करने की समस्या लागू नहीं होती है क्योंकि आप वर्चुअल लीव-वन-आउट क्रॉस-वैलिडेशन का उपयोग आंतरिक सीवी में मॉडल चयन मानदंड के रूप में कर सकते हैं, लगभग मुफ्त में।
डिक्रान मार्सुपियल

हालांकि अनुकूलित मापदंडों में भिन्नता के लिए जाँच एक उत्कृष्ट सुझाव है। यदि आपके पास पर्याप्त डेटा है कि पैरामीटर और हाइपर-मापदंडों को डेटा से मज़बूती से अनुमान लगाया जा सकता है, तो मेरे पेपर में मैंने जिस प्रकार के पूर्वाग्रह का उल्लेख किया है, वह शायद बहुत अधिक नहीं होगा। हालांकि, अगर छोटे हाइरिमेटर के कारण, अनुकूलित हाइपर-पैरामीटर मानों में बहुत अधिक परिवर्तनशीलता है, तो ऐसी स्थिति है जहां नेस्टेड क्रॉस-वैलिडेशन और इस तरह के अन्य कठोर दृष्टिकोण प्रदर्शन आकलन में पर्याप्त पूर्वाग्रह से बचने के लिए वास्तव में आवश्यक हैं।
डिक्रान मार्सुपियल

@DikranMarsupial: मैंने अपनी पृष्ठभूमि को थोड़ा और स्पष्ट रूप से समझाया, एक नज़र है। साथ ही, मैंने आपके पेपर को और अच्छी तरह से पढ़ा। मुझे लगता है कि हमारे बिंदु अलग नहीं हैं। यदि आप चाहें, तो चैट में मिलते हैं - मेरे पास आपके पेपर के बारे में सवालों का एक गुच्छा है ...
cbeleites मोनिका

@DikranMarsupial: (दुर्भाग्यवश, मेरे अधिकांश डेटा के लिए, मैं विश्लेषणात्मक अवकाश का उपयोग नहीं कर सकता, क्योंकि मेरे पास नेस्टेड / श्रेणीबद्ध डेटा संरचनाएं हैं)। इसके अलावा, मैंने छुट्टी-वन-आउट के साथ कुछ बदसूरत आश्चर्य से मुलाकात की है इसलिए मैं के-फोल्ड या आउट-बूट-बूट सत्यापन को पुनरावृत्त करता हूं। हालाँकि, इस प्रश्न के लिए यह विषय है।
केबेलाइट्स

@DikranMarsupial: यदि अनुकूलित पैरामीटर स्थिर नहीं हैं, तो मैं किसी भी समस्या में हूं। बेशक, तब मैं यह निष्कर्ष नहीं निकाल सकता कि मैं नए डेटा के लिए इन मापदंडों का उपयोग कर सकता हूं। लेकिन यह भी, मैं उन्हें (कई पैरामीटर सेटों में से कौन सा फोन नहीं करूंगा?) अंतिम मॉडल के लिए इष्टतम ... मैंने देखा है कि अनुकूलन पूरी तरह से जंगली जा रहा है लेकिन यह हमेशा आंतरिक (ट्यूनिंग) सत्यापन के बहुत अधिक अपनाने वाले परिणामों के साथ आया था । और यह कि मैं बाहरी मॉडल के आंतरिक क्रॉस सत्यापन अनुमान के साथ बाहरी क्रॉस सत्यापन की तुलना करके माप सकता हूं। तदनुसार जवाब अपडेट करें।
केबिले

5

γCkterr(γ,C)γCγ,C{2nl,2nl+1,,2nu}γ

मुझे लगता है कि कुंजी स्थानीय न्यूनतम (या प्रत्येक 1-मंद प्रक्षेपण) के आसपास की सतह में कुछ चिकनाई की तलाश है और न केवल वैश्विक न्यूनतम लेना है।

γ(pσ)1pγCC


तो, चलो कहते हैं कि मैं १२० नमूनों वाला डेटासेट हूँ। क्या मुझे 120 नमूनों का उपयोग करके शुरू में गामा और सी मिलनी चाहिए। फिर 10 गुना क्रॉस सत्यापन के लिए कश्मीर होल्डिंग्स के लिए एक ही गामा और सी का उपयोग करके जब ट्रेन का 90% डेटा और परीक्षण के लिए 10% डेटा का उपयोग किया जाता है? क्या इसका यह अर्थ नहीं होगा कि मैंने गामा और सी प्राप्त करने के लिए एक ही प्रशिक्षण सेट का उपयोग किया और नमूनों का कुछ हिस्सा परीक्षण सेट पर भी है?
user13420

γC

(γ,C)(γ,C)(γ,C)

2
λβ

2
λβ । तय के लिएλ आप के लिए संभव वितरण पर सान β। निश्चित ट्यूनिंग पैरामीटर के लिए निर्धारित प्रत्येक सीवी ट्रेन उस के एक बिंदु का अनुमान लगाती हैβ(λ)। सीवी प्रक्रिया के अंत तक आपके पास परीक्षण त्रुटि का एक अनुमान है जो पहले दिया गया था। आप तब सर्वोत्तम परीक्षण त्रुटि गुणों वाले एक का चयन करते हुए ट्यूनिंग मापदंडों को बदलते हैं।
मुराटो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.