आंतरिक बनाम बाहरी क्रॉस-मान्यता और मॉडल चयन


26

मेरी समझ यह है कि क्रॉस सत्यापन और मॉडल चयन के साथ हम दो चीजों को संबोधित करने की कोशिश करते हैं:

P1 । हमारे नमूने के साथ प्रशिक्षण के दौरान आबादी पर अपेक्षित नुकसान का अनुमान लगाएं

पी 2 । इस अनुमान की हमारी अनिश्चितता को मापें और रिपोर्ट करें (भिन्नता, विश्वास अंतराल, पूर्वाग्रह, आदि)

मानक अभ्यास बार-बार क्रॉस सत्यापन करने के लिए लगता है, क्योंकि यह हमारे अनुमानक के विचरण को कम करता है।

हालाँकि, जब रिपोर्टिंग और विश्लेषण की बात आती है, तो मेरी समझ यह है कि आंतरिक सत्यापन बाहरी सत्यापन से बेहतर है क्योंकि:

रिपोर्ट करना बेहतर है:

  • हमारे अनुमानक के आँकड़े, जैसे कि पूर्ण नमूने पर इसका आत्मविश्वास अंतराल, विचरण, माध्य आदि। (इस मामले में CV नमूना)।

रिपोर्टिंग से:

  • मूल नमूने के एक होल्ड-आउट सबसेट पर हमारे अनुमानक का नुकसान, चूंकि:

    (i) यह एक एकल माप होगा ( भले ही हम सीवी के साथ अपना अनुमानक चुनें )

    (ii) इस एकल मापक के लिए हमारे आकलनकर्ता को एक सेट (जैसे सीवी सेट) पर प्रशिक्षित किया गया होगा जो कि हमारे प्रारंभिक नमूने से छोटा है क्योंकि हमें होल्ड-आउट सेट के लिए जगह बनाना है। इससे P1 में अधिक पक्षपाती (निराशावादी) अनुमान होता है ।

क्या ये सही है? यदि नहीं तो क्यों?

पृष्ठभूमि:

पाठ्यपुस्तकों को खोजना आसान है जो आपके नमूने को दो सेटों में विभाजित करने की सलाह देते हैं:

  • सीवी सेट, जो बाद में और बार बार में बांटा गया है ट्रेन और सत्यापन सेट।
  • पकड़-आउट (परीक्षण) सेट, केवल अंत में इस्तेमाल किया आकलनकर्ता प्रदर्शन की रिपोर्ट

मेरा प्रश्न इस पाठ्यपुस्तक दृष्टिकोण की खूबियों और फायदों को समझने का एक प्रयास है, यह देखते हुए कि हमारा लक्ष्य इस पोस्ट की शुरुआत में वास्तव में P1 और P2 की समस्याओं का समाधान करना है । यह मुझे लगता है कि सीवी नमूने के विश्लेषण अधिक जानकारीपूर्ण होने के बाद से होल्ड-आउट टेस्ट सेट पर रिपोर्टिंग खराब अभ्यास है।

नेस्टेड के-गुना बनाम दोहराया के-गुना:

नेस्टेड के-फोल्ड प्राप्त करने के लिए नियमित के-फोल्ड के साथ सैद्धांतिक रूप से होल्ड-आउट को जोड़ सकते हैं । यह हमें हमारे अनुमानक की परिवर्तनशीलता को मापने की अनुमति देगा, लेकिन यह मुझे दिखता है कि प्रशिक्षित कुल मॉडलों की एक ही संख्या के लिए (कुल # सिलवटों) ने दोहराया के-गुना ऐसे अनुमानों का उत्पादन करेगा जो कम पक्षपाती हैं और नेस्टेड के की तुलना में अधिक सटीक हैं- तह। इसे देखने के लिए:

  • बार-बार K-fold हमारे कुल नमूने के बड़े हिस्से का उपयोग करता है, जो कि K के लिए नेस्टेड-फोल्ड की तुलना में अधिक होता है (यानी यह निम्न बायल की ओर जाता है)
  • 100 पुनरावृत्तियों केवल नेस्टेड K-fold (K = 10) में हमारे अनुमानक के 10 माप देगा, लेकिन K- गुना में 100 माप (अधिक माप P2 में कम विचरण की ओर जाता है )

इस तर्क में क्या गलत है?


1
मैंने आपके शीर्षक को बदल दिया है ताकि मैं जो जानना चाहता हूं, वह अधिक विशिष्ट हो। मुझे लगता है कि आपको इस तरह की जानकारी प्राप्त करने की अधिक संभावना है। यदि आप असहमत हैं तो इसे वापस बदलने के लिए स्वतंत्र महसूस करें। यह भी ध्यान दें कि अधिक संख्या में संपादन के कारण यह धागा स्वचालित रूप से CW बन गया है। यदि आप इसे सीडब्ल्यू नहीं बनाना चाहते हैं, तो इसे मॉडरेटर के ध्यान में रखें; इसे उल्टा करना संभव है (मुझे लगता है)।
गंग - मोनिका

1
धन्यवाद @ गुंग। मेरी एकमात्र चिंता यह है कि कुछ लोग 2-गुना CV के साथ होल्ड-आउट को भ्रमित कर सकते हैं , इसके साथ, मुझे लगता है कि Steyerberg03 में आंतरिक बनाम बाहरी CV स्पष्ट है
Amelio Vazquez-Reina

जवाबों:


20

मुझे पहले से ही यहाँ दिए गए अच्छे उत्तरों में कुछ अंक जोड़ने दें:

नेस्टेड के-गुना बनाम दोहराया के-गुना: नेस्टेड और दोहराया के-फो पूरी तरह से अलग चीजें हैं, विभिन्न प्रयोजनों के लिए उपयोग किया जाता है।

  • जैसा कि आप पहले से ही जानते हैं , नेस्टेड अच्छा है यदि आप मॉडल चयन के लिए आंतरिक सीवी का उपयोग करना चाहते हैं।
  • दोहराया: IMHO आपको हमेशा k- गुना cv [नीचे देखें] दोहराना चाहिए।

इसलिए मैं किसी भी नेस्टेड k- गुना क्रॉस सत्यापन को दोहराने की सलाह देता हूं ।

बेहतर रिपोर्ट "हमारे अनुमानक के आंकड़े, जैसे पूर्ण नमूने पर इसका आत्मविश्वास अंतराल, विचरण, माध्य, इत्यादि (इस मामले में सीवी नमूना)।" :

ज़रूर। हालांकि, आपको इस तथ्य से अवगत होने की आवश्यकता है कि आप (आसानी से) अकेले क्रॉस सत्यापन परिणामों से विश्वास अंतराल का अनुमान लगाने में सक्षम नहीं होंगे। इसका कारण यह है कि, हालांकि, आप बहुत अधिक प्रतिसाद देते हैं, आपके द्वारा देखे जाने वाले मामलों की वास्तविक संख्या परिमित है (और आमतौर पर छोटे - अन्यथा आप इन भेदों के बारे में परेशान नहीं करेंगे)।
उदाहरण के लिए देखें बेंगियो, वाई। और ग्रैंडवेलेट, वाई .: के-फोल्ड क्रॉस-वैरीडेशन जर्नल ऑफ मशीन लर्निंग रिसर्च, 2004, 5, 1089-1105 की विविधता का कोई निष्पक्ष अनुमानक नहीं

n

nσ2(p^)=1np(1p)pp^np=0.5
सी। बेलेइट्स, आर। सैल्जर और वी। सेर्गो: पार्टिकल क्लास मेंबरशिप का उपयोग करते हुए सॉफ्ट क्लासिफिकेशन मॉडल्स की मान्यता: संवेदनशीलता और कंपनी का एक विस्तारित कॉन्सेप्ट जो कि एस्ट्रोसाइटोमा टिश्यूज, कैमोम की ग्रेडिंग पर लागू होता है। Intell। लैब। सिस्ट।, 122 (2013), 12 - 22।

तो इससे मुझे होल्ड-आउट के खिलाफ आपके तर्क के बारे में पता चलता है :

  • न तो केवल रेज़मैप्लिंग करना (आवश्यक रूप से) आपको विचरण का एक अच्छा अनुमान देता है,
  • OTOH, यदि आप क्रॉस-वैरिफिकेशन अनुमान के परिमित-परीक्षण-नमूना-आकार-विचरण के बारे में तर्क कर सकते हैं, तो इसे रोकना भी संभव है।

इस एकल मापक के लिए हमारे अनुमानक को एक सेट (जैसे CV सेट) पर प्रशिक्षित किया गया होगा जो कि हमारे प्रारंभिक नमूने से छोटा है क्योंकि हमें होल्ड-आउट सेट के लिए जगह बनाना है। इससे पी 1 में अधिक पक्षपाती (निराशावादी) अनुमान होता है।

1k

यह मुझे लगता है कि सीवी नमूने के विश्लेषण अधिक जानकारीपूर्ण होने के बाद से होल्ड-आउट टेस्ट सेट पर रिपोर्टिंग खराब अभ्यास है।

आमतौर पर, हाँ। हालांकि, यह भी ध्यान रखना अच्छा है कि महत्वपूर्ण प्रकार की त्रुटियां (जैसे बहाव) हैं जिन्हें सत्यापन को फिर से खोलकर मापा / पता नहीं लगाया जा सकता है।
उदाहरण के लिए देखें एसेनसेन, केएच और गेलैडी, पी। सिद्धांतों का उचित सत्यापन: सत्यापन के लिए पुन: नमूने का उपयोग और दुरुपयोग, केमेटोमेट्रिक्स जर्नल, 2010, 24, 168-187

लेकिन यह मुझे दिखता है कि प्रशिक्षित कुल मॉडल (सिलवटों के कुल #) की समान संख्या के लिए बार-बार के-फोल्ड अनुमान लगाएंगे जो कम पक्षपाती हैं और नेस्टेड-के-गुना की तुलना में अधिक सटीक हैं। इसे देखने के लिए:

बार-बार K-fold हमारे कुल नमूने के बड़े हिस्से का उपयोग करता है, जो कि K के लिए नेस्टेड-फोल्ड की तुलना में अधिक होता है (यानी यह निम्न बायल की ओर जाता है)

मैं इसे नहीं कहूंगा: यह मायने नहीं रखता कि मॉडल प्रशिक्षण अपने का उपयोग कैसे करता हैk1kn
k

100 पुनरावृत्तियों केवल नेस्टेड K-fold (K = 10) में हमारे अनुमानक के 10 माप देगा, लेकिन K- गुना में 100 माप (अधिक माप P2 में कम विचरण की ओर जाता है)

इससे क्या फर्क पड़ता है यह (सरोगेट) मॉडल की अस्थिरता पर निर्भर करता है, ऊपर देखें। स्थिर मॉडल के लिए यह अप्रासंगिक है। तो हो सकता है कि आप 1000 या 100 बाहरी दोहराव / पुनरावृत्तियाँ करें।


और यह पेपर निश्चित रूप से इस विषय पर पढ़ने की सूची में शामिल है: Cawley, GC और Talbot, NLC ऑन-फिटिंग इन मॉडल सेलेक्शन और इसके बाद का चयन प्रदर्शन प्रदर्शन मूल्यांकन में, जर्नल ऑफ़ मशीन लर्निंग रिसर्च, 2010, 11, 2079-2107


6

यह बताने वाला एक महत्वपूर्ण संदर्भ है:

@ARTICLE{pic90,
  author = {Picard, R. R. and Berk, K. N.},
  year = 1990,
  title = {Data splitting},
  journal = The American Statistician,
  volume = 44,
  pages = {140-147}
}

यह भी देखें:

@Article{mic05pre,
  author =       {Michiels, Stefan and Koscielny, Serge and Hill, Catherine},
  title =        {Prediction of cancer outcome with microarrays: a
multiple random validation strategy},
  journal =      {Lancet},
  year =         2005,
  volume =       365,
  pages =        {488-492},
  annote =       {comment on
p. 454; validation;microarray;bioinformatics;machine learning;nearest
centroid;severe problems with data splitting;high variability of list
of genes;problems with published studies;nice results for effect of
training sample size on misclassification error;nice use of confidence
intervals on accuracy estimates;unstable molecular signatures;high
instability due to dependence on selection of training sample}
}

अपने काम में मैंने पाया है कि डेटा बंटवारे को संतोषजनक ढंग से काम करने के लिए 10,000 के करीब प्रशिक्षण और परीक्षण के नमूने के आकार की आवश्यकता होती है।


फ्रैंक - ये महान संसाधन हैं। मुझे आश्चर्य है कि यह जानकारी उनके जवाब में @Dan ने क्या प्रदान की है। शायद मैं इसे गलत ठहरा रहा हूं, लेकिन ऐसा लग रहा है कि समुदाय इस मुद्दे पर विभाजित है।
अमेलियो वाज़केज़-रीना

मेरे पास पहले पढ़ने का समय नहीं था, लेकिन दूसरे के रूप में, मैंने त्वरित रूप से देखा और यह वही लगता है जो मेरे कागजात ने कहा था। "सांख्यिकीय विश्लेषण" अनुभाग पर एक करीब से नज़र डालें, और आप देखेंगे कि वे उसी सुविधा चयन प्रक्रिया का वर्णन करते हैं, जो डिक्रान पोस्ट के ऊपर वर्णित लिंक में वर्णित करता है। मैं अनुमान लगा रहा हूं कि उन्होंने जिन लोगों का अध्ययन किया, उन्होंने ऐसा नहीं किया, और इसीलिए वे पाते हैं कि "अपर्याप्त मान्यता के कारण, हमारे चुने हुए अध्ययनों ने हमारे स्वयं के विश्लेषणों की तुलना में ओवरोप्टिमिस्टिक परिणामों को प्रकाशित किया।" मुझे नहीं लगता कि कोई असहमति है।
दान एल

4

यह वास्तव में आपके मॉडल निर्माण की प्रक्रिया पर निर्भर करता है, लेकिन मुझे यह पेपर मददगार लगा

http://www.biomedcentral.com/content/pdf/1471-2105-7-91.pdf

यहां जिस चीज की चर्चा की गई है, वह महत्वपूर्ण लिबरल पूर्वाग्रह है (मॉडल के प्रदर्शन को वास्तव में इससे बेहतर बनाने का अनुमान लगाना) जो तब होगा जब आप उसी मॉडल के आधार पर अपने मॉडल का चयन कर रहे हैं जो आप उसके प्रदर्शन का अनुमान लगाने के लिए उपयोग कर रहे हैं। इसलिए, यदि आप इसकी क्रॉस सत्यापन त्रुटि को देखकर संभावित मॉडल के सेट से अपने मॉडल का चयन कर रहे हैं, तो आपको मॉडल के प्रदर्शन का अनुमान लगाने के लिए क्रॉस सत्यापन त्रुटि (या किसी अन्य आंतरिक अनुमान पद्धति) का उपयोग नहीं करना चाहिए।

एक और उपयोगी संसाधन है

/stats//a/27751/26589

यह पोस्ट इस बात का एक स्पष्ट उदाहरण देता है कि जब सभी डेटा "देखा" जाता है तो मॉडल सुविधाओं के प्रदर्शन में उदार पूर्वाग्रह पैदा करेगा (आपका मॉडल वास्तव में इससे बेहतर प्रदर्शन करेगा)।

यदि आप चाहते हैं कि मैं एक उदाहरण प्रस्तुत करूं जो आपके लिए अधिक विशिष्ट हो, तो शायद आप अपने द्वारा बनाए जा रहे मॉडलों के प्रकारों का एक सामान्य विवरण दे सकें (आपके पास कितना डेटा है, आपके चयन से कितनी सुविधाएँ हैं, वास्तविक मॉडल, आदि)।


शुक्रिया दान। यह सब दिलचस्प है। सादगी के लिए हम मान सकते हैं कि हम द्विआधारी वर्गीकरण (<~ 10 मापदंडों) के लिए एक एसवीएम (जैसे एक आरबीएफ कर्नेल) के कर्नेल मापदंडों का अनुमान लगाने की कोशिश कर रहे हैं और हम एक बड़ी आबादी से 100 नमूनों (जैसे 20 सकारात्मक) के साथ काम कर रहे हैं।
अमेलियो वाज़केज़-रीना

एक जोड़े को जल्दी सवाल। 1) जब आप अपने एसवीएम का निर्माण करते हैं, तो क्या आप अपने आप को 10 मापदंडों के सबसेट का चयन करने की अनुमति देते हैं, या क्या आप हमेशा उन सभी का उपयोग करते हैं जिन्हें आप सौंप रहे हैं? 2) क्या आप कभी अलग गुठली या मॉडल (लॉजिस्टिक, रैंडम फॉरेस्ट आदि) पर विचार करते हैं? 3) आप किस सॉफ्टवेयर / पैकेज का उपयोग कर रहे हैं? क्रॉस सत्यापन कार्यान्वयन में निर्मित भिन्न होते हैं, और मैं जानना चाहूंगा कि आप किसका उपयोग कर रहे हैं।
दान एल

धन्यवाद @Dan - मैं मॉडल और मापदंडों के बीच एक ग्रिड खोज करता हूं (यानी ग्रिड खोज के माध्यम से गुठली और पैरामीटर अलग हैं)। ग्रिड खोज में प्रत्येक प्रयोग के लिए मैं CV (बार-बार K- गुना क्रॉस सत्यापन) करता हूं। मैं scikit-learn का उपयोग कर रहा हूं।
एमिलियो वाज़केज़-रीना

1
धन्यवाद @ दान मुझे लगता है कि नेस्टेड क्रॉस सत्यापन के बारे में मेरा एकमात्र प्रश्न बचा है कि कैसे मॉडल का चयन किया जाए (क्योंकि मुझे बाहरी लूप के प्रत्येक गुना में एक अलग मॉडल मिलता है)। इस बाहरी लूप में सबसे अधिक अंक प्राप्त करने वाले मॉडल को चुनना मेरे लिए उचित नहीं होगा, क्योंकि प्रत्येक तह में जीतने वाले मॉडल को डेटासेट के एक अलग हिस्से के खिलाफ मापा जाता है।
एमिलियो वाज़केज़-रीना

1
कहते हैं कि आपके पास 3 बाहरी तह हैं। इसका मतलब है कि आप 3 बार पूरी मॉडल निर्माण प्रक्रिया चलाते हैं, जिससे आपको तीन अलग-अलग मॉडल मिलते हैं। आप अंत में उन मॉडलों में से किसी का उपयोग नहीं करते हैं - अपने अंतिम मॉडल को प्राप्त करने के लिए, आप अपने सभी डेटा पर पूरी मॉडल निर्माण प्रक्रिया चलाते हैं (संभवतः एक स्वतंत्र मूल्यांकन सेट को छोड़कर)। ऐसा लगता है कि यह ओवरफिटिंग का कारण बनेगा, लेकिन यदि आपकी मॉडल बिल्डिंग रणनीति ओवरफिट हो जाती है, तो इसे बाहरी क्रॉस सत्यापन में भी ओवरफिट करना चाहिए, जिससे उचित रूप से उच्च त्रुटि का अनुमान होता है।
डैन एल

2

मुझे लगता है कि आपकी समझ सही है, एकल होल्ड-आउट परीक्षण सेट का उपयोग करके प्राप्त नुकसान के लिए अनुमानक का आमतौर पर उच्च विचरण होता है। के-फोल्ड्स क्रॉस वेलिडेशन जैसी किसी चीज का प्रदर्शन करने से आपको नुकसान का अधिक सटीक विचार प्राप्त होता है, साथ ही नुकसान के वितरण की भावना भी।

आमतौर पर एक ट्रेडऑफ़ होता है, अधिक सीवी आपके अनुमान को बेहतर बनाता है, लेकिन अधिक कम्प्यूटेशनल समय की आवश्यकता होती है।


धन्यवाद। मैंने अपने प्रश्न को और स्पष्ट करने के लिए ओपी में एक पृष्ठभूमि का टुकड़ा जोड़ा है।
अमीलियो वाज़केज़-रीना
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.