होल्ड-आउट सत्यापन बनाम क्रॉस-सत्यापन


54

मेरे लिए, ऐसा लगता है कि होल्ड-आउट सत्यापन बेकार है। यही है, मूल डेटासेट को दो-भागों (प्रशिक्षण और परीक्षण) में विभाजित करना और परीक्षण स्कोर का सामान्यीकरण उपाय के रूप में उपयोग करना, कुछ हद तक बेकार है।

K- गुना क्रॉस-वैधीकरण सामान्यीकरण के बेहतर सन्निकटन देता है (क्योंकि यह हर बिंदु पर ट्रेन और परीक्षण करता है)। तो, हम मानक होल्ड-आउट सत्यापन का उपयोग क्यों करेंगे? या इसके बारे में भी बात करते हैं?


10
आप इसे बेकार क्यों मानते हैं? आप अपने प्रो और उसके कोन के औपचारिक विश्लेषण के लिए सांख्यिकीय शिक्षण सिद्धांत खंड 7 के तत्वों को पढ़ सकते हैं। सांख्यिकीय रूप से बोलना, k- गुना बेहतर है, लेकिन परीक्षण सेट का उपयोग करना आवश्यक नहीं है। सहज रूप से, आपको यह विचार करने की आवश्यकता है कि परीक्षण सेट (जब सही तरीके से उपयोग किया जाता है) वास्तव में एक डेटा सेट है जिसका उपयोग प्रशिक्षण में बिल्कुल भी नहीं किया गया है। तो एक मॉडल का मूल्यांकन करने के लिए कुछ अर्थों में इसका निश्चित रूप से उपयोगी है। इसके अलावा, k- गुना सुपर महंगा है, इसलिए जो भी k- गुना करता है, लेकिन कम कम्प्यूटेशनल शक्ति वाले किसी व्यक्ति के लिए "सन्निकटन" की तरह है।
चार्ली पार्कर

ज़रूर। एक सैद्धांतिक दृष्टिकोण से, के-गुना अधिक सटीक है, लेकिन कम से कम कम्प्यूटेशनल रूप से महंगा है। सवाल यह था कि क्यों नहीं हमेशा K- गुना पार सत्यापन करते हैं?

2
समझा। मैं तर्क दूंगा कि इसका कारण ज्यादातर हमेशा कम्प्यूटेशनल होता है। K- गुना एक सांख्यिकीय दृष्टिकोण से बेहतर ढंग से सामान्यीकरण त्रुटि का अनुमान लगाता है K- गुना पसंद का तरीका है जो मुझे विश्वास है। होल्ड-आउट लागू करने के लिए बहुत सरल है और कई मॉडलों के रूप में प्रशिक्षण की आवश्यकता नहीं है। व्यवहार में, एक मॉडल को प्रशिक्षित करना काफी महंगा हो सकता है।
चार्ली पार्कर

1
सही - लेकिन मुझे लगता है कि "बहुत कम्प्यूटेशनल महंगा" तर्क काफी गलत है। लगभग हर समय, हम सबसे सटीक मॉडल विकसित करने का लक्ष्य रखते हैं। फिर भी यह विरोधाभास है जहां साहित्य में किए गए बहुत सारे प्रयोगों में केवल एक ही होल्ड-आउट सत्यापन सेट है।

1
प्रश्न - सांख्यिकीय सीखने के सिद्धांत खंड 7.10.1 के शीर्षक "के फोल्ड क्रॉस वेलिडेशन" के तत्व यह दर्शाते हैं कि परीक्षण डेटा को प्रशिक्षण डेटा से पूरी तरह से अलग रखना (जैसा कि सत्यापन में मान्य है) आदर्श है, और k- गुना सत्यापन केवल एक समझौता है डेटा कई बार दुर्लभ है। मैं अभी भी आँकड़ों के लिए काफी नया हूँ, क्या आप बता सकते हैं कि वास्तव में क्रॉस सत्यापन अधिक सटीक कैसे है?
अंक

जवाबों:


21

मेरा एकमात्र अनुमान है कि आप तीन घंटे के प्रोग्रामिंग अनुभव के साथ होल्ड-आउट कर सकते हैं; दूसरे सिद्धांत में एक सप्ताह और अभ्यास में छह महीने लगते हैं।

सिद्धांत रूप में यह सरल है, लेकिन कोड लिखना थकाऊ और समय लेने वाला है। जैसा कि लिनस टॉर्वाल्ड्स ने प्रसिद्ध रूप से कहा, "खराब प्रोग्रामर कोड के बारे में चिंता करते हैं। अच्छे प्रोग्रामर डेटा संरचनाओं और उनके रिश्तों के बारे में चिंता करते हैं।" आंकड़े देने वाले कई लोग खराब प्रोग्रामर होते हैं, अपनी गलती के बिना। के-फोल्ड क्रॉस वैरिफिकेशन को कुशलतापूर्वक करना (और मेरा मतलब है कि इस तरह से आर में एक बार डीबग करने और एक से अधिक बार उपयोग करने के लिए निराशाजनक नहीं है) डेटा संरचनाओं की अस्पष्ट समझ की आवश्यकता होती है, लेकिन डेटा संरचनाएं आमतौर पर "इंट्रो" में छोड़ दी जाती हैं सांख्यिकीय प्रोग्रामिंग के लिए "ट्यूटोरियल। यह पहली बार इंटरनेट का उपयोग करने वाले पुराने व्यक्ति की तरह है। यह वास्तव में मुश्किल नहीं है, यह पहली बार पता लगाने के लिए सिर्फ एक अतिरिक्त आधे घंटे का समय लेता है, लेकिन यह बिल्कुल नया है और यह इसे भ्रमित करता है, इसलिए इसे अनदेखा करना आसान है।

आपके पास इस तरह के प्रश्न हैं: आर में होल्ड-आउट सत्यापन कैसे लागू करें । कोई अपराध नहीं, जो भी, पूछने वाले को। लेकिन बहुत से लोग सिर्फ कोड-साक्षर नहीं हैं। तथ्य यह है कि लोग सभी पर क्रॉस-सत्यापन कर रहे हैं मुझे खुश करने के लिए पर्याप्त है।

यह मूर्खतापूर्ण और तुच्छ लगता है, लेकिन यह व्यक्तिगत अनुभव से आता है, वह लड़का रहा है और कई लोगों के साथ काम किया है जो उस आदमी थे।


18
हो सकता है कि किसी ऐसे व्यक्ति के रूप में जो सीएस में प्रमुख है, मेरा इस पर थोड़ा तिरछा दृष्टिकोण है, लेकिन यदि आप होल्ड-आउट सत्यापन को सही तरीके से लागू कर सकते हैं (जिसका मतलब है कि डेटासेट को 2 भागों में विभाजित करना और प्रशिक्षण के लिए एक का उपयोग करना और परीक्षण के लिए दूसरा), केवल एक चीज जिसे आपको बदलने की आवश्यकता है वह विभाजन का अनुपात है और पूरी चीज को एक लूप में डाल दिया है। यह मानना ​​मुश्किल है कि यह एक बड़ी समस्या होगी।
Voo

3
@Voo: इसके अलावा, प्रोग्राम करने में सक्षम होना यहाँ पर्याप्त नहीं है: आपको इस समस्या को अच्छी तरह से समझना होगा कि आप अपने बंटवारे की प्रक्रिया के दौरान किन कन्फ्यूडर को ध्यान में रखते हैं। उदाहरण के लिए देखें आंकड़े ।stackexchange.com/questions/20010/… । मुझे लगता है कि मैं इस तरह की समस्याओं को "शुद्ध" कोडिंग समस्याओं की तुलना में अधिक बार देखता हूं (हालांकि कोई भी कभी नहीं जानता है: कोई व्यक्ति जो डेटा मैट्रिक्स में पंक्तियों के एक सादे विभाजन को कोड करने में मुश्किल से सक्षम है, आमतौर पर विभाजन न करने की उच्च-स्तरीय गलती भी करेगा। रोगी के स्तर पर)
cbeleites, Monica

यह भी ध्यान दें कि आप उचित तरीके से कर सकते हैं (उदाहरण के लिए रोगी / माप दिन / ...) किसी भी प्रोग्रामिंग के बिना सभी उपकरणों
को मापते हुए,

5
अप-वोटर्स के लिए: ध्यान दें कि मैंने एक अलग सवाल पूछा जो मेरे तर्क पर सवाल उठाता है। आँकड़े.स्टैकएक्सचेंज.com
108345/

1
मुझे नहीं लगता कि दो क्रॉस सत्यापन विधियों के बीच अंतर को स्पष्ट करने वाले उत्तर को सीखने के लिए कभी भी मानवीय समय होना चाहिए, बेतुका पक्षपाती और मददगार नहीं होना चाहिए
रग्ल्बो

40

होल्ड-आउट का उपयोग अक्सर स्वतंत्र परीक्षण सेट के सत्यापन के साथ किया जाता है, हालांकि डेटा को यादृच्छिक रूप से विभाजित करने और स्वतंत्र परीक्षण के लिए सत्यापन प्रयोग को डिजाइन करने के बीच महत्वपूर्ण अंतर हैं।

स्वतंत्र परीक्षण सेटों का उपयोग सामान्यीकरण प्रदर्शन को मापने के लिए किया जा सकता है जिसे फिर से खोलना या होल्ड-आउट सत्यापन द्वारा मापा नहीं जा सकता है, उदाहरण के लिए अज्ञात भविष्य के मामलों के लिए प्रदर्शन (= मामले जो बाद में मापा जाता है, प्रशिक्षण समाप्त होने के बाद)। यह जानना महत्वपूर्ण है कि किसी मौजूदा मॉडल को नए डेटा के लिए कब तक इस्तेमाल किया जा सकता है (जैसे कि इंस्ट्रूमेंट ड्रिफ्ट का उदाहरण)। अधिक सामान्यतः, इसे प्रयोज्यता की सीमाओं को परिभाषित करने के लिए एक्सट्रपलेशन प्रदर्शन को मापने के रूप में वर्णित किया जा सकता है।

एक अन्य परिदृश्य जहां होल्ड-आउट वास्तव में फायदेमंद हो सकता है: यह सुनिश्चित करना बहुत आसान है कि प्रशिक्षण और परीक्षण डेटा को ठीक से अलग किया गया है - सत्यापन को फिर से शुरू करने की तुलना में बहुत आसान है: उदा।

  1. बंटवारे का फैसला (जैसे मामलों के यादृच्छिक असाइनमेंट)
  2. माप
  3. प्रशिक्षण मामलों के माप और संदर्भ डेटा => मॉडलिंग \ न ही माप और न ही परीक्षण मामलों का संदर्भ उस व्यक्ति को सौंपा जाता है जो मॉडल है।
  4. अंतिम मॉडल + आयोजित मामलों के माप => भविष्यवाणी
  5. आयोजित मामलों के संदर्भ के साथ भविष्यवाणियों की तुलना करें।

आपके द्वारा अलग किए जाने के स्तर के आधार पर, प्रत्येक चरण किसी और के द्वारा किया जा सकता है। पहले स्तर के रूप में, मॉडलर को परीक्षण मामलों के किसी भी डेटा (माप भी नहीं) को सौंपना बहुत निश्चित है कि कोई भी परीक्षण डेटा मॉडलिंग प्रक्रिया में लीक नहीं होने देता है। दूसरे स्तर पर, अंतिम मॉडल और परीक्षण मामले के माप अभी तक किसी और को सौंपे जा सकते हैं, और इसी तरह।

हां, आप इसके लिए भुगतान करते हैं कि होल्डम सत्यापन की तुलना में होल्ड-आउट अनुमानों की कम दक्षता से। लेकिन मैंने कई कागजात देखे हैं, जहां मुझे संदेह है कि रेज़मैप्लिंग सत्यापन ठीक से अलग-अलग मामलों में नहीं होता है (मेरे क्षेत्र में हमारे पास बहुत सारे क्लस्टर / पदानुक्रमित / समूहीकृत डेटा हैं)।

मैंने प्रस्तुत करने के एक हफ्ते बाद पांडुलिपि को फिर से जमा करके डेटा लीक पर अपना सबक सीखा है, जब मुझे पता चला कि मैं अपनी विभाजन प्रक्रिया (सूचकांक गणना में टाइपो) के साथ लीक से पहले अनडेटेड था (क्रमपरिवर्तन परीक्षण चलाकर)।

कभी-कभी होल्ड-आउट किसी ऐसे व्यक्ति को खोजने से अधिक कुशल हो सकता है जो परिणामों के बारे में एक समान स्तर हासिल करने के लिए, पुन: नमूना कोड (जैसे संकुल डेटा के लिए) की जांच करने के लिए समय देने के लिए तैयार है। हालाँकि, आईएमएचओ आमतौर पर ऐसा करने के लिए कुशल नहीं है इससे पहले कि आप उस चरण में हैं जहां आपको किसी भी तरह से भविष्य के प्रदर्शन (पहले बिंदु) को मापने की आवश्यकता है - दूसरे शब्दों में, जब भी आपको मौजूदा मॉडल के लिए सत्यापन प्रयोग स्थापित करने की आवश्यकता होती है।

OTOH, छोटे नमूना आकार की स्थितियों में, होल्ड-आउट कोई विकल्प नहीं है: आपको पर्याप्त परीक्षण मामलों को रखने की आवश्यकता है ताकि आवश्यक निष्कर्ष की अनुमति देने के लिए परीक्षण के परिणाम पर्याप्त सटीक हों (याद रखें: वर्गीकरण के लिए 3 परीक्षण मामलों में से 3 सही का मतलब है द्विपद ९ ५% आत्मविश्वास अंतराल जो ५०:५० के नीचे अच्छी तरह से अनुमान लगाता है!) फ्रैंक हरेल अंगूठे के शासन को इंगित करेगा कि कम से कम सीए। 100 (परीक्षण) मामलों में एक अनुपात को ठीक से मापने की आवश्यकता होती है [जैसे कि एक सटीक परिशुद्धता के साथ सही ढंग से अनुमानित मामलों का अंश]।


अद्यतन: ऐसी परिस्थितियां हैं जहां उचित विभाजन विशेष रूप से प्राप्त करना कठिन है, और क्रॉस सत्यापन अक्षम्य हो जाता है। कई कन्फ़्यूज़न वालों के साथ एक समस्या पर विचार करें। बंटवारा करना आसान है अगर इन कन्फ्यूडर को सख्ती से घोंसला दिया जाता है (जैसे कई रोगियों के साथ एक अध्ययन में प्रत्येक रोगी के कई नमूने हैं और प्रत्येक नमूने की कई कोशिकाओं का विश्लेषण करता है): आप नमूना पदानुक्रम (रोगी-वार) के उच्चतम स्तर पर विभाजित होते हैं । लेकिन आपके पास स्वतंत्र कन्फ़्यूडर हो सकते हैं जो नेस्टेड नहीं हैं, उदाहरण के लिए दिन-प्रतिदिन की भिन्नता या परीक्षण चलाने वाले अलग-अलग एक्सपेरिमेंट्स के कारण भिन्नता। फिर आपको यह सुनिश्चित करने की आवश्यकता है कि विभाजन सभी के लिए स्वतंत्र हैउच्चतम स्तर पर भ्रामक (नेस्टेड कन्फ़्यूडर स्वचालित रूप से स्वतंत्र होंगे)। इसका ध्यान रखना बहुत मुश्किल है अगर कुछ कन्फ्यूडर केवल अध्ययन के दौरान पहचाने जाते हैं, और एक प्रयोग को डिजाइन करना और एक सत्यापन प्रयोग करना विभाजन से निपटने की तुलना में अधिक कुशल हो सकता है जो न तो प्रशिक्षण के लिए लगभग कोई डेटा छोड़ता है और न ही सरोगेट मॉडल के परीक्षण के लिए।


6
काश मैं इस बहुत ही गहन उत्तर के लिए +1 से अधिक दे पाता। मैंने विशेष रूप से आपको डेटा लीक के साथ अपने मुद्दे का उल्लेख करना पसंद किया क्योंकि यह प्रभावी रूप से दिखाता है कि विशेषज्ञों के लिए भी इस तरह की समस्याओं से निपटने के लिए तुच्छ से दूर हो सकता है। यह एक अच्छी वास्तविकता की जाँच है!
मार्क क्लेसेन

क्या आप भीख नहीं माँग रहे हैं? हां, कन्फ़्यूज़न के कारण बंटवारा कठिन है, लेकिन यह कठिन है कि क्या आप एकल होल्ड-आउट सत्यापन या k- गुना क्रॉस-सत्यापन कर रहे हैं, है ना? (परवाह किए बिना एक व्यावहारिक जवाब के लिए धन्यवाद!)
Nils von Barth

1
@ निल्सवोनर्थ: मैं यह नहीं देखता कि मेरे तर्क कैसे परिपत्र हैं: ओपी पूछता है "क्यों [बिल्कुल] होल्ड-आउट सत्यापन का उपयोग करें", और मैं व्यावहारिक कारणों का एक गुच्छा देता हूं। सीमित संख्या में मामलों का सांख्यिकीय रूप से सबसे कुशल उपयोग हमेशा अध्ययन डिजाइन का सबसे महत्वपूर्ण गुण नहीं होता है। (हालांकि मेरे अनुभव में यह अक्सर सीमित मामलों की संख्या के कारण होता है: मैं कहीं अधिक बार होल्ड / आउट के बजाय दोहराया / पुनरावृत्त के-गुना सीवी के लिए सलाह दे रहा हूं)। कुछ कन्फ्यूडर के लिए फिजिकल स्प्लिटिंग संभव और आसान है - और स्नीक-प्रीव्यू को रोकने के लिए एक बहुत ही कुशल तरीका है। कौन जानता है कि क्या हम दोगुना पाएंगे ...
cbeleites मोनिका

कुछ बिंदुओं पर बहुत सारे झूठे सकारात्मक कागजों के खिलाफ अंधाधुंध सांख्यिकीय डेटा विश्लेषण की आवश्यकता हो सकती है?
केबीलाइट्स

2
@ निल्वनबर्थ: स्वतंत्रता की गारंटी के साथ-साथ देखभाल करना: इस तरह से होल्ड-आउट को लागू करना आसान है ( भौतिक होल्ड-आउट मामलों द्वारा, यानी परीक्षण नमूना दूर रखा जाता है और केवल मॉडल प्रशिक्षण समाप्त होने के बाद मापा जाता है, लेकिन अक्सर होल्ड-आउट का उपयोग उस चीज़ के लिए किया जाता है जो वास्तव में डेटा के एकल यादृच्छिक विभाजन की तरह है - और फिर विभाजन में गलतियाँ करने की सभी संभावनाओं को होल्ड-आउट के साथ भी बनाया जा सकता है!
cbeleites

8

शब्दावली को थोड़ा साफ करने के लिए यह उपयोगी हो सकता है। अगर हम को कुछ पूर्णांक से कम (या इसके बराबर) जहाँ नमूना आकार है और हम नमूना को अद्वितीय उप- विभाजनों में विभाजित करते हैं , तो जिसे आप होल्ड-आउट सत्यापन कह रहे हैं वह वास्तव में केवल 2-गुना ( = 2) है ) परिणाम का सत्यापन करना। क्रॉस-मान्यता केवल एक विशेष मॉडल के आउट-ऑफ-सैंपल त्रुटि दर (या सामान्यता) का आकलन करने के लिए एक उपकरण है। आउट-ऑफ-सैंपल त्रुटि दर का अनुमान लगाने की आवश्यकता एक सामान्य है और इसने संपूर्ण साहित्य को जन्म दिया है। शुरुआत के लिए, ईएसएल के अध्याय 7 देखें ।n n k kknnkk

तो सवालों के जवाब देने के लिए:

  1. इसके बारे में बात क्यों करें? शैक्षणिक दृष्टि से। एक विशेष के रूप में होल्ड-आउट सत्यापन के बारे में सोचना सार्थक है - और केवल कभी-कभी उपयोगी - कई, कई रूपों के साथ अन्यथा काफी उपयोगी विधि का मामला।

  2. इसका उपयोग क्यों करें? यदि कोई बहुत भाग्यशाली है जिसके पास एक कोलोसिअल डेटासेट है (टिप्पणियों के संदर्भ में, ), तो डेटा को आधा में विभाजित करना - एक आधे पर प्रशिक्षण और दूसरे पर परीक्षण करना - समझ में आता है। यह कम्प्यूटेशनल कारणों के बाद से सभी के लिए आवश्यक है कि एक बार फिटिंग और (के बजाय एक बार अनुमान लगा रहा है के लिए समझ में आता है बार)। और यह एक "बड़े-नमूना आकलन" के दृष्टिकोण से समझ में आता है क्योंकि आपके पास अपने मॉडल को फिट करने के लिए टिप्पणियों का एक टन है।केnk

एक नियम जो मैंने सीखा है, वह है: जब बड़ा है, छोटा हो सकता है, लेकिन जब छोटा होता है, तो को समीप होना चाहिए ।कश्मीर n कश्मीर nnknkn


13
मुझे नहीं लगता कि होल्डआउट 2 गुना सत्यापन के समान है, क्योंकि 2 गुना सत्यापन में आप दो मॉडल फिट करेंगे और फिर दो होल्डआउट सेट में त्रुटियों को औसत करेंगे।
एलेक्स

8

यदि आपके मॉडल के चयन और फिटिंग की प्रक्रिया को कोडित नहीं किया जा सकता है क्योंकि यह व्यक्तिपरक है, या आंशिक रूप से ऐसा है, - रेखांकन और जैसे-होल्ड-आउट सत्यापन को देखना सबसे अच्छा हो सकता है जो आप कर सकते हैं। (मुझे लगता है कि आप शायद प्रत्येक सीवी गुना में मैकेनिकल तुर्क की तरह कुछ का उपयोग कर सकते हैं, हालांकि मैंने कभी इसके होने के बारे में नहीं सुना है।)


6

बस कुछ सरल दिशानिर्देशों को जोड़ना चाहते थे जो एंड्रयू एनजी ने क्रॉस-मान्यता के बारे में स्टैनफोर्ड में हमारे सीएस 229 वर्ग में उल्लेख किया है। ये वो प्रथाएँ हैं जिनका पालन वह अपने काम में करता है

चलो अपने डेटासेट में नमूनों की संख्या हो। अगर लीव-वन-आउट क्रॉस सत्यापन का उपयोग करते हैं।m 20mm20

यदि कम्प्यूटेशनल लागत को ध्यान में रखते हुए अपेक्षाकृत बड़े साथ k- गुना क्रॉस सत्यापन का उपयोग करें ।कश्मीर मीटर20<m100km

यदि नियमित k- गुना क्रॉस सत्यापन । या, यदि पर्याप्त कम्प्यूटेशनल शक्ति और , तो होल्ड-आउट क्रॉस सत्यापन का उपयोग करें।( कश्मीर = 5 ) मीटर > 10 , 000100<m1,000,000(k=5)m>10,000

यदि होल्ड-आउट क्रॉस सत्यापन का उपयोग करता है, लेकिन यदि कम्प्यूटेशनल शक्ति उपलब्ध है, तो यदि आप अपने मॉडल से उस अतिरिक्त प्रदर्शन को निचोड़ना चाहते हैं, तो आप k-fold क्रॉस सत्यापन उपयोग कर सकते हैं ।( कश्मीर = 5 )m1,000,000(k=5)


5

संक्षिप्त जवाब:

मैं हमेशा कम से कम साथ CV का उपयोग करने की सलाह दूंगा :k=5

  • जटिल मॉडल
  • अंतिम परिणाम जो वैधता बाधाओं का पालन करना है

आप इसके लिए आराम कर सकते हैं:

  • वास्तव में बड़े डेटासेट पर प्रशिक्षण
  • सरल मॉडल प्रशिक्षण
  • प्रोटोटाइपिंग जब समय एक मुद्दा है

आप में से कुछ ने उल्लेख किया है कि R में यह प्रोग्रामिंग एक मुद्दा हो सकता है। मैं आपको "एमएलआर" पैकेज पर एक नज़र डालने की सलाह देता हूं । यह एकीकृत इंटरफ़ेस में विभिन्न पैकेजों को लपेटता है, यह वास्तव में उन्नत रेज़म्पलिंग और प्रदर्शन मूल्यांकन विधियों को भी प्रदान करता है।

एक नज़र रखें: http://mlr-org.github.io/mlr-tutorial/release/html/resample/ और: http://mlr-org.github.io/mlr-tutorial/release/html/perienceance/ index.htm

कुछ और स्पष्टीकरण - सीवी वास्तव में क्या करता है पूर्वाग्रह विचरण व्यापार को तोड़ता है:

अब, दोनों दृष्टिकोणों को हल करने की कोशिश करने वाली समस्या सामान्यीकरण त्रुटि का अनुमान लगाने के लिए है, जो उस डेटा पर सशर्त है जो एक मॉडल को प्रशिक्षित करने के लिए उपयोग किया गया था।

होल्डआउट में पूर्वाग्रह और भिन्नता की समस्या है:

डेटा की मात्रा जिसे हम छोटे पर परीक्षण करते हैं, करके हम अपनी अनुमानित सामान्यीकरण त्रुटि के लिए भिन्नता का परिचय देते हैं, क्योंकि परीक्षण डेटा अंतर्निहित वितरण का बहुत अच्छा प्रतिनिधित्व नहीं कर सकता है। यह स्वयं एक पूर्वाग्रह का परिचय नहीं देता है, क्योंकि अपेक्षा के अनुसार अनुमानित प्रदर्शन सही होगा।

हालांकि प्रशिक्षण सेट को छोटा बनाना निराशावादी पूर्वाग्रह का परिचय देता है, क्योंकि फिर से अंतर्निहित वितरण डेटा में अच्छी तरह से प्रतिनिधित्व नहीं करता है और मॉडल डेटा को भी फिट नहीं कर सकता है। प्रशिक्षण सेट को बहुत छोटा बनाने के साथ-साथ विचरण का भी परिचय दिया जाता है।

प्रशिक्षण और परीक्षण सेट के आकार के रूप में एक दूसरे को निर्धारित करते हैं, यह हमें एक व्यापार के साथ छोड़ देता है: निराशावादी पूर्वाग्रह बनाम उच्च विचरण।

k - k -Fold क्रॉस सत्यापन प्रशिक्षण सेट को बड़ा रखने से इस समस्या से निपटता है ( डेटा के प्रत्येक भाग में का उपयोग हर पुनरावृत्ति में प्रशिक्षण के लिए किया जाता है) और परीक्षण त्रुटि के विचरण से निपटना । सभी पुनरावृत्तियों के बाद, हमने एक सीखने वाले के साथ डेटासेट के हर अवलोकन पर प्रदर्शन का परीक्षण किया है। जाहिर है, इसके लिए साधारण होल्डआउट की तुलना में अधिक गणना समय की आवश्यकता होती है।k1k

अधिक जटिल (उच्च विचरण) सीखने वालों के लिए क्रॉस-वैरीएटिंग विशेष रूप से महत्वपूर्ण है। वे आमतौर पर अधिक महंगी कम्प्यूटेशनल रूप से अच्छी तरह से होते हैं, जो पूरी प्रक्रिया को काफी गहन बना सकते हैं।


3

ये सभी उपयोगी टिप्पणियाँ हैं। बस एक और बात का ध्यान रखें। जब आपके पास पर्याप्त डेटा होता है, तो होल्ड-आउट का उपयोग करना एक विशिष्ट मॉडल (एक विशिष्ट एसवीएम मॉडल, एक विशिष्ट कार्ट मॉडल आदि) का आकलन करने का एक तरीका है, जबकि यदि आप अन्य क्रॉस-सत्यापन प्रक्रियाओं का उपयोग करते हैं, तो आप कार्यप्रणाली का मूल्यांकन कर रहे हैं (आपकी समस्या स्थितियों के तहत) ) के बजाय मॉडल (SVM कार्यप्रणाली, कार्ट पद्धति, आदि)।

आशा है कि यह उपयोगी है!


3

समय गंभीर डेटा के साथ मॉडलिंग मेरे लिए एक अपवाद है। K फोल्ड कुछ मामलों में काम नहीं कर सकता है जब आपको पिछले डेटा के आधार पर भविष्य की भविष्यवाणी करने की आवश्यकता होती है। परीक्षण सेट में भविष्य का डेटा होना चाहिए, और आप उन्हें प्रशिक्षण चरण में कभी नहीं छू सकते हैं। पूर्व बेचने या शेयर बाजार की भविष्यवाणी। उन मामलों में होल्ड आउट उपयोगी है।


समय गंभीर डेटा?
nob

3

सीधे शब्दों में कहें; समय। क्रॉस-मान्यता आप प्रशिक्षण दिनचर्या के समय (यानी एक बार प्रत्येक सेट-आउट सेट के लिए) चलाते हैं। यदि आपके पास बड़ा डेटा है, तो आपको केवल एक डेटा सेट के लिए मॉडल को प्रशिक्षित करने में कई घंटे या दिन भी लग सकते हैं, इसलिए आप क्रॉस-वैलिडेशन का उपयोग करते समय इसे गुणा करें।

इसलिए यद्यपि क्रॉस-वैरिफिकेशन सबसे अच्छा तरीका है, कुछ परिस्थितियों में यह संभव नहीं है, और समय लगेगा कि डेटा को अलग-अलग तरीकों से मॉडलिंग करने में बेहतर खर्च किया जा सकता है, या बेहतर मॉडल प्राप्त करने के लिए विभिन्न नुकसान कार्यों की कोशिश कर रहा है।

मेरी व्यक्तिगत प्राथमिकता पूरे डेटा सेट से सत्यापन डेटा लेना है, इसलिए डेटा के सिर या पूंछ से एक भी 10% हिस्सा लेने के बजाय, मैं डेटा सेट में 5 बिंदुओं से 2% लेता हूं। यह सत्यापन डेटा को समग्र रूप से डेटा का थोड़ा अधिक प्रतिनिधि बनाता है।


भले ही यह एक पुराना सवाल है और एक नया उत्तर है, मैं इसे वोट कर रहा हूं क्योंकि यह आधारहीन दावे को चुनौती देता है कि "के-गुना अधिक सटीक है, लेकिन कम से कम अधिक कम्प्यूटेशनल रूप से महंगा है", जो कि अन्य जवाबों की अनदेखी कर रहे थे या बहुत जल्दी से गुजर रहे थे।
लैकोनिक

0

यह ध्यान दिया जाना चाहिए कि क्रॉस-सत्यापन को लागू करना हमेशा संभव नहीं होता है। समय-निर्भर डेटासेट पर विचार करें जैसे कि आप भविष्य के व्यवहार के लिए एक पूर्वानुमान मॉडल को प्रशिक्षित करने के लिए ऐतिहासिक डेटा का उपयोग करना चाहते हैं। इस मामले में, आपको होल्ड-आउट सत्यापन लागू करना होगा।


2
इस मामले में, आपको आगे का सत्यापन करना चाहिए।
नील जी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.