होल्ड-आउट का उपयोग अक्सर स्वतंत्र परीक्षण सेट के सत्यापन के साथ किया जाता है, हालांकि डेटा को यादृच्छिक रूप से विभाजित करने और स्वतंत्र परीक्षण के लिए सत्यापन प्रयोग को डिजाइन करने के बीच महत्वपूर्ण अंतर हैं।
स्वतंत्र परीक्षण सेटों का उपयोग सामान्यीकरण प्रदर्शन को मापने के लिए किया जा सकता है जिसे फिर से खोलना या होल्ड-आउट सत्यापन द्वारा मापा नहीं जा सकता है, उदाहरण के लिए अज्ञात भविष्य के मामलों के लिए प्रदर्शन (= मामले जो बाद में मापा जाता है, प्रशिक्षण समाप्त होने के बाद)। यह जानना महत्वपूर्ण है कि किसी मौजूदा मॉडल को नए डेटा के लिए कब तक इस्तेमाल किया जा सकता है (जैसे कि इंस्ट्रूमेंट ड्रिफ्ट का उदाहरण)। अधिक सामान्यतः, इसे प्रयोज्यता की सीमाओं को परिभाषित करने के लिए एक्सट्रपलेशन प्रदर्शन को मापने के रूप में वर्णित किया जा सकता है।
एक अन्य परिदृश्य जहां होल्ड-आउट वास्तव में फायदेमंद हो सकता है: यह सुनिश्चित करना बहुत आसान है कि प्रशिक्षण और परीक्षण डेटा को ठीक से अलग किया गया है - सत्यापन को फिर से शुरू करने की तुलना में बहुत आसान है: उदा।
- बंटवारे का फैसला (जैसे मामलों के यादृच्छिक असाइनमेंट)
- माप
- प्रशिक्षण मामलों के माप और संदर्भ डेटा => मॉडलिंग \ न ही माप और न ही परीक्षण मामलों का संदर्भ उस व्यक्ति को सौंपा जाता है जो मॉडल है।
- अंतिम मॉडल + आयोजित मामलों के माप => भविष्यवाणी
- आयोजित मामलों के संदर्भ के साथ भविष्यवाणियों की तुलना करें।
आपके द्वारा अलग किए जाने के स्तर के आधार पर, प्रत्येक चरण किसी और के द्वारा किया जा सकता है। पहले स्तर के रूप में, मॉडलर को परीक्षण मामलों के किसी भी डेटा (माप भी नहीं) को सौंपना बहुत निश्चित है कि कोई भी परीक्षण डेटा मॉडलिंग प्रक्रिया में लीक नहीं होने देता है। दूसरे स्तर पर, अंतिम मॉडल और परीक्षण मामले के माप अभी तक किसी और को सौंपे जा सकते हैं, और इसी तरह।
हां, आप इसके लिए भुगतान करते हैं कि होल्डम सत्यापन की तुलना में होल्ड-आउट अनुमानों की कम दक्षता से। लेकिन मैंने कई कागजात देखे हैं, जहां मुझे संदेह है कि रेज़मैप्लिंग सत्यापन ठीक से अलग-अलग मामलों में नहीं होता है (मेरे क्षेत्र में हमारे पास बहुत सारे क्लस्टर / पदानुक्रमित / समूहीकृत डेटा हैं)।
मैंने प्रस्तुत करने के एक हफ्ते बाद पांडुलिपि को फिर से जमा करके डेटा लीक पर अपना सबक सीखा है, जब मुझे पता चला कि मैं अपनी विभाजन प्रक्रिया (सूचकांक गणना में टाइपो) के साथ लीक से पहले अनडेटेड था (क्रमपरिवर्तन परीक्षण चलाकर)।
कभी-कभी होल्ड-आउट किसी ऐसे व्यक्ति को खोजने से अधिक कुशल हो सकता है जो परिणामों के बारे में एक समान स्तर हासिल करने के लिए, पुन: नमूना कोड (जैसे संकुल डेटा के लिए) की जांच करने के लिए समय देने के लिए तैयार है। हालाँकि, आईएमएचओ आमतौर पर ऐसा करने के लिए कुशल नहीं है इससे पहले कि आप उस चरण में हैं जहां आपको किसी भी तरह से भविष्य के प्रदर्शन (पहले बिंदु) को मापने की आवश्यकता है - दूसरे शब्दों में, जब भी आपको मौजूदा मॉडल के लिए सत्यापन प्रयोग स्थापित करने की आवश्यकता होती है।
OTOH, छोटे नमूना आकार की स्थितियों में, होल्ड-आउट कोई विकल्प नहीं है: आपको पर्याप्त परीक्षण मामलों को रखने की आवश्यकता है ताकि आवश्यक निष्कर्ष की अनुमति देने के लिए परीक्षण के परिणाम पर्याप्त सटीक हों (याद रखें: वर्गीकरण के लिए 3 परीक्षण मामलों में से 3 सही का मतलब है द्विपद ९ ५% आत्मविश्वास अंतराल जो ५०:५० के नीचे अच्छी तरह से अनुमान लगाता है!) फ्रैंक हरेल अंगूठे के शासन को इंगित करेगा कि कम से कम सीए। 100 (परीक्षण) मामलों में एक अनुपात को ठीक से मापने की आवश्यकता होती है [जैसे कि एक सटीक परिशुद्धता के साथ सही ढंग से अनुमानित मामलों का अंश]।
अद्यतन: ऐसी परिस्थितियां हैं जहां उचित विभाजन विशेष रूप से प्राप्त करना कठिन है, और क्रॉस सत्यापन अक्षम्य हो जाता है। कई कन्फ़्यूज़न वालों के साथ एक समस्या पर विचार करें। बंटवारा करना आसान है अगर इन कन्फ्यूडर को सख्ती से घोंसला दिया जाता है (जैसे कई रोगियों के साथ एक अध्ययन में प्रत्येक रोगी के कई नमूने हैं और प्रत्येक नमूने की कई कोशिकाओं का विश्लेषण करता है): आप नमूना पदानुक्रम (रोगी-वार) के उच्चतम स्तर पर विभाजित होते हैं । लेकिन आपके पास स्वतंत्र कन्फ़्यूडर हो सकते हैं जो नेस्टेड नहीं हैं, उदाहरण के लिए दिन-प्रतिदिन की भिन्नता या परीक्षण चलाने वाले अलग-अलग एक्सपेरिमेंट्स के कारण भिन्नता। फिर आपको यह सुनिश्चित करने की आवश्यकता है कि विभाजन सभी के लिए स्वतंत्र हैउच्चतम स्तर पर भ्रामक (नेस्टेड कन्फ़्यूडर स्वचालित रूप से स्वतंत्र होंगे)। इसका ध्यान रखना बहुत मुश्किल है अगर कुछ कन्फ्यूडर केवल अध्ययन के दौरान पहचाने जाते हैं, और एक प्रयोग को डिजाइन करना और एक सत्यापन प्रयोग करना विभाजन से निपटने की तुलना में अधिक कुशल हो सकता है जो न तो प्रशिक्षण के लिए लगभग कोई डेटा छोड़ता है और न ही सरोगेट मॉडल के परीक्षण के लिए।