शोधकर्ता एक सत्यापन सेट पर परीक्षण के बजाय 10-गुना क्रॉस सत्यापन का उपयोग क्यों करते हैं?


23

मैंने भावना वर्गीकरण और संबंधित विषयों के बारे में बहुत सारे शोध पत्र पढ़े हैं।

उनमें से अधिकांश प्रशिक्षकों को प्रशिक्षित करने और परीक्षण करने के लिए 10-गुना क्रॉस सत्यापन का उपयोग करते हैं। इसका मतलब है कि कोई अलग परीक्षण / सत्यापन नहीं किया जाता है। ऐसा क्यों है?

इस दृष्टिकोण के क्या फायदे / नुकसान हैं, खासकर शोध करने वालों के लिए?


3
क्या आप सुनिश्चित हैं कि कोई अलग परीक्षण नहीं किया गया था?
डगलस ज़ारे

जवाबों:


17

यह कोई समस्या नहीं है यदि CV नेस्टेड है , अर्थात सभी ऑप्टिमाइज़ेशन, फीचर चयन और मॉडल चयन, चाहे वे स्वयं CV का उपयोग करें या नहीं, एक बड़े CV में लिपटे हुए हैं।

यह एक अतिरिक्त सत्यापन सेट होने की तुलना कैसे करता है? जबकि सत्यापन सेट आमतौर पर पूरे डेटा का एक या अधिक यादृच्छिक रूप से चयनित हिस्सा है, यह सीवी के एक पुनरावृत्ति के बराबर है। यह अंत करने के लिए, यह वास्तव में एक बदतर तरीका है क्योंकि इसे आसानी से (उम्मीद से) सौभाग्य से / अशुभ रूप से चयनित या चेरी-चुने हुए सत्यापन सेट द्वारा पक्षपाती किया जा सकता है।

इसका एकमात्र अपवाद टाइम-सीरीज़ और अन्य डेटा हैं जहां ऑब्जेक्ट ऑर्डर करता है; लेकिन उन्हें किसी भी तरह से विशेष उपचार की आवश्यकता होती है।


16

मुख्य कारण यह है कि के-फोल्ड क्रॉस-वेलिडेशन अनुमानक में सिंगल होल्ड-आउट सेट आकलनकर्ता की तुलना में कम विचरण होता है, जो उपलब्ध डेटा की मात्रा सीमित होने पर बहुत महत्वपूर्ण हो सकता है। यदि आपके पास एक एकल होल्ड सेट है, जहां 90% डेटा का उपयोग प्रशिक्षण के लिए किया जाता है और 10% परीक्षण के लिए उपयोग किया जाता है, तो परीक्षण सेट बहुत छोटा है, इसलिए डेटा के विभिन्न नमूनों के लिए प्रदर्शन अनुमान में बहुत अधिक भिन्नता होगी, या प्रशिक्षण और परीक्षण सेट बनाने के लिए डेटा के विभिन्न विभाजन के लिए। k- गुना सत्यापन, अलग-अलग विभाजनों के औसत से इस भिन्नता को कम करता है, इसलिए डेटा के विभाजन के लिए प्रदर्शन का अनुमान कम संवेदनशील होता है। आप बार-बार के-फोल्ड क्रॉस-वेलिडेशन के द्वारा और भी आगे बढ़ सकते हैं, जहां k के सब-सेट बनाने के लिए डेटा के विभिन्न विभाजन का उपयोग करके क्रॉस-वैरिफिकेशन किया जाता है;

हालाँकि, मॉडल फिटिंग प्रक्रिया (मॉडल चयन, सुविधा चयन आदि) के सभी चरणों को क्रॉस-वैलिडेशन प्रक्रिया के प्रत्येक तह में स्वतंत्र रूप से निष्पादित किया जाना चाहिए, या परिणामी प्रदर्शन अनुमान आशावादी पक्षपाती होगा।


9

[टिप्पणी के आलोक में संपादित]

मुझे लगता है कि यदि आप कई मॉडलों के बीच चयन करने के लिए सीवी परिणाम का उपयोग करते हैं तो एक समस्या है।

सीवी आपको एक मॉडल / विधि को प्रशिक्षित करने और परीक्षण करने के लिए संपूर्ण डेटासेट का उपयोग करने की अनुमति देता है, जबकि यह सामान्य होने के बारे में एक उचित विचार करने में सक्षम है। लेकिन अगर आप कई मॉडलों की तुलना कर रहे हैं, तो मेरी वृत्ति यह है कि मॉडल तुलना ट्रेन-परीक्षण अलगाव के अतिरिक्त स्तर का उपयोग करती है जो सीवी आपको देता है, इसलिए अंतिम परिणाम चुने गए मॉडल की सटीकता का एक उचित अनुमान नहीं होगा।

इसलिए मुझे लगता है कि यदि आप कई मॉडल बनाते हैं और उसके सीवी के आधार पर एक का चयन करते हैं, तो आप जो कुछ भी पाया है उसके बारे में अत्यधिक आशावादी हैं। एक और मान्यता सेट की आवश्यकता होगी कि विजेता कितना सामान्य रूप से देखता है।


धन्यवाद। ये सही है। लेकिन मेरा प्रश्न विशेष रूप से इस बारे में था कि पुनर्विक्रय पत्रों में अंतिम सत्यापन की कमी क्यों है? क्या कोई उचित कारण है? क्या यह कम डेटा के बारे में है या क्योंकि सीवी अच्छा काम करता है और एक अलग सत्यापन की आवश्यकता नहीं है?
user18075

5
डेटा विभाजन का दृष्टिकोण अत्यधिक अक्षम है। जब तक प्रशिक्षण और परीक्षण सेट दोनों बड़े नहीं हो जाते, तब तक अनुमानित भविष्य के प्रदर्शन के अनुमान के लिए अनुमानित चुकता त्रुटि बूटस्ट्रैपिंग के साथ या 10-गुना क्रॉस-सत्यापन के 100 दोहराव के साथ छोटी है, जो मानती है कि फिर से शुरू करने की प्रक्रिया सभी मॉडलिंग चरणों तक पहुंच रखती है। वह शामिल थाY। डेटा विभाजन का उपयोग करें जब आपको माप प्रक्रिया, सर्वेक्षण साधन, या डेटा के अर्थ से संबंधित अन्य प्रक्रियाओं को मान्य करने की आवश्यकता होती है। डेटा विभाजन का एक अच्छा उपयोग तब होता है जब इंस्ट्रूमेंटेशन देश द्वारा भिन्न होता है।
फ्रैंक हरेल

7
  • मेरे अनुभव में, मुख्य कारण यह है कि आपके पास पर्याप्त नमूने नहीं हैं।
    मेरे क्षेत्र में (जैविक / चिकित्सा नमूनों का वर्गीकरण), कभी-कभी एक परीक्षण सेट को अलग रखा जाता है, लेकिन अक्सर इसमें कुछ ही मामले शामिल होते हैं। उस स्थिति में आत्मविश्वास अंतराल आमतौर पर किसी भी उपयोग के लिए व्यापक होते हैं।

  • बार-बार / पुनरावृत्त क्रॉस सत्यापन या बूटस्ट्रैप सत्यापन का एक और लाभ यह है कि आप "सरोगेट" मॉडल का एक गुच्छा बनाते हैं। इन्हें समान माना जाता है। यदि वे नहीं हैं, तो मोड अस्थिर हैं। आप वास्तव में इस अस्थिरता को माप सकते हैं (कुछ प्रशिक्षण मामलों के आदान-प्रदान के संबंध में) या तो सरोगेट मॉडल की तुलना करके या एक ही मामले के लिए अलग-अलग सरोगेट मॉडल की भविष्यवाणी करते हैं।

  • Esbensen & Geladi का यह पेपर क्रॉस वैरिडेशन की कुछ सीमाओं की अच्छी चर्चा करता है।
    आप उनमें से अधिकांश का ध्यान रख सकते हैं, लेकिन एक महत्वपूर्ण बिंदु जिसे वैधानिक सत्यापन से निबटा नहीं जा सकता है, वह बहाव है, जो mbq के बिंदु से संबंधित है:

    इसका एकमात्र अपवाद टाइम-सीरीज़ और अन्य डेटा हैं जहाँ ऑब्जेक्ट ऑर्डर करता है

    बहाव का मतलब है कि समय के साथ धीरे-धीरे एक उपकरण की प्रतिक्रिया / सच अंशांकन बदल जाता है। तो अज्ञात मामलों के लिए सामान्यीकरण त्रुटि भविष्य के अज्ञात मामलों के लिए समान नहीं हो सकती है । यदि आप सत्यापन के दौरान बहाव पाते हैं, तो आप "रीडो कैलिब्रेशन डेली / साप्ताहिक / ..." जैसे निर्देशों पर पहुंचते हैं, लेकिन प्रशिक्षण डेटा की तुलना में इसे बाद में व्यवस्थित रूप से प्राप्त करने की आवश्यकता है।
    (आप "विशेष" विभाजन कर सकते हैं जो खाते के अधिग्रहण के समय में ले जाते हैं, यदि आपका प्रयोग आकस्मिक रूप से नियोजित किया जाता है, लेकिन आमतौर पर यह उतना समय कवर नहीं करेगा जितना आप बहाव का पता लगाने के लिए परीक्षण करना चाहते हैं)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.