आप कैसे तय करते हैं कि आपकी ट्रेन, सत्यापन और परीक्षण प्रतिशत क्या हैं?


10

प्रशिक्षण, सत्यापन और परीक्षण सेट में अपने लेबल किए गए डेटा को विभाजित करते समय, मैंने 50/25/25 से 85/5/10 तक सब कुछ सुना है। मुझे यकीन है कि यह इस बात पर निर्भर करता है कि आप अपने मॉडल का उपयोग कैसे करने जा रहे हैं और अपने सीखने के एल्गोरिथ्म को ओवरफिट करने के लिए कैसे प्रवण हैं। क्या यह तय करने का एक तरीका है या क्या यह सब अंगूठे के नियम से है? यहां तक ​​कि ELSII विषय पर अस्पष्ट लगता है।


इस Stackoverflow Q & A के पास विषय पर दो अच्छे उत्तर हैं> प्रत्येक में 30 अपवोट हैं। stackoverflow.com/questions/13610074/…
ल्यूक सिंघम

जवाबों:


13

जब तक आपके पास एक बड़ा नमूना (जैसे, ) है , तब तक बिना नमूना बदलने (बिना मान्यता के, क्रॉस-सत्यापन, या बूटस्ट्रैपिंग) का नमूना सत्यापन मान्य नहीं है । बूटस्ट्रैप का उपयोग करते हुए कठोर आंतरिक सत्यापन आमतौर पर पसंद किया जाता है, यह मानते हुए कि आप सभी मॉडल चयन चरणों को प्रोग्राम करते हैं ताकि उन्हें प्रत्येक बूटस्ट्रैप लूप में दोहराया जा सके। और स्प्लिट सैंपल एप्रोच के साथ समस्याओं में से एक, अस्थिरता के अलावा, स्प्लिट फ्रैक्शंस को चुनने में कठिनाई है।N>20000


और क्या होगा यदि आप 10000 <N <1000000 के बड़े पैमाने पर डेटा (लेकिन बड़े डेटा नहीं) पर काम कर रहे हैं? उस बिंदु पर विभाजन उचित लगता है। यह कई फिट बैठता है, लेकिन सभी नहीं, स्थितियों मैं मुठभेड़।
एड फाइन

यह काफी उचित हो सकता है।
फ्रैंक हरेल

मेरे पास N = 95,000,000 (9,500,000 का सेट आउट) है। एक संदर्भ कहां है जो मुझे बताता है कि मुझे अपना प्रयोग 10x दोहराना नहीं है?
22

2
बस दो बार दौड़ें (2 विभाजन) और आप बताएंगे कि परिणाम कितने भिन्न हैं। वे शायद इतने कम भिन्न होते हैं कि आपको केवल एक विभाजन की आवश्यकता होती है। इतने बड़े नमूने के आकार के अनुपात के लिए एक विश्वास अंतराल की चौड़ाई के बारे में सोचें।
फ्रैंक हेरेल 23

3

आवेदन के आधार पर, आप अनिश्चितता को छोड़ सकते हैं, और इसके बजाय बूटस्ट्रैपिंग का उपयोग कर सकते हैं।

विकी: http://en.wikipedia.org/wiki/Bootstrapping_(statistics)

संबंधित प्रश्न यहां सत्यापन और मॉडल चयन के लिए बूटस्ट्रैपिंग को समझना


3

निश्चित रूप से आपको भी (डबल) रेसमलिंग के लिए विभाजन अनुपात के बारे में फैसला करना होगा ...

हालांकि, रेज़मैपलिंग आमतौर पर विभाजन अनुपात की एक विस्तृत श्रृंखला के लिए काम करता है, यदि आप ध्यान में रखते हैं

  • यदि ऐसा नहीं होता है, तो संभव है कि अलग-अलग रनों की संख्या कम हो
  • अंतर प्रशिक्षण सेट में पर्याप्त प्रशिक्षण मामलों को छोड़ दें ताकि ट्रेसिंग एल्गोरिथ्म में एक उपयोगी मॉडल का उत्पादन करने का एक अच्छा मौका हो।
  • आपके पास जितने अधिक स्वतंत्र मामले हैं, कम महत्वपूर्ण ये विचार हैं।

और क्या होगा यदि आप 10000 <N <1000000 के बड़े पैमाने पर डेटा (लेकिन बड़े डेटा नहीं) पर काम कर रहे हैं?

आप क्या कर सकते हैं यदि आप सुनिश्चित नहीं हैं कि मट्ठा पुनर्जीवन की आवश्यकता है: कुछ समय फिर से भरना। पर्याप्त है ताकि आप माप सकें कि क्या रेज़मैपलिंग आवश्यक था।

  • अपनी भविष्यवाणियों की स्थिरता की जाँच करें
  • अपने मॉडल मापदंडों की स्थिरता की जांच करें

इन परिणामों के साथ, आप यह तय कर सकते हैं कि आपको अधिक रेज़मैप्लिंग पुनरावृत्तियों को जोड़ना चाहिए या क्या चीजें ठीक हैं जैसा कि वे हैं।


2

इसके लिए कोई कठिन और तेज़ नियम नहीं है। लेकिन अनुभवजन्य विश्लेषण से पता चला कि आपके पास जितना अधिक प्रशिक्षण डेटा होगा, आपकी सटीकता उतनी ही बेहतर होगी। लेकिन जो कुछ भी आप करते हैं, अपने सभी प्रशिक्षण / सत्यापन / परीक्षण डेटा को एक साथ रखना न भूलें और जब आप लपेट रहे हों तो 10 गुना सीवी करें। यह आपके प्रयोग के दौरान ओवरफिट / कम समस्या होने के बारे में बहुत अच्छी जानकारी देता है।


1

मुझे लगता है कि यह सब मायने रखता है कि आप किन सवालों के जवाब देने की कोशिश कर रहे हैं। क्या आप कई एल्गोरिदम के बीच प्रदर्शन अंतर के सटीक दृष्टिकोण में रुचि रखते हैं? फिर आपको एक काफी बड़े सत्यापन सेट की आवश्यकता है। क्या आप रुचि रखते हैं कि एन = 10000 नमूनों के लिए एल्गोरिथ्म कितना अच्छा प्रदर्शन करता है? फिर आपको ट्रेन सेट में कम से कम 10000 नमूने रखने चाहिए।

एक बड़ा सत्यापन सेट आपको आपके परिणामों के बारे में अधिक सांख्यिकीय निश्चितता प्रदान करता है, लेकिन निश्चितता एक एल्गोरिथ्म के प्रदर्शन के बारे में है जिसे कम नमूनों पर प्रशिक्षित किया गया था, जो कि अंत में आप के बाद नहीं हो सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.