मॉडल फिटिंग / प्रशिक्षण और सत्यापन के लिए उपयोग किए गए नमूना डेटा के अनुपात की गणना


9

एक नमूना आकार "एन" प्रदान किया है जो मैं पूर्वानुमान डेटा का उपयोग करने की योजना बना रहा हूं। डेटा को वश में करने के कुछ तरीके क्या हैं ताकि मैं इसका उपयोग किसी मॉडल को स्थापित करने के लिए करूं, और शेष डेटा को मॉडल को मान्य करने के लिए?

मुझे पता है कि इसका कोई काला और सफेद जवाब नहीं है, लेकिन कुछ "अंगूठे के नियम" या आमतौर पर इस्तेमाल किए गए अनुपात को जानना दिलचस्प होगा। मैं विश्वविद्यालय में वापस जानता हूं, हमारे एक प्रोफेसर 60% पर मॉडल कहते थे और 40% पर मान्य थे।

जवाबों:


7

जैसा कि आपने कहा कि कोई श्वेत और श्याम उत्तर नहीं है। मैं आम तौर पर डेटा को 2 भागों में विभाजित नहीं करता, लेकिन इसके बजाय k- गुना क्रॉस सत्यापन जैसे तरीकों का उपयोग करता हूं।

K- गुना क्रॉस सत्यापन में आप अपने डेटा को k भागों में बेतरतीब ढंग से विभाजित करते हैं और अपने मॉडल को k-1 भागों पर फिट करते हैं और बाईं ओर के भाग की त्रुटियों का परीक्षण करते हैं। आप प्रत्येक भाग को एक-एक करके छोड़ते हुए प्रक्रिया को कश्मीर बार दोहराते हैं। मॉडल त्रुटि के संकेत के रूप में आप प्रत्येक k पुनरावृत्तियों में से प्रत्येक के लिए माध्य त्रुटि ले सकते हैं। यह वास्तव में अच्छी तरह से काम करता है यदि आप विभिन्न मॉडलों की भविष्य कहनेवाला शक्ति की तुलना करना चाहते हैं।

K- गुना क्रॉस सत्यापन का एक चरम रूप सामान्यीकृत क्रॉस सत्यापन है जहां आप परीक्षण के लिए केवल एक डेटा बिंदु छोड़ देते हैं और शेष सभी बिंदुओं के लिए मॉडल फिट करते हैं। फिर प्रत्येक डेटा बिंदु को एक-एक करके छोड़ते हुए प्रक्रिया को n बार दोहराएं। मैं आम तौर पर सामान्यीकृत क्रॉस सत्यापन पर के-गुना क्रॉस सत्यापन पसंद करता हूं ... बस एक व्यक्तिगत पसंद


2
मॉडल के चयन के लिए पूर्ण सेट का उपयोग करते हुए, हुह? यह एक सामान्य त्रुटि है (अभी भी विकिपीडिया इसका उल्लेख करता है), क्योंकि यह एक छिपा हुआ ओवरफिट है। आपको यह सही करने के लिए एक उच्च स्तरीय सीवी बनाने या कुछ परीक्षण छोड़ने की आवश्यकता है।

5

यह वास्तव में आपके पास मौजूद डेटा की मात्रा, तरीकों की विशिष्ट लागत और वास्तव में आप अपना परिणाम कैसे चाहते हैं, पर निर्भर करता है।

कुछ उदाहरण:

यदि आपके पास बहुत कम डेटा है, तो आप शायद क्रॉस-वैलिडेशन (k- गुना, लीव-वन-आउट, आदि) का उपयोग करना चाहते हैं। आपका मॉडल संभवतः किसी भी तरह से प्रशिक्षित और परीक्षण करने के लिए अधिक संसाधन नहीं लेगा। यह आपके डेटा का अधिकतम लाभ उठाने के अच्छे तरीके हैं

आपके पास बहुत अधिक डेटा है: आप संभवतः एक बड़ा परीक्षण सेट लेना चाहते हैं, यह सुनिश्चित करते हुए कि बहुत कम संभावना होगी कि कुछ अजीब नमूने आपके परिणामों को बहुत अधिक विचरण देंगे। आपको कितना डेटा लेना चाहिए? यह आपके डेटा और मॉडल पर पूरी तरह से निर्भर करता है। उदाहरण के लिए भाषण मान्यता में, यदि आप बहुत अधिक डेटा लेते हैं (मान लें कि 3000 वाक्य), तो आपके प्रयोगों में कुछ दिन लगेंगे, क्योंकि 7-10 का रियलटाइम कारक आम है। यदि आप बहुत कम लेते हैं, तो यह उन वक्ताओं पर बहुत अधिक निर्भर करता है जिन्हें आप चुन रहे हैं (जो प्रशिक्षण सेट में अनुमति नहीं है)।

यह भी याद रखें, बहुत सारे मामलों में सत्यापन / विकास सेट होना भी अच्छा है!


5

1:10 परीक्षण: ट्रेन अनुपात लोकप्रिय है क्योंकि यह गोल दिखता है, 1: 9 10-गुना सीवी के कारण लोकप्रिय है, 1: 2 लोकप्रिय है क्योंकि यह भी गोल है और बूटस्ट्रैप को फिर से जोड़ता है। कभी-कभी किसी को कुछ डेटा-विशिष्ट मानदंडों से परीक्षण मिलता है, उदाहरण के लिए पिछले साल परीक्षण के लिए, प्रशिक्षण के लिए वर्षों पहले।

सामान्य नियम ऐसा है: ट्रेन काफी बड़ी होनी चाहिए ताकि सटीकता में काफी गिरावट न हो और यादृच्छिक उतार-चढ़ाव को शांत करने के लिए परीक्षण काफी बड़ा होना चाहिए।

फिर भी मैं CV को प्राथमिकता देता हूं, क्योंकि यह आपको त्रुटि का वितरण भी देता है।


4

के-फोल्ड उत्तर पर एक विस्तार के रूप में, कश्मीर की "सामान्य" पसंद या तो 5 या 10 है। छुट्टी-एक-आउट विधि में मॉडल का उत्पादन करने की प्रवृत्ति होती है जो बहुत रूढ़िवादी हैं। FYI करें, इस तथ्य पर एक संदर्भ है:

शाओ, जे। (1993), लीनियर मॉडल सिलेक्शन बाय क्रॉस-वैलिडेशन, जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन, वॉल्यूम। 88, नंबर 422, पीपी 486-494


क्या आपने भी इस पेपर को पढ़ा है? फिर भी यह केवल रैखिक मॉडल के लिए काम करता है (यहां तक ​​कि शीर्षक इसे दिखाता है!) यह अनंत संख्या में वस्तुओं के लिए असममित व्यवहार के बारे में है। 100 रास्ता पर्याप्त नहीं है।

1
और मेरी इच्छा है कि आप 9 वस्तुओं के साथ सेट पर 10 गुना क्रॉस वैरिफिकेशन करें।

@mbq: मैं "सामान्य" विकल्प कहता हूं। हर पसंद का मतलब नहीं है
अल्बर्ट

@mbq: मैंने पेपर पढ़ा है; शाओ केवल 40 टिप्पणियों के साथ एक सिमुलेशन अध्ययन पर रिपोर्ट करता है, और दिखाता है कि एलओओसीवी मोंटे-कार्लो सीवी को छोड़ देता है, इस मामले को छोड़कर जहां कोई भी उप-विभाजन उपयुक्त नहीं है (पूर्ण सुविधा सेट इष्टतम है)। 100 से अधिक तरीका पर्याप्त है, कम से कम रैखिक मॉडल में सबसेट चयन के लिए।
शाबाइशेफ

@shabbychef तुम मुझे यहाँ मिल गए हो; मेरी पहली टिप्पणी में दूसरा तर्क निश्चित रूप से एक कबाड़ है, मेरे मन में कुछ और काम थे और यह अतिशयोक्तिपूर्ण था। फिर भी, मैं अभी भी तर्क दूंगा कि शाओ का पेपर सामान्य "LOO विफलताओं के लिए बड़े एन" के लिए एक अच्छा संदर्भ नहीं है क्योंकि इसका दायरा रैखिक मॉडल के लिए कम है।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.