क्या क्रॉस सत्यापन सत्यापन सेट के लिए एक उचित विकल्प है?


27

पाठ वर्गीकरण में, मेरे पास लगभग 800 नमूनों के साथ एक प्रशिक्षण सेट है, और लगभग 150 नमूनों के साथ एक परीक्षण सेट है। परीक्षण सेट का उपयोग कभी नहीं किया गया है, और अंत तक उपयोग किए जाने की प्रतीक्षा की जा रही है।

मैं पूरे 800 सैंपल ट्रेनिंग सेट का उपयोग कर रहा हूं, जबकि क्लासिफायर और फीचर्स को ट्यूनिंग और ट्विक करते हुए 10 गुना क्रॉस वैरिडेट किया गया है। इसका मतलब है कि मेरे पास एक अलग सत्यापन सेट नहीं है, लेकिन प्रत्येक 10 गुना से बाहर चलाता है, एक सत्यापन सेट स्वचालित रूप से चुना जाता है।

के बाद मैं सब कुछ से संतुष्ट हो जाएगा और मूल्यांकन के अंतिम चरण में प्रवेश करना चाहता हूं, मैं अपने क्लासिफायर को पूरे 800 नमूनों पर प्रशिक्षित करूंगा। और 150 नमूना परीक्षण सेट पर परीक्षण करें।

क्या मेरी समझ पाठ वर्गीकरण में क्रॉस सत्यापन के ऐसे उपयोग को सही है? क्या यह प्रथा वैध है?

एक अन्य सवाल यह है कि राइट क्रॉस सत्यापन क्या है:

10 गुना के बजाय, मैंने प्रदर्शन के लिए सामान्य संकेतक के रूप में एक को छोड़ने की भी कोशिश की। क्योंकि एक को छोड़ने के लिए, f1 / प्रेसिजन / रिकॉल के बारे में जानकारी होना संभव नहीं है, मुझे आश्चर्य है कि 10 गुना से लीव-वन-आउट और मेट्रिक्स से सटीकता के बीच क्या संबंध है?

किसी भी अंतर्दृष्टि बहुत सराहना की जाएगी।


संपादित करें:

यह क्रॉस-वेलिडेशन के लिए काफी अच्छा परिचय है। यह अन्य शोध पत्रों को भी संदर्भित करता है।


3
छुट्टी-एक-आउट अनुमानक निष्पक्ष हैं, जबकि 10 गुना क्रॉस-सत्यापन आपको पक्षपाती (कम त्रुटियों की ओर) देगा। हालांकि, निष्पक्षता एक उच्च विचरण की कीमत पर आती है।
नोबल

@ साइमन, मुझे लगता है कि यह समस्या की जटिलता पर निर्भर करता है। यह नहीं है?
बायोस्टैट

@blubb: कुछ स्थितियों में LOO में एक बड़ा निराशावादी पूर्वाग्रह हो सकता है। LOO की भिन्नता और 10-गुना CV का एक एकल रन आमतौर पर बहुत समान है। यहां आशावादी पूर्वाग्रह (बहुत कम त्रुटि का अनुमान), पुनरुत्पादन की पसंद से नहीं आता है, लेकिन इस तथ्य से कि डेटा संचालित अनुकूलन के लिए पहले से ही क्रोस सत्यापन का उपयोग किया जाता है। उसके बाद, एक और स्वतंत्र सत्यापन की आवश्यकता है। यह क्रॉस वैलिडेशन का "बाहरी" लूप हो सकता है (आशावादी पूर्वाग्रह के बिना!)
cbeleites का समर्थन करता है मोनिका

जवाबों:


15

आपने वास्तव में क्रॉसवैलिडेशन के साथ काम करने का तरीका सही ढंग से वर्णित किया है। वास्तव में, आप अंत में एक उचित सत्यापन सेट करने के लिए 'भाग्यशाली' हैं, क्योंकि अक्सर, क्रॉसवैलिडेशन का उपयोग किसी मॉडल को अनुकूलित करने के लिए किया जाता है, लेकिन कोई "वास्तविक" सत्यापन नहीं किया जाता है।

जैसा कि @Simon स्टेलिंग ने अपनी टिप्पणी में कहा, क्रॉसवैलिडेशन से अनुमानित त्रुटियों को कम किया जा सकेगा (जो समझ में आता है क्योंकि आप लगातार डेटा का पुन: उपयोग कर रहे हैं), लेकिन सौभाग्य से यह सभी मॉडलों के लिए मामला है, इसलिए, कैटस्ट्रॉफी को रोकना (यानी) त्रुटियां केवल कम हो जाती हैं "खराब" मॉडल के लिए थोड़ा, और "अच्छे" मॉडल के लिए और अधिक), उस मॉडल का चयन करना जो एक क्रॉसवैलिड मानदंड पर सबसे अच्छा प्रदर्शन करता है, आमतौर पर "वास्तविक के लिए" भी सबसे अच्छा होगा।

एक विधि जो कभी-कभी कम त्रुटियों के लिए कुछ हद तक सही करने के लिए उपयोग की जाती है, खासकर यदि आप पार्सिमोनस मॉडल की तलाश कर रहे हैं, तो सबसे छोटी मॉडल / सरलतम विधि का चयन करना है जिसके लिए क्रॉसलिविटेड त्रुटि एक से एक एसडी के भीतर (क्रॉसवैलिडेटेड) है। क्रॉसवैलिडेशन के रूप में, यह एक हेयुरिस्टिक है, इसलिए इसका उपयोग कुछ देखभाल के साथ किया जाना चाहिए (यदि यह एक विकल्प है: अपने ट्यूनिंग मापदंडों के खिलाफ अपनी त्रुटियों का एक प्लॉट करें: यह आपको कुछ विचार देगा कि क्या आपके पास स्वीकार्य परिणाम हैं)

त्रुटियों के नीचे के पूर्वाग्रह को देखते हुए, यह उल्लेख किए बिना कि क्रॉसवैलिडेशन से त्रुटियों या अन्य प्रदर्शन माप को प्रकाशित नहीं करना महत्वपूर्ण है , हालांकि ये क्रॉसवैलिडेशन से आते हैं (हालांकि, सच कहा जाए: मैंने बहुत से प्रकाशनों को देखा है जो उल्लेख नहीं करते हैं प्रदर्शन माप को मूल डेटासेट पर प्रदर्शन की जाँच करने से प्राप्त किया गया था --- इसलिए क्रॉसवेलिडेशन का उल्लेख करना वास्तव में आपके परिणामों को अधिक मूल्य देता है )। आपके लिए, यह एक मुद्दा नहीं होगा, क्योंकि आपके पास एक सत्यापन सेट है।

एक अंतिम चेतावनी: यदि आपके मॉडल की फिटिंग कुछ करीबी प्रतियोगियों में परिणत होती है, तो बाद में आपके सत्यापन पर उनके प्रदर्शन को देखना एक अच्छा विचार है, लेकिन उस पर अपने अंतिम मॉडल चयन को आधार बनाएं: आप इसका उपयोग करने के लिए सबसे अच्छा कर सकते हैं विवेक, लेकिन आपके "अंतिम" मॉडल को सत्यापन सेट को देखने से पहले उठाया जाना चाहिए।

अपना दूसरा प्रश्न लिखिए: मेरा मानना ​​है कि साइमन ने आपकी टिप्पणी में आपके सभी उत्तरों की जरूरत है, लेकिन तस्वीर को पूरा करने के लिए: जैसा कि अक्सर होता है, यह पूर्वाग्रह-विचरण व्यापार-बंद है जो खेल में आता है। यदि आप जानते हैं कि, औसतन, आप सही परिणाम (निष्पक्षता) पर पहुंचेंगे, तो आमतौर पर कीमत यह होती है कि आपकी प्रत्येक व्यक्तिगत गणना इससे बहुत दूर हो सकती है (उच्च संस्करण)। पुराने दिनों में, निष्पक्षता nec प्लस अल्ट्रा थी, वर्तमान दिनों में, एक ने कई बार स्वीकार किया है (छोटा) पूर्वाग्रह (इसलिए आपको यह भी पता नहीं है कि आपकी गणना का औसत सही परिणाम देगा), यदि यह कम विचरण में परिणाम। अनुभव से पता चला है कि संतुलन 10-गुना क्रॉसवॉलिडेशन के साथ स्वीकार्य है। आपके लिए, पूर्वाग्रह केवल आपके मॉडल अनुकूलन के लिए एक मुद्दा होगा; चूंकि आप सत्यापन सेट पर बाद में (निष्पक्ष रूप से) कसौटी का अनुमान लगा सकते हैं। जैसे, क्रॉवेलिडेशन का उपयोग न करने का बहुत कम कारण है।


"लेकिन आपका" अंतिम "मॉडल आपको सत्यापन सेट को देखने से पहले चुनना चाहिए था।" अच्छा लगा।
मूनक्रेटर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.