आपने वास्तव में क्रॉसवैलिडेशन के साथ काम करने का तरीका सही ढंग से वर्णित किया है। वास्तव में, आप अंत में एक उचित सत्यापन सेट करने के लिए 'भाग्यशाली' हैं, क्योंकि अक्सर, क्रॉसवैलिडेशन का उपयोग किसी मॉडल को अनुकूलित करने के लिए किया जाता है, लेकिन कोई "वास्तविक" सत्यापन नहीं किया जाता है।
जैसा कि @Simon स्टेलिंग ने अपनी टिप्पणी में कहा, क्रॉसवैलिडेशन से अनुमानित त्रुटियों को कम किया जा सकेगा (जो समझ में आता है क्योंकि आप लगातार डेटा का पुन: उपयोग कर रहे हैं), लेकिन सौभाग्य से यह सभी मॉडलों के लिए मामला है, इसलिए, कैटस्ट्रॉफी को रोकना (यानी) त्रुटियां केवल कम हो जाती हैं "खराब" मॉडल के लिए थोड़ा, और "अच्छे" मॉडल के लिए और अधिक), उस मॉडल का चयन करना जो एक क्रॉसवैलिड मानदंड पर सबसे अच्छा प्रदर्शन करता है, आमतौर पर "वास्तविक के लिए" भी सबसे अच्छा होगा।
एक विधि जो कभी-कभी कम त्रुटियों के लिए कुछ हद तक सही करने के लिए उपयोग की जाती है, खासकर यदि आप पार्सिमोनस मॉडल की तलाश कर रहे हैं, तो सबसे छोटी मॉडल / सरलतम विधि का चयन करना है जिसके लिए क्रॉसलिविटेड त्रुटि एक से एक एसडी के भीतर (क्रॉसवैलिडेटेड) है। क्रॉसवैलिडेशन के रूप में, यह एक हेयुरिस्टिक है, इसलिए इसका उपयोग कुछ देखभाल के साथ किया जाना चाहिए (यदि यह एक विकल्प है: अपने ट्यूनिंग मापदंडों के खिलाफ अपनी त्रुटियों का एक प्लॉट करें: यह आपको कुछ विचार देगा कि क्या आपके पास स्वीकार्य परिणाम हैं)
त्रुटियों के नीचे के पूर्वाग्रह को देखते हुए, यह उल्लेख किए बिना कि क्रॉसवैलिडेशन से त्रुटियों या अन्य प्रदर्शन माप को प्रकाशित नहीं करना महत्वपूर्ण है , हालांकि ये क्रॉसवैलिडेशन से आते हैं (हालांकि, सच कहा जाए: मैंने बहुत से प्रकाशनों को देखा है जो उल्लेख नहीं करते हैं प्रदर्शन माप को मूल डेटासेट पर प्रदर्शन की जाँच करने से प्राप्त किया गया था --- इसलिए क्रॉसवेलिडेशन का उल्लेख करना वास्तव में आपके परिणामों को अधिक मूल्य देता है )। आपके लिए, यह एक मुद्दा नहीं होगा, क्योंकि आपके पास एक सत्यापन सेट है।
एक अंतिम चेतावनी: यदि आपके मॉडल की फिटिंग कुछ करीबी प्रतियोगियों में परिणत होती है, तो बाद में आपके सत्यापन पर उनके प्रदर्शन को देखना एक अच्छा विचार है, लेकिन उस पर अपने अंतिम मॉडल चयन को आधार न बनाएं: आप इसका उपयोग करने के लिए सबसे अच्छा कर सकते हैं विवेक, लेकिन आपके "अंतिम" मॉडल को सत्यापन सेट को देखने से पहले उठाया जाना चाहिए।
अपना दूसरा प्रश्न लिखिए: मेरा मानना है कि साइमन ने आपकी टिप्पणी में आपके सभी उत्तरों की जरूरत है, लेकिन तस्वीर को पूरा करने के लिए: जैसा कि अक्सर होता है, यह पूर्वाग्रह-विचरण व्यापार-बंद है जो खेल में आता है। यदि आप जानते हैं कि, औसतन, आप सही परिणाम (निष्पक्षता) पर पहुंचेंगे, तो आमतौर पर कीमत यह होती है कि आपकी प्रत्येक व्यक्तिगत गणना इससे बहुत दूर हो सकती है (उच्च संस्करण)। पुराने दिनों में, निष्पक्षता nec प्लस अल्ट्रा थी, वर्तमान दिनों में, एक ने कई बार स्वीकार किया है (छोटा) पूर्वाग्रह (इसलिए आपको यह भी पता नहीं है कि आपकी गणना का औसत सही परिणाम देगा), यदि यह कम विचरण में परिणाम। अनुभव से पता चला है कि संतुलन 10-गुना क्रॉसवॉलिडेशन के साथ स्वीकार्य है। आपके लिए, पूर्वाग्रह केवल आपके मॉडल अनुकूलन के लिए एक मुद्दा होगा; चूंकि आप सत्यापन सेट पर बाद में (निष्पक्ष रूप से) कसौटी का अनुमान लगा सकते हैं। जैसे, क्रॉवेलिडेशन का उपयोग न करने का बहुत कम कारण है।