पहले मुझे प्रश्न में प्रयुक्त शब्दों को स्पष्ट करने दें जैसा कि मैं समझता हूं। हम आम तौर पर एक प्रशिक्षण डेटासेट के साथ शुरू करते हैं, विभिन्न मॉडलों (या हाइपरपरमेटर्स के सेट) का परीक्षण करने के लिए के-फोल्ड क्रॉस सत्यापन का उपयोग करते हैं, और सबसे कम सीवी त्रुटि वाले सर्वश्रेष्ठ मॉडल का चयन करते हैं। तो 'परीक्षण त्रुटि का क्रॉस-वेलिडेशन अनुमान' का अर्थ है परीक्षण त्रुटि के रूप में सबसे कम सीवी त्रुटि का उपयोग करना, न कि एक यादृच्छिक मॉडल की सीवी त्रुटि (जो कि केसलेबाइट द्वारा चर्चा की गई मामला है, लेकिन यह वह नहीं है जो हम सामान्य रूप से करते हैं।) प्रश्न में 'वास्तविक परीक्षण त्रुटि' त्रुटि है जो हम अनंत टेस्ट डेटासेट में सर्वश्रेष्ठ सीवी मॉडल को लागू करते समय प्राप्त करते हैं, यह मानते हुए कि हम प्राप्त कर सकते हैं। सीवी त्रुटि हमारे पास मौजूद विशेष डेटासेट पर निर्भर है, और वास्तविक परीक्षण त्रुटि चयनित सीवी मॉडल पर निर्भर है, जो प्रशिक्षण डेटासेट पर भी निर्भर है। तो CV त्रुटि और परीक्षण त्रुटि के बीच अंतर विभिन्न प्रशिक्षण डेटासेट पर निर्भर है। फिर प्रश्न बन जाता है, अगर हम अलग-अलग प्रशिक्षण डेटासेट के साथ कई बार प्रक्रिया को दोहराते हैं और क्रमशः दो त्रुटियों को औसत करते हैं, तो औसत सीवी त्रुटि औसत परीक्षण त्रुटि से कम है, यानी सीवी त्रुटि नीचे की ओर पक्षपाती है? लेकिन उससे पहले, क्या यह हमेशा होता है?
आम तौर पर यह असंभव है कि कई प्रशिक्षण डेटासेट और टेस्ट डेटासेट हों जिसमें अनंत पंक्तियाँ हों। लेकिन सिमुलेशन द्वारा उत्पन्न डेटा का उपयोग करके ऐसा करना संभव है। ट्रेवर हस्ति, एट अल द्वारा "द एलिमेंट्स ऑफ स्टैटिस्टिकल लर्निंग" पुस्तक के "अध्याय 7 मॉडल मूल्यांकन और चयन" में। , इसमें ऐसे सिमुलेशन प्रयोग शामिल हैं।
निष्कर्ष यह है कि, CV या बूटस्ट्रैप का उपयोग करते हुए, "... एक विशेष प्रशिक्षण सेट के लिए परीक्षण त्रुटि का अनुमान सामान्य रूप से आसान नहीं है, बस उसी प्रशिक्षण सेट से डेटा दिया गया है"। 'आसान नहीं' से उनका मतलब है कि सीवी त्रुटि या तो अलग-अलग प्रशिक्षण डेटा सेट के आधार पर सही परीक्षण त्रुटि को कम या कम कर सकती है, अर्थात विभिन्न प्रशिक्षण डेटासेट के कारण भिन्नता बहुत बड़ी है। पूर्वाग्रह के बारे में कैसे? जिस केएनएन और रैखिक मॉडल का उन्होंने परीक्षण किया, वे लगभग पक्षपाती नहीं हैं: सीवी त्रुटि असली परीक्षण त्रुटि को 0-4% से अधिक है, लेकिन कुछ मॉडल "जैसे पेड़, क्रॉस-सत्यापन और बूट-स्ट्रैप 10% से वास्तविक त्रुटि को कम कर सकते हैं, क्योंकि सर्वश्रेष्ठ वृक्ष की खोज सत्यापन सेट से बहुत प्रभावित होती है "।
योग करने के लिए, एक विशेष प्रशिक्षण डाटासेट के लिए, सीवी त्रुटि सही परीक्षण त्रुटि से अधिक या कम हो सकती है। पूर्वाग्रह के लिए, माध्य CV त्रुटि मॉडलिंग के तरीकों के आधार पर औसत परीक्षण त्रुटि की तुलना में थोड़ा अधिक से बहुत कम तक हो सकती है।
जैसा कि ऊपर बताया गया है, कम करके आंका जाने का कारण यह है कि सबसे अच्छे मॉडल के लिए हाइपरपरमेटर्स का चयन अंततः हमें प्राप्त होने वाले विशेष प्रशिक्षण डेटासेट पर निर्भर करता है। थोड़ा विस्तार से बताएं, इस विशेष प्रशिक्षण डाटासेट में सबसे अच्छा हाइपरपैरामीटर एम 1 है। लेकिन, एम 1 अन्य प्रशिक्षण डेटासेट पर सबसे अच्छा हाइपरपैरामीटर नहीं हो सकता है, जिसका अर्थ है कि न्यूनतम सीवी त्रुटि एम 1 से सीवी त्रुटि से कम है। इस प्रकार अपेक्षित CV त्रुटियां जो हमें प्रशिक्षण प्रक्रिया से प्राप्त होती हैं, वह M1 की अपेक्षित CV त्रुटि से बहुत कम है। किसी विशेष प्रशिक्षण डाटासेट से न्यूनतम सीवी त्रुटि का केवल तभी पक्षपात नहीं होता है जब सर्वश्रेष्ठ मॉडल हमेशा प्रशिक्षण डेटासेट से सबसे अच्छा स्वतंत्र होता है। दूसरी ओर, CV त्रुटि भी कुछ हद तक सत्य परीक्षण त्रुटि को कम कर सकती है, जैसा कि cbeleites द्वारा चर्चा की गई है। ऐसा इसलिए है क्योंकि मॉडल को प्रशिक्षित करने के लिए थोड़े कम प्रशिक्षण डेटा का उपयोग करके के गुना सीवी त्रुटि प्राप्त की जाती है (10 गुना सीवी के लिए, 90% डेटा का उपयोग करें), यह सच त्रुटि के खिलाफ पक्षपाती है, लेकिन ज्यादा नहीं। इसलिए दो पक्षपात अलग-अलग दिशाओं में जा रहे हैं। मॉडलिंग विधि के लिए, कम सीवी, उदाहरण के लिए 5-गुना बनाम 10-गुना का उपयोग करके ओवरफिट जाता है, जिसके परिणामस्वरूप कम पूर्वाग्रह हो सकता है।
सभी कहा जा रहा है, यह अभ्यास में बहुत अधिक मदद नहीं करता है: हम आमतौर पर केवल एक 'विशेष' डेटासेट प्राप्त करते हैं। यदि हम परीक्षण डेटा के रूप में 15% से 30% तक रखते हैं, और शेष डेटा पर सीवी द्वारा सर्वश्रेष्ठ मॉडल का चयन करते हैं, तो संभावना है कि सीवी त्रुटि परीक्षण त्रुटि से अलग होगी क्योंकि दोनों अपेक्षित परीक्षण त्रुटि से अलग हैं। हमें संदेह हो सकता है कि सीवी त्रुटि परीक्षण त्रुटि की तुलना में बहुत कम है, लेकिन हम यह नहीं जान पाएंगे कि कौन सच्ची परीक्षा त्रुटि के करीब है। दोनों मेट्रिक्स को प्रस्तुत करने के लिए सबसे अच्छा अभ्यास बस हो सकता है।