मेरी समझ यह है कि क्रॉस सत्यापन और मॉडल चयन के साथ हम दो चीजों को संबोधित करने की कोशिश करते हैं:
P1 । हमारे नमूने के साथ प्रशिक्षण के दौरान आबादी पर अपेक्षित नुकसान का अनुमान लगाएं
पी 2 । इस अनुमान की हमारी अनिश्चितता को मापें और रिपोर्ट करें (भिन्नता, विश्वास अंतराल, पूर्वाग्रह, आदि)
मानक अभ्यास बार-बार क्रॉस सत्यापन करने के लिए लगता है, क्योंकि यह हमारे अनुमानक के विचरण को कम करता है।
हालाँकि, जब रिपोर्टिंग और विश्लेषण की बात आती है, तो मेरी समझ यह है कि आंतरिक सत्यापन बाहरी सत्यापन से बेहतर है क्योंकि:
रिपोर्ट करना बेहतर है:
- हमारे अनुमानक के आँकड़े, जैसे कि पूर्ण नमूने पर इसका आत्मविश्वास अंतराल, विचरण, माध्य आदि। (इस मामले में CV नमूना)।
रिपोर्टिंग से:
मूल नमूने के एक होल्ड-आउट सबसेट पर हमारे अनुमानक का नुकसान, चूंकि:
(i) यह एक एकल माप होगा ( भले ही हम सीवी के साथ अपना अनुमानक चुनें )
(ii) इस एकल मापक के लिए हमारे आकलनकर्ता को एक सेट (जैसे सीवी सेट) पर प्रशिक्षित किया गया होगा जो कि हमारे प्रारंभिक नमूने से छोटा है क्योंकि हमें होल्ड-आउट सेट के लिए जगह बनाना है। इससे P1 में अधिक पक्षपाती (निराशावादी) अनुमान होता है ।
क्या ये सही है? यदि नहीं तो क्यों?
पृष्ठभूमि:
पाठ्यपुस्तकों को खोजना आसान है जो आपके नमूने को दो सेटों में विभाजित करने की सलाह देते हैं:
- सीवी सेट, जो बाद में और बार बार में बांटा गया है ट्रेन और सत्यापन सेट।
- पकड़-आउट (परीक्षण) सेट, केवल अंत में इस्तेमाल किया आकलनकर्ता प्रदर्शन की रिपोर्ट
मेरा प्रश्न इस पाठ्यपुस्तक दृष्टिकोण की खूबियों और फायदों को समझने का एक प्रयास है, यह देखते हुए कि हमारा लक्ष्य इस पोस्ट की शुरुआत में वास्तव में P1 और P2 की समस्याओं का समाधान करना है । यह मुझे लगता है कि सीवी नमूने के विश्लेषण अधिक जानकारीपूर्ण होने के बाद से होल्ड-आउट टेस्ट सेट पर रिपोर्टिंग खराब अभ्यास है।
नेस्टेड के-गुना बनाम दोहराया के-गुना:
नेस्टेड के-फोल्ड प्राप्त करने के लिए नियमित के-फोल्ड के साथ सैद्धांतिक रूप से होल्ड-आउट को जोड़ सकते हैं । यह हमें हमारे अनुमानक की परिवर्तनशीलता को मापने की अनुमति देगा, लेकिन यह मुझे दिखता है कि प्रशिक्षित कुल मॉडलों की एक ही संख्या के लिए (कुल # सिलवटों) ने दोहराया के-गुना ऐसे अनुमानों का उत्पादन करेगा जो कम पक्षपाती हैं और नेस्टेड के की तुलना में अधिक सटीक हैं- तह। इसे देखने के लिए:
- बार-बार K-fold हमारे कुल नमूने के बड़े हिस्से का उपयोग करता है, जो कि K के लिए नेस्टेड-फोल्ड की तुलना में अधिक होता है (यानी यह निम्न बायल की ओर जाता है)
- 100 पुनरावृत्तियों केवल नेस्टेड K-fold (K = 10) में हमारे अनुमानक के 10 माप देगा, लेकिन K- गुना में 100 माप (अधिक माप P2 में कम विचरण की ओर जाता है )
इस तर्क में क्या गलत है?