आमतौर पर अंतर ध्यान देने योग्य है, और इसलिए मेरा सवाल है - क्या आप एक उदाहरण के बारे में सोच सकते हैं जब एक प्रकार का परिणाम दूसरे से काफी भिन्न होता है?
मुझे यकीन नहीं है कि सभी अंतर ध्यान देने योग्य है, और केवल तदर्थ उदाहरण में यह ध्यान देने योग्य होगा। क्रॉस-वेलिडेशन और बूटस्ट्रैपिंग (उप-नमूनाकरण) दोनों तरीके उनके डिजाइन मापदंडों पर गंभीर रूप से निर्भर करते हैं, और यह समझ अभी तक पूरी नहीं हुई है। सामान्य तौर पर, के -फोल्ड क्रॉस-वैलिडेशन के भीतर परिणाम सिलवटों की संख्या पर गंभीर रूप से निर्भर करते हैं, इसलिए आप उप-नमूनाकरण में जो भी देखेंगे, उससे हमेशा अलग परिणाम की उम्मीद कर सकते हैं।
बिंदु में मामला: कहते हैं कि आपके पास निश्चित संख्या में मापदंडों के साथ एक सच रैखिक मॉडल है। यदि आप k- गुना क्रॉस-वैलिडेशन (किसी दिए गए, निश्चित k के साथ) का उपयोग करते हैं, और टिप्पणियों की संख्या को अनंत तक जाने देते हैं, तो k-fold क्रॉस सत्यापन मॉडल चयन के लिए असंगत होगा, अर्थात, यह एक गलत मॉडल की पहचान करेगा 0. से अधिक संभावना है। यह आश्चर्यजनक परिणाम जून शाओ के कारण होता है, " अमेरिकी सांख्यिकी संघ , 88 , 486-494 (1993) के जर्नल " क्रॉस-वैलिडेशन द्वारा रैखिक मॉडल चयन " , लेकिन इस नस में अधिक कागजात मिल सकते हैं।
सामान्य तौर पर, सम्मानजनक सांख्यिकीय कागज पार-सत्यापन प्रोटोकॉल को निर्दिष्ट करते हैं, बिल्कुल क्योंकि परिणाम अपरिवर्तनीय नहीं हैं। इस मामले में जहां वे बड़े डेटासेट के लिए बड़ी संख्या में सिलवटों का चयन करते हैं, वे मॉडल चयन में पक्षपात को सही करने के लिए टिप्पणी करते हैं और प्रयास करते हैं।