सिद्धांत में:
संपूर्ण डेटासेट पर प्रशिक्षित एकल मॉडल का उपयोग करके अपनी भविष्यवाणियां करें (ताकि सुविधाओं का केवल एक सेट हो)। क्रॉस-वेलिडेशन का उपयोग केवल संपूर्ण डेटासेट पर प्रशिक्षित एकल मॉडल के अनुमानित प्रदर्शन का अनुमान लगाने के लिए किया जाता है। यह क्रॉस-मान्यता का उपयोग करने में महत्वपूर्ण है कि प्रत्येक गुना में आप प्राथमिक मॉडल को फिट करने के लिए उपयोग की जाने वाली पूरी प्रक्रिया को दोहराते हैं, अन्यथा आप प्रदर्शन में पर्याप्त आशावादी पूर्वाग्रह के साथ समाप्त हो सकते हैं।
ऐसा क्यों होता है, यह देखने के लिए 1000 द्विआधारी सुविधाओं के साथ एक द्विआधारी वर्गीकरण समस्या पर विचार करें, लेकिन केवल 100 मामले, जहां मामले और विशेषताएं सभी पूरी तरह से यादृच्छिक हैं, इसलिए सुविधाओं और मामलों के बीच कोई सांख्यिकीय संबंध नहीं है। यदि हम पूर्ण डेटासेट पर एक प्राथमिक मॉडल प्रशिक्षित करते हैं, तो हम हमेशा प्रशिक्षण सेट पर शून्य त्रुटि प्राप्त कर सकते हैं क्योंकि मामलों की तुलना में अधिक विशेषताएं हैं। हम भी "जानकारीपूर्ण" सुविधाओं का एक सबसेट पा सकते हैं (जो कि संयोग से सहसंबद्ध होने के लिए होता है)। यदि हम केवल उन्हीं विशेषताओं का उपयोग करके क्रॉस-वेरिफिकेशन करते हैं, तो हमें प्रदर्शन का एक अनुमान मिलेगा जो यादृच्छिक अनुमान से बेहतर है। कारण यह है कि क्रॉस-वैलिडेशन प्रक्रिया के प्रत्येक तह में परीक्षण के लिए उपयोग किए गए मामलों के बारे में कुछ जानकारी है क्योंकि सुविधाओं को चुना गया था क्योंकि वे भविष्यवाणी करने के लिए अच्छे थे, उन सभी में, उन लोगों को शामिल किया गया। बेशक असली त्रुटि दर 0.5 होगी।
यदि हम उचित प्रक्रिया अपनाते हैं, और प्रत्येक तह में सुविधा का चयन करते हैं, तो उस तह में उपयोग की गई सुविधाओं के चुनाव में आयोजित मामलों के बारे में कोई जानकारी नहीं है। यदि आप उचित प्रक्रिया का उपयोग करते हैं, तो इस स्थिति में, आपको लगभग 0.5 की त्रुटि दर मिलेगी (हालांकि यह डेटासेट के विभिन्न अहसासों के लिए थोड़ा अलग होगा)।
पढ़ने के लिए अच्छे कागजात हैं:
क्रिस्टोफ़ एम्ब्रोइज़, जेफ्री जे। मैक्लैक्लन, "माइक्रोएरे जीन-अभिव्यक्ति डेटा के आधार पर जीन निष्कर्षण में चयन पूर्वाग्रह", पीएनएएस http://www.pnas.org/content/99/10/6562.abstract
जो ओपी के लिए अत्यधिक प्रासंगिक है और
गैविन सी। कावले, निकोला एलसी टैलबोट, "ऑन-फिटिंग ऑन ओवर मॉडल सेलेक्शन एंड इसके बाद सिलेक्शन बायस इन परफॉर्मेंस इवैल्यूएशन", JMLR 11 (Jul): 2079−2107, 2010 http://jmlr.csail.mit.edu/papers /v11/cawley10a.html
जो दर्शाता है कि एक ही चीज आसानी से मॉडल चयन में बदल सकती है (जैसे कि SVM के हाइपर-मापदंडों को ट्यून करना, जिसे CV प्रक्रिया के प्रत्येक पुनरावृत्ति में भी दोहराया जाना चाहिए)।
प्रयोग में:
मैं प्रदर्शन का अनुमान लगाने के लिए बैगिंग का उपयोग करने और आउट-ऑफ-बैग त्रुटि का उपयोग करने की सलाह दूंगा। आपको कई विशेषताओं का उपयोग करके एक समिति मॉडल मिलेगा, लेकिन यह वास्तव में एक अच्छी बात है। यदि आप केवल एक मॉडल का उपयोग करते हैं, तो यह संभावना होगी कि आप फीचर चयन मानदंड को ओवर-फिट कर देंगे, और एक मॉडल के साथ समाप्त होगा जो एक मॉडल की तुलना में खराब भविष्यवाणियां देता है जो बड़ी संख्या में सुविधाओं का उपयोग करता है।
प्रतिगमन में सब्मिट चयन पर एलन मिलर्स बुक (सांख्यिकी और लागू संभावना पर चैपमैन और हॉल मोनोग्राफ, वॉल्यूम 95) सलाह का अच्छा सा हिस्सा देता है (पृष्ठ 221) यदि भविष्य कहनेवाला प्रदर्शन सबसे महत्वपूर्ण बात है, तो कोई भी चयन न करें , बजाय रिज प्रतिगमन का उपयोग करें। और वह सबसेट चयन पर एक किताब में है !!! ; ओ)