मैं हाल ही में इस साइट पर बहुत कुछ पढ़ रहा हूं (@Aniko, @Dikran Marsupial, @Erik) और अन्य जगहों पर क्रॉस वैरिफिकेशन के साथ ओवरफिटिंग की समस्या के बारे में - (स्मियालॉस्की एट अल 2010 बायोइनफॉरमैटिक्स, हस्ती, सांख्यिकीय शिक्षा के तत्व)। सुझाव यह है कि किसी भी पर्यवेक्षित सुविधा चयन (वर्ग लेबल के साथ सहसंबंध का उपयोग करना) ने क्रॉस सत्यापन (या बूटस्ट्रैपिंग के रूप में अन्य मॉडल आकलन विधि) का उपयोग करके मॉडल प्रदर्शन अनुमान के बाहर प्रदर्शन किया हो सकता है।
यह मेरे लिए अकल्पनीय लगता है - निश्चित रूप से यदि आप एक सुविधा सेट का चयन करते हैं और फिर क्रॉस सत्यापन का उपयोग करके केवल चयनित सुविधाओं का उपयोग करके अपने मॉडल का मूल्यांकन करते हैं , तो आपको उन विशेषताओं पर सामान्यीकृत मॉडल के प्रदर्शन का निष्पक्ष अनुमान प्राप्त हो रहा है (यह अध्ययन के तहत नमूना मानता है: प्रतिनिधि आबादी का)?
इस प्रक्रिया के साथ कोई निश्चित रूप से एक इष्टतम सुविधा सेट का दावा नहीं कर सकता है, लेकिन क्या कोई अनदेखी डेटा पर चयनित सुविधा के प्रदर्शन को वैध के रूप में रिपोर्ट कर सकता है?
मैं स्वीकार करता हूं कि संपूर्ण डेटा सेट के आधार पर सुविधाओं का चयन परीक्षण और ट्रेन सेट के बीच कुछ डेटा रिसाव में हो सकता है। लेकिन यदि प्रारंभिक चयन के बाद सेट की गई सुविधा स्थिर है, और कोई अन्य ट्यूनिंग नहीं की जा रही है, तो निश्चित रूप से यह क्रॉस-वैलिड प्रदर्शन मैट्रिक्स की रिपोर्ट करने के लिए वैध है?
मेरे मामले में मेरे पास ५६ सुविधाएँ और २५ ९ मामले हैं और इसलिए # केस> # फीचर्स हैं। सुविधाएँ सेंसर डेटा से ली गई हैं।
क्षमा याचना यदि मेरा प्रश्न व्युत्पन्न लगता है, लेकिन यह स्पष्ट करने के लिए एक महत्वपूर्ण बिंदु लगता है।
संपादित करें: ऊपर दिए गए डेटा सेट पर क्रॉस सत्यापन के भीतर सुविधा चयन को लागू करने के लिए (नीचे दिए गए उत्तरों के लिए धन्यवाद), मैं पुष्टि कर सकता हूं कि इस डेटा सेट में क्रॉस-सत्यापन से पहले सुविधाओं का चयन एक महत्वपूर्ण पेश किया गयापूर्वाग्रह। यह पूर्वाग्रह / ओवरफिटिंग 3-क्लास फॉर्मूलेशन के लिए 2-क्लास फॉर्मूलेशन की तुलना में सबसे बड़ा था। मुझे लगता है कि इस तथ्य के कारण कि मैंने फ़ीचर चयन के लिए स्टेपवाइज़ रिग्रेशन का इस्तेमाल किया, इस ओवरफिटिंग में वृद्धि हुई; तुलनात्मक उद्देश्यों के लिए, एक अलग लेकिन संबंधित डेटा सेट पर, मैंने अनुक्रमिक फॉरवर्ड फीचर चयन रूटीन की तुलना में उन परिणामों के खिलाफ प्रदर्शन किया, जिन्हें मैंने पहले सीवी के भीतर फीचर चयन के साथ प्राप्त किया था। दोनों विधियों के बीच के परिणाम नाटकीय रूप से भिन्न नहीं थे। इसका मतलब यह हो सकता है कि चरणबद्ध प्रतिगमन अनुक्रमिक एफएस की तुलना में अधिक होने का खतरा है या इस डेटा सेट का एक क्विक हो सकता है।