क्या बार-बार के-फोल्ड क्रॉस-सत्यापन करने से पहले डेटा को सामान्य करना (शून्य माध्य और एकता मानक विचलन करना) ओवरफिटिंग जैसी कोई नकारात्मक जीत है?
नोट: यह ऐसी स्थिति के लिए है जहां # मामलों> कुल #features
मैं अपने कुछ डेटा को लॉग ट्रांसफ़ॉर्म का उपयोग करके बदल रहा हूं, फिर ऊपर के सभी डेटा को सामान्य कर रहा हूं। मैं तब फीचर चयन कर रहा हूं। अगला मैं चयनित सुविधाओं को लागू करता हूं और सामान्यीकृत क्लासिफायर प्रदर्शन की कोशिश करने और अनुमान लगाने के लिए 10-गुना क्रॉस-सत्यापन के लिए सामान्य डेटा को लागू करता हूं और चिंतित हूं कि सामान्य करने के लिए सभी डेटा का उपयोग करना उचित नहीं हो सकता है। क्या मुझे उस तह के लिए प्रशिक्षण डेटा से प्राप्त डेटा को सामान्य बनाने का उपयोग करके प्रत्येक गुना के लिए परीक्षण डेटा को सामान्य करना चाहिए?
किसी भी राय कृतज्ञता प्राप्त! माफी अगर यह सवाल स्पष्ट लगता है।
संपादित करें: यह परीक्षण करने पर (नीचे दिए गए सुझावों के अनुरूप) मैंने पाया कि सीवी से पहले के सामान्यीकरण की तुलना में सीवी के भीतर सामान्यीकरण की तुलना में अधिक अंतर प्रदर्शन-वार नहीं हुआ।