मेरा डेटासेट छोटा है (120 नमूने), हालांकि सुविधाओं की संख्या बड़ी है (1000-200,000)। हालाँकि मैं सुविधाओं का सबसेट चुनने के लिए फीचर का चयन कर रहा हूं, फिर भी यह ओवरफिट हो सकता है।
मेरा पहला सवाल यह है कि, एसवीएम ओवरफिटिंग को कैसे हैंडल करता है, अगर बिल्कुल भी।
दूसरे, जैसा कि मैं वर्गीकरण के मामले में ओवरफिटिंग के बारे में अधिक अध्ययन करता हूं, मैं इस निष्कर्ष पर पहुंचा था कि छोटी संख्या में विशेषताओं वाले डेटासेट भी ओवरफिट कर सकते हैं। यदि हमारे पास वर्ग लेबल से संबंधित सुविधाएँ नहीं हैं, तो ओवरफिटिंग वैसे भी होती है। इसलिए मैं अब सोच रहा हूँ कि अगर हम एक वर्ग लेबल के लिए सही सुविधाएँ नहीं पा सकते हैं तो स्वचालित वर्गीकरण का क्या मतलब है। दस्तावेज़ वर्गीकरण के मामले में, इसका मतलब मैन्युअल रूप से उन शब्दों के थिसॉरस को तैयार करना होगा जो लेबल से संबंधित हैं, जो बहुत समय लेने वाला है। मुझे लगता है कि मैं जो कहने की कोशिश कर रहा हूं, वह सही सुविधाओं को हाथ में लिए बिना सामान्यीकृत मॉडल का निर्माण करना बहुत मुश्किल है?
इसके अलावा, यदि प्रायोगिक परिणाम यह नहीं दिखाते हैं कि परिणाम कम / अधिक नहीं हैं तो यह अर्थहीन हो जाता है। क्या इसे मापने का कोई तरीका है?