मैं काफी असंतुलित डेटा पर एसवीएम के साथ एक भविष्यवाणी मॉडल बनाने की कोशिश कर रहा हूं। मेरे लेबल / आउटपुट में तीन वर्ग हैं, सकारात्मक, तटस्थ और नकारात्मक। मैं कहूंगा कि सकारात्मक उदाहरण मेरे डेटा का लगभग 10 - 20% बनाता है, तटस्थ लगभग 50 - 60%, और नकारात्मक लगभग 30 - 40% है। मैं कक्षाओं को संतुलित करने की कोशिश कर रहा हूं क्योंकि कक्षाओं के बीच गलत भविष्यवाणियों से जुड़ी लागत समान नहीं है। एक विधि प्रशिक्षण डेटा को फिर से खोलना और एक समान संतुलित डेटासेट का उत्पादन करना था, जो मूल से बड़ा था। दिलचस्प बात यह है कि जब मैं ऐसा करता हूं, तो मैं अन्य वर्ग के लिए बेहतर भविष्यवाणियां करता हूं (जैसे जब मैंने डेटा संतुलित किया, तो मैंने सकारात्मक वर्ग के लिए उदाहरणों की संख्या बढ़ा दी, लेकिन नमूना भविष्यवाणियों में, नकारात्मक वर्ग ने बेहतर किया)। कोई भी आम तौर पर समझा सकता है कि ऐसा क्यों होता है? अगर मैं नकारात्मक वर्ग के लिए उदाहरण की संख्या बढ़ाता हूं, तो क्या मुझे नमूना भविष्यवाणियों (उदाहरण के लिए, बेहतर भविष्यवाणियों) में सकारात्मक वर्ग के लिए कुछ समान मिलेगा?
अन्य विचारों पर भी बहुत खुला है कि कैसे मैं असंतुलित डेटा को या तो गर्भपात पर अलग-अलग लागत लगाकर या LibSVM में वर्ग भार का उपयोग करके पता कर सकता हूं (यह सुनिश्चित नहीं है कि उन का चयन कैसे करें / ठीक से ट्यून करें)।