मेरे पास अत्यधिक असंतुलित परीक्षण डेटा सेट है। सकारात्मक सेट में 100 मामले होते हैं जबकि नकारात्मक सेट में 1500 मामले होते हैं। प्रशिक्षण पक्ष में, मेरे पास एक बड़ा उम्मीदवार पूल है: सकारात्मक प्रशिक्षण सेट में 1200 मामले हैं और नकारात्मक प्रशिक्षण सेट में 12000 मामले हैं। इस तरह के परिदृश्य के लिए, मेरे पास कई विकल्प हैं:
1) पूरे प्रशिक्षण सेट के लिए भारित SVM का उपयोग करना (P: 1200, N: 12000)
2) नमूना प्रशिक्षण सेट (पी: 1200, एन: 1200) के आधार पर एसवीएम का उपयोग करते हुए, 1200 नकारात्मक मामलों को 1000 से अधिक मामलों से नमूना लिया जाता है।
क्या यह तय करने पर कोई सैद्धांतिक मार्गदर्शन है कि कौन सा दृष्टिकोण बेहतर है? चूंकि परीक्षण डेटा सेट अत्यधिक असंतुलित है, क्या मुझे असंतुलित प्रशिक्षण सेट का भी उपयोग करना चाहिए?