अत्यधिक असंतुलित डेटा सेट के लिए प्रशिक्षण दृष्टिकोण


16

मेरे पास अत्यधिक असंतुलित परीक्षण डेटा सेट है। सकारात्मक सेट में 100 मामले होते हैं जबकि नकारात्मक सेट में 1500 मामले होते हैं। प्रशिक्षण पक्ष में, मेरे पास एक बड़ा उम्मीदवार पूल है: सकारात्मक प्रशिक्षण सेट में 1200 मामले हैं और नकारात्मक प्रशिक्षण सेट में 12000 मामले हैं। इस तरह के परिदृश्य के लिए, मेरे पास कई विकल्प हैं:

1) पूरे प्रशिक्षण सेट के लिए भारित SVM का उपयोग करना (P: 1200, N: 12000)

2) नमूना प्रशिक्षण सेट (पी: 1200, एन: 1200) के आधार पर एसवीएम का उपयोग करते हुए, 1200 नकारात्मक मामलों को 1000 से अधिक मामलों से नमूना लिया जाता है।

क्या यह तय करने पर कोई सैद्धांतिक मार्गदर्शन है कि कौन सा दृष्टिकोण बेहतर है? चूंकि परीक्षण डेटा सेट अत्यधिक असंतुलित है, क्या मुझे असंतुलित प्रशिक्षण सेट का भी उपयोग करना चाहिए?


1
कृपया निम्नलिखित प्रश्नों की जाँच करें: एसवीएम के साथ असंतुलित बहुरंगी डेटासेट को संभालने के लिए "दुर्लभ" घटनाओं और सर्वोत्तम तरीके से सीखने की निगरानी । क्या यह मदद करता है ? सच कहूँ तो, आपके प्रश्न समान लगते हैं;)।
स्टेफेन

जवाबों:


7

0

पेयरवाइज विस्तारित लॉजिस्टिक रिग्रेशन, आरओसी-आधारित शिक्षा, बूस्टिंग और बैगिंग (बूटस्ट्रैप एग्रीगेटिंग), लिंक-आधारित क्लस्टर पहनावा (LCE), बायेसियन नेटवर्क, निकटतम सेंट्रोइड क्लासिफायर, बेयस तकनीक, भारित मोटा सेट, k-NN

और असंतुलन को संभालने के लिए बहुत से नमूने लेने के तरीके।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.