अत्यधिक असंतुलित डेटा सेट के लिए प्रशिक्षण दृष्टिकोण

16

मेरे पास अत्यधिक असंतुलित परीक्षण डेटा सेट है। सकारात्मक सेट में 100 मामले होते हैं जबकि नकारात्मक सेट में 1500 मामले होते हैं। प्रशिक्षण पक्ष में, मेरे पास एक बड़ा उम्मीदवार पूल है: सकारात्मक प्रशिक्षण सेट में 1200 मामले हैं और नकारात्मक प्रशिक्षण सेट में 12000 मामले हैं। इस तरह के परिदृश्य के लिए, मेरे पास कई विकल्प हैं:

1) पूरे प्रशिक्षण सेट के लिए भारित SVM का उपयोग करना (P: 1200, N: 12000)

2) नमूना प्रशिक्षण सेट (पी: 1200, एन: 1200) के आधार पर एसवीएम का उपयोग करते हुए, 1200 नकारात्मक मामलों को 1000 से अधिक मामलों से नमूना लिया जाता है।

क्या यह तय करने पर कोई सैद्धांतिक मार्गदर्शन है कि कौन सा दृष्टिकोण बेहतर है? चूंकि परीक्षण डेटा सेट अत्यधिक असंतुलित है, क्या मुझे असंतुलित प्रशिक्षण सेट का भी उपयोग करना चाहिए?

— बिट सवाल
स्रोत

1

कृपया निम्नलिखित प्रश्नों की जाँच करें: एसवीएम के साथ असंतुलित बहुरंगी डेटासेट को संभालने के लिए "दुर्लभ" घटनाओं और सर्वोत्तम तरीके से सीखने की निगरानी । क्या यह मदद करता है ? सच कहूँ तो, आपके प्रश्न समान लगते हैं;)।

— स्टेफेन

7

Reddit पर एक हालिया पोस्ट से, datapraxis द्वारा उत्तर ब्याज का होगा।

संपादित करें: उल्लिखित पेपर हाइबो हे, एडवर्डो ए गार्सिया, "लर्निंग बाय इम्बैलेंटेड डेटा," आईईईई ट्रांजैक्शन्स ऑन नॉलेज एंड डेटा इंजीनियरिंग, पीपी। 1263-1284, सितंबर, 2009 (पीडीएफ)

— user728785
स्रोत

0

पेयरवाइज विस्तारित लॉजिस्टिक रिग्रेशन, आरओसी-आधारित शिक्षा, बूस्टिंग और बैगिंग (बूटस्ट्रैप एग्रीगेटिंग), लिंक-आधारित क्लस्टर पहनावा (LCE), बायेसियन नेटवर्क, निकटतम सेंट्रोइड क्लासिफायर, बेयस तकनीक, भारित मोटा सेट, k-NN

और असंतुलन को संभालने के लिए बहुत से नमूने लेने के तरीके।

— व्लादिमीर चुपाखिन
स्रोत