मैंने पाया है कि वह और ग्रेसिया (2009) असंतुलित वर्ग की समस्याओं में सीखने की एक सहायक समीक्षा थे। यहाँ कुछ निश्चित रूप से व्यापक बातें नहीं हैं:
डेटा-आधारित दृष्टिकोण:
बहुसंख्यक वर्ग को रेखांकित कर सकता है या अल्पसंख्यक वर्ग को जीत सकता है। (ब्रेमेन ने बताया कि यह औपचारिक रूप से गैर-समान विविधीकरण लागतों को निर्दिष्ट करने के बराबर है।) इससे समस्याएं पैदा हो सकती हैं: अंडरसम्पलिंग सीखने वाले को बहुसंख्यक वर्ग के पहलुओं को याद करने का कारण बन सकता है; ओवरस्पीटिंग से ओवरफिटिंग का खतरा बढ़ जाता है।
इन मुद्दों को कम करने वाले "सूचित अंडरसम्पलिंग" तरीके हैं। उनमें से एक ईज़ी एंबेम्बे है , जो स्वतंत्र रूप से बहुसंख्यक वर्ग से कई सबसेट का नमूना लेता है और सभी अल्पसंख्यक वर्ग के डेटा के साथ प्रत्येक सबसेट को मिलाकर कई क्लासिफायर बनाता है।
SMOTE (सिंथेटिक माइनॉरिटी ओवरसैंपलिंग तकनीक) या SMOTEBoost, (बूस्ट के साथ SMOTE का संयोजन) फीचर स्पेस में निकटतम पड़ोसी बनाकर अल्पसंख्यक वर्ग के सिंथेटिक उदाहरण बनाते हैं। SMOTE को R को DMwR पैकेज में लागू किया गया है (जो कि लुइस टोर्गो की पुस्तक "R के साथ डेटा माइनिंग, केस स्टडीज के साथ सीखते हुए" CRC प्रेस 2016 में शामिल है )।
मॉडल फिटिंग दृष्टिकोण
अपने नुकसान के कार्य में वर्ग-विशिष्ट भार लागू करें (अल्पसंख्यक मामलों के लिए बड़ा वजन)।
ट्री-आधारित दृष्टिकोणों के लिए, आप हेलिंजर दूरी का उपयोग नोड अशुद्धता फ़ंक्शन के रूप में कर सकते हैं , जैसा कि सिस्लैक एट अल में वकालत की गई है । "हेलिंजर डिस्टेंस डिसीजन ट्री मजबूत और तिरछा-असंवेदनशील हैं" ( वीका कोड यहाँ )।
एक कक्षा के क्लासिफायरियर का उपयोग करें , या तो (मॉडल के आधार पर) एक कक्षा के लिए एक संभावना घनत्व या सीमा और दूसरे वर्ग को आउटलेर के रूप में व्यवहार करना।
बेशक, मॉडल निर्माण के लिए मीट्रिक के रूप में सटीकता का उपयोग न करें। कोहेन का कप्पा एक उचित विकल्प है।
मॉडल मूल्यांकन दृष्टिकोण
यदि आपके मॉडल ने संभाव्यता या अन्य स्कोर की भविष्यवाणी की है, तो एक निर्णय कटऑफ चुना जो त्रुटियों में एक उपयुक्त व्यापार बनाता है (प्रशिक्षण और परीक्षण से स्वतंत्र डेटासेट का उपयोग करके)। R में, पैकेज OptimalCutpoint एक कटऑफ तय करने के लिए लागत-संवेदनशील लोगों सहित कई एल्गोरिदम को लागू करता है।