अत्यधिक असंतुलित डेटा सेट के प्रशिक्षण में त्वरित मार्गदर्शिका


29

मुझे प्रशिक्षण सेट में लगभग 1000 सकारात्मक और 10000 नकारात्मक नमूनों के साथ एक वर्गीकरण समस्या है। इसलिए यह डेटा सेट काफी असंतुलित है। सादा यादृच्छिक वन बस सभी परीक्षण नमूनों को एक बहुसंख्यक वर्ग के रूप में चिह्नित करने की कोशिश कर रहा है।

उप-नमूने और भारित यादृच्छिक वन के बारे में कुछ अच्छे उत्तर यहां दिए गए हैं: अत्यधिक पक्षपाती डेटासेट के साथ ट्री एन्सेम्बल के प्रशिक्षण के लिए क्या निहितार्थ हैं?

आरएफ के अलावा कौन से वर्गीकरण तरीके समस्या को सबसे अच्छे तरीके से संभाल सकते हैं?


जवाबों:


19
  • मैक्स कुह्न ने एप्लाइड प्रेडिक्टिव मॉडलिंग की Ch16 में इस कुएं को कवर किया ।
  • जैसा कि लिंक किए गए धागे में बताया गया है, असंतुलित डेटा अनिवार्य रूप से एक लागत संवेदनशील प्रशिक्षण समस्या है। इस प्रकार असंतुलित डेटा के लिए कोई भी लागत संवेदनशील दृष्टिकोण लागू होता है।
  • बड़ी संख्या में ऐसे दृष्टिकोण हैं। R: C50 में सभी लागू नहीं किए गए, भारित SVM विकल्प हैं। Jous-बढ़ावा। रुसबॉस्ट मुझे लगता है कि केवल माटलब कोड के रूप में उपलब्ध है।
  • मैं वेका का उपयोग नहीं करता हूं, लेकिन यह मानता हूं कि इसमें बड़ी संख्या में संवेदनशील क्लासिफायर हैं।
  • असंतुलित डेटासेट को संभालना: एक समीक्षा : सोतीरिस कोट्सिएंटिस, दिमित्रीस कनालोपोलोस, पैनायोटिस पिंटेलस '
  • क्लास इम्बैलेंस प्रॉब्लम पर : शिनजियान गुओ, येलोंग यिन, सेलिंग डोंग, गोंगपिंग यांग, गुआंगदोंग जौ

16

बहुसंख्यक वर्ग को कम आंकना आमतौर पर ऐसी स्थितियों में जाने का तरीका है।

यदि आपको लगता है कि आपके पास सकारात्मक वर्ग के बहुत कम उदाहरण हैं, तो आप ओवरसैंपलिंग कर सकते हैं, उदाहरण के लिए, आकार n के डेटासेट से प्रतिस्थापन के साथ नमूना 5 एन उदाहरण।

चेतावनियां:

  • कुछ तरीके कक्षा के वितरण में परिवर्तन के लिए संवेदनशील हो सकते हैं, उदाहरण के लिए Naive Bayes - यह पूर्व संभावनाओं को प्रभावित करता है।
  • ओवरस्पीटिंग से ओवरफिटिंग हो सकती है

या शायद कुछ क्लस्टरिंग एल्गोरिथ्म की कोशिश करें और क्लस्टर केंद्रों का उपयोग करें?
लीला प्रभु

आप असंतुलित डेटासेट से निपटने के लिए ओवरसैंपलिंग और अन्य तरीकों के लिए इस लिंक की जांच कर सकते हैं ।
ज्ञानप्रीत सिंह

11

यहां ग्रेडिएंट बूस्टिंग भी एक अच्छा विकल्प है। आप उदाहरण के लिए विज्ञान किट में ग्रेडिएंट बूस्टिंग क्लासिफायर का उपयोग कर सकते हैं। क्रमिक बूस्टिंग एक गलत तरीके से वर्गीकृत उदाहरणों के आधार पर क्रमिक प्रशिक्षण सेटों का निर्माण करके वर्ग असंतुलन से निपटने का एक राजसी तरीका है।


1
मेरी समझ यह है कि ढाल बढ़ाने वाले डेटा के साथ काम करते समय आरएफ के रूप में एक ही सीमा से पीड़ित होता है: Sci2s.ugr.es/keel/pdf/algorithm/articulo/…
charles

1
बूस्टिंग एक अतिरिक्त कदम है जो आप जंगल के निर्माण में लेते हैं जो सीधे असंतुलन को संबोधित करता है। जिस पेपर को आप इंट्रो स्टैटिंग बूस्टिंग में जोड़ते हैं, वह उन मामलों में भी मदद करता है, जहां असंतुलन नहीं है। और वह कागज निष्कर्ष निकालने में काफी मदद करता है। तो यकीन नहीं है कि जहां आरएफ और बूस्टिंग के बीच समानता वहां दिखाई गई है?
cwharland

1

यहां पोस्ट किए गए उत्तरों के अलावा, यदि नकारात्मक उदाहरणों की तुलना में सकारात्मक उदाहरणों की संख्या बहुत कम है, तो यह एक विसंगति का पता लगाने की समस्या के करीब आता है जहां सकारात्मक उदाहरण विसंगतियां हैं।

आपके पास सभी बिंदुओं को मॉडल करने के लिए मल्टीवेरेट गॉसियन डिस्ट्रीब्यूशन का उपयोग करने से लेकर विसंगतियों का पता लगाने के लिए तरीकों की एक पूरी श्रृंखला है और फिर जो मतलब से 2 या 3 सीढ़ियां हैं, उन्हें उठाएं।

विचार के लिए एक और भोजन - मैंने काफी कम लोगों को देखा है जो बेतरतीब ढंग से नकारात्मक उदाहरणों को अधिक उदाहरणों के साथ नमूना लेते हैं ताकि दोनों वर्ग समान संख्या में हों। यह पूरी तरह से हाथ में समस्या पर निर्भर करता है, चाहे हम उन्हें संतुलित करना चाहते हैं या नहीं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.