असंतुलित वर्गों से निपटने के लिए दृष्टिकोणों का वर्गीकरण


8

असंतुलन वर्ग की समस्या से निपटने के लिए जो दृष्टिकोण विकसित किए गए हैं, उन्हें वर्गीकृत करने का सबसे अच्छा तरीका क्या है?

यह लेख उन्हें इसमें वर्गीकृत करता है:

  1. प्रीप्रोसेसिंग: इसमें ओवरसैमलिंग, अंडरसम्पलिंग और हाइब्रिड तरीके शामिल हैं,
  2. लागत-संवेदी शिक्षण: इसमें प्रत्यक्ष विधियाँ और मेटा-लर्निंग शामिल हैं जिन्हें बाद में थ्रॉल्डिंग और सैंपलिंग में विभाजित किया जाता है,
  3. कलाकारों की टुकड़ी तकनीक: पहनावा सीखने के साथ संयोजन के रूप में लागत-संवेदनशील ensembles और डेटा प्रीप्रोसेसिंग शामिल है।

दूसरा वर्गीकरण:

  1. डेटा पूर्व-प्रसंस्करण: इसमें वितरण परिवर्तन और डेटा स्थान को भारित करना शामिल है। एक-वर्गीय शिक्षण को वितरण परिवर्तन माना जाता है।
  2. विशेष प्रयोजन सीखने के तरीके
  3. भविष्यवाणी पोस्ट-प्रोसेसिंग: इसमें थ्रेशोल्ड विधि और लागत-संवेदनशील पोस्ट-प्रोसेसिंग शामिल है
  4. हाइब्रिड तरीके:

तीसरा लेख :

  1. डेटा स्तर के तरीके
  2. एल्गोरिथम-स्तर के तरीके
  3. संकर विधियाँ

अंतिम वर्गीकरण आउटपुट समायोजन को एक स्वतंत्र दृष्टिकोण के रूप में भी मानता है।

अग्रिम में धन्यवाद।


4
बहुत कम जवाब: उनमें से सभी सबसे अच्छे हैं और उनमें से सभी सबसे खराब हैं! सामान्य रूप में वर्गीकरण और डेटा खनन बहुत संदर्भ संवेदनशील हैं। इस डोमेन में सभी समाधान के लिए कोई एक आकार फिट नहीं है। वैसे, सबसे सामान्य दृष्टिकोण, बहुत सामान्य शब्दों में, आमतौर पर सुविधा निष्कर्षण से मूल्यांकन योजना के लिए विभिन्न स्तरों पर सर्वोत्तम निर्णयों का एक संयोजन है।
मोक

@ मोक धन्यवाद क्या आप कृपया मुझे स्केलेन के क्लासिफायर में क्लास-वेट का पता कर सकते हैं, उदाहरण के लिए, लॉजिस्टिक रिग्रेशन को किस श्रेणी में वर्गीकृत किया गया है?
इब्राहिमी

@ इब्राहिमी, इसे एल्गोरिथ्म के स्तर पर गिरना चाहिए क्योंकि केवल भार एक उत्तीर्ण शब्दकोष या गणना (अनुमान) के अनुसार y (वर्ग) के मूल्यों के अनुसार समायोजित किए जाते हैं और डेटा अछूता रहता है।
संजय कृष्ण

@SanjayKrishna बहुत बहुत धन्यवाद। पहली श्रेणीकरण के मामले में, यह लागत-संवेदनशील सीखने में आता है, है ना? इसके अलावा, दूसरी वर्गीकरण के मामले में, इसे तीसरी श्रेणी में वर्गीकृत किया जाएगा, यानी लागत-संवेदनशील पोस्ट-प्रोसेसिंग। क्या यह सच है? इसका दूसरा उत्तर: stackoverflow.com/questions/32492550/… भी उपयोगी है।
इब्राहिमी

जवाबों:


5

जिस तरह से मैं इसे देखता हूं तीनों वर्गीकरण कई बातों में सहमत हैं। उदाहरण के लिए, तीनों में प्री-प्रोसेसिंग चरणों के लिए एक श्रेणी है।

मैं तीसरी श्रेणीकरण पर अधिक से अधिक सहमति व्यक्त करना चाहूंगा क्योंकि यह अधिक सामान्य है और इसमें अधिक चीजें शामिल हैं।

  • डेटा स्तरीय श्रेणी (जैसे अधिक नमूने के तहत /) किसी भी पूर्व प्रसंस्करण वर्ग असंतुलन से निपटने चरण शामिल हैं।
  • एल्गोरिथ्म स्तर के पहले दो लेख की दूसरी श्रेणियों में शामिल करने के लिए माना जा सकता है। एल्गोरिथ्म के लिए कोई भी परिवर्तन जो कक्षा के असंतुलन से संबंधित है वह यहां जाएगा (जैसे वर्ग भार)।
  • अंत में, दोनों के संयोजन के लिए एक हाइब्रिड श्रेणी।

पहले दो लेखों से केवल एक चीज गायब है, जो प्रसंस्करण के बाद के कदम हैं, जो ईमानदार होने के लिए, व्यवहार में दूसरे के रूप में अक्सर उपयोग नहीं किए जाते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.