हाल ही में, अच्छी तरह से पढ़ा गया, सवाल, टिम पूछता है कि असंतुलित डेटा वास्तव में मशीन लर्निंग में एक समस्या है ? प्रश्न का आधार यह है कि वर्ग संतुलन और असंतुलित कक्षाओं की समस्या पर चर्चा करने वाला मशीनी अधिगम साहित्य है । यह विचार है कि सकारात्मक और नकारात्मक वर्ग के बीच असंतुलन के साथ डेटासेट कुछ मशीन सीखने के वर्गीकरण के लिए समस्याएं पैदा कर रहा है (मैं यहाँ संभावित मॉडल शामिल कर रहा हूं) एल्गोरिदम, और विधियों को सही 50/50 को बहाल करते हुए, डेटासेट "संतुलन" की मांग की जानी चाहिए। सकारात्मक और नकारात्मक वर्गों के बीच विभाजन।
उत्कीर्ण उत्तरों की सामान्य समझ यह है कि "यह कम से कम यदि आप अपने मॉडलिंग में विचारशील हैं तो नहीं है"। एम। हेनरी एल।, एक स्वीकृत जवाब के लिए एक अप-वोट वाली टिप्पणी में, कहते हैं
[...] असंतुलित डेटा का उपयोग करने के साथ निम्न स्तर की समस्या नहीं है। मेरे अनुभव में, "असंतुलित डेटा से बचने" की सलाह या तो एल्गोरिथ्म-विशिष्ट है, या विरासत में मिली ज्ञान है। मैं एडमो से सहमत हूं कि सामान्य तौर पर, असंतुलित डेटा एक अच्छी तरह से निर्दिष्ट मॉडल के लिए कोई वैचारिक समस्या नहीं है।
एडमो का तर्क है कि वर्ग संतुलन के साथ "समस्या" वास्तव में वर्ग दुर्लभता में से एक है
इसलिए, कम से कम प्रतिगमन में (लेकिन मुझे सभी परिस्थितियों में संदेह है), असंतुलित डेटा के साथ एकमात्र समस्या यह है कि आपके पास प्रभावी रूप से छोटा नमूना आकार है। यदि कोई विधि दुर्लभ वर्ग के लोगों की संख्या के लिए उपयुक्त है, तो कोई अनुपात नहीं होना चाहिए अगर उनकी अनुपात सदस्यता असंतुलित हो।
यदि हाथ में यह वास्तविक मुद्दा है, तो यह एक खुला प्रश्न छोड़ देता है: डेटासेट को संतुलित करने के उद्देश्य से सभी रीसम्पलिंग के तरीकों का उद्देश्य क्या है: ओवरसैंपलिंग, अंडरसमैंपिंग, एसएमओटीई, आदि। स्पष्ट रूप से वे एक छोटे से नमूने के आकार के होने की समस्या का समाधान नहीं करते हैं, आप कुछ भी नहीं कर सकते हैं!