लॉजिस्टिक रिग्रेशन , एसवीएम , डिसीजन ट्री , बैगिंग और इसी तरह के कई अन्य सवालों का उपयोग करते समय हमारे पास असंतुलित डेटा के बारे में पहले से ही कई सवाल थे , जो इसे बहुत लोकप्रिय विषय बनाता है! दुर्भाग्य से, प्रत्येक प्रश्न एल्गोरिदम-विशिष्ट प्रतीत होता है और मुझे असंतुलित डेटा से निपटने के लिए कोई सामान्य दिशानिर्देश नहीं मिला।
मार्क क्लेन द्वारा जवाबों में से एक को उद्धृत करना , असंतुलित डेटा से निपटना
(...) अधिगम पद्धति पर बहुत अधिक निर्भर करता है। ज्यादातर सामान्य उद्देश्य दृष्टिकोणों से निपटने के लिए एक (या कई) तरीके हैं।
लेकिन वास्तव में हमें असंतुलित डेटा की चिंता कब करनी चाहिए? कौन से एल्गोरिदम ज्यादातर इससे प्रभावित होते हैं और जो इससे निपटने में सक्षम हैं? डेटा को संतुलित करने के लिए हमें किन एल्गोरिदम की आवश्यकता होगी? मुझे पता है कि प्रत्येक एल्गोरिदम पर चर्चा करना Q & A साइट पर इस तरह असंभव होगा, मैं एक सामान्य दिशानिर्देश की तलाश कर रहा हूं जब यह समस्या हो सकती है।