मुझे लगता है कि आधार स्तर पर वर्ग असंतुलन को नियंत्रित करने के लिए सबसामलिंग (डाउनसमलिंग) एक लोकप्रिय तरीका है, जिसका अर्थ है कि यह समस्या की जड़ को ठीक करता है। इसलिए आपके सभी उदाहरणों के लिए, बेतरतीब ढंग से वर्ग के 1,000 का चयन करते हुए हर बार काम करेगा। आप 10 मॉडल (1,000 बहुमत बनाम 1,000 अल्पसंख्यक के 10 गुना) बनाने के साथ भी खेल सकते हैं ताकि आप अपने पूरे डेटा सेट का उपयोग करेंगे। आप इस विधि का उपयोग कर सकते हैं, लेकिन फिर से आप 9,000 नमूनों को फेंकने की तरह हैं, जब तक कि आप कुछ पहनावा के तरीकों की कोशिश नहीं करते। आसान फिक्स, लेकिन अपने डेटा के आधार पर एक इष्टतम मॉडल प्राप्त करने के लिए कठिन।
वर्ग असंतुलन के लिए आपको जिस डिग्री पर नियंत्रण करने की आवश्यकता है, वह काफी हद तक आपके लक्ष्य पर आधारित है। यदि आप शुद्ध वर्गीकरण के बारे में परवाह करते हैं, तो असंतुलन 50% संभावना को प्रभावित करेगा जो अधिकांश तकनीकों के लिए कट जाता है, इसलिए मैं डाउनसमलिंग पर विचार करूंगा। यदि आप केवल वर्गीकरण के आदेश की परवाह करते हैं (सकारात्मकता नकारात्मक से अधिक सकारात्मक चाहते हैं) और एयूसी जैसे उपाय का उपयोग करें, तो वर्ग असंतुलन केवल आपकी संभावनाओं को पूर्वाग्रह करेगा, लेकिन अधिकांश तकनीकों के लिए सापेक्ष क्रम शालीनतापूर्वक स्थिर होना चाहिए।
लॉजिस्टिक रिग्रेशन क्लास के असंतुलन के लिए अच्छा है क्योंकि जब तक आपके पास> अल्पसंख्यक वर्ग के 500 हैं, मापदंडों का अनुमान पर्याप्त सटीक होगा और एकमात्र प्रभाव इंटरसेप्ट पर होगा, जिसे ठीक किया जा सकता है, यदि आप कुछ ऐसा कर सकते हैं चाहते हैं। लॉजिस्टिक रिग्रेशन सिर्फ कक्षाओं के बजाय संभावनाओं को मॉडल करता है, इसलिए आप अपनी आवश्यकताओं के अनुरूप अधिक मैनुअल समायोजन कर सकते हैं।
बहुत सारी वर्गीकरण तकनीकों में एक वर्ग वजन तर्क भी है जो आपको अल्पसंख्यक वर्ग पर अधिक ध्यान केंद्रित करने में मदद करेगा। यह एक सच्चे अल्पसंख्यक वर्ग के मिस क्लासिफिकेशन को दंडित करेगा, इसलिए आपकी समग्र अभिवृद्धि को थोड़ा नुकसान होगा लेकिन आप अधिक अल्पसंख्यक वर्गों को देखना शुरू कर देंगे जो सही ढंग से वर्गीकृत हैं।