असंतुलित डेटासेट सभी क्षेत्रों में एक सामान्य समस्या है और यह विशेष रूप से कंप्यूटर दृष्टि और चिंता संबंधी तंत्रिका नेटवर्क (CNNs) द्वारा निपटाए गए समस्याओं की चिंता नहीं करता है।
इस समस्या से निपटने के लिए, आपको अपने डेटासेट को संतुलित करने की कोशिश करनी चाहिए, या तो अल्पसंख्यक वर्गों द्वारा या बहु-नमूना वर्गों (या दोनों) के नमूने लेने से। संभवतः, जैसा कि ऊपर बताया गया है, एक अच्छा विकल्प SMOTE (सिंथेटिक माइनॉरिटी ओवर-सैंपलिंग तकनीक) एल्गोरिदम होगा। यहां आप विभिन्न ओवर-सैंपलिंग एल्गोरिदम की तुलना पा सकते हैं। यदि आप एक पायथन उपयोगकर्ता हैं, तो असंतुलित-सीखना एक अच्छा पुस्तकालय है जो डेटासेट को संतुलित करने के लिए कई उपयोगी तकनीकों को लागू करता है।
दूसरी ओर, यदि आप छवियों को वर्गीकृत करने की कोशिश कर रहे हैं, तो अपने डेटासेट के आकार को बढ़ाने का एक अच्छा तरीका इसे संवर्धित करना है (यानी उचित सिंथेटिक उदाहरण बनाकर, इसी तरह की छवियां लेकिन मूल लोगों के संबंध में छोटी बिट को घुमाया / स्थानांतरित किया गया)। आप कभी-कभी अल्पसंख्यक वर्गों को बेहतर संतुलन हासिल करने के लिए इसे उपयोगी बनाने के लिए उपयोगी हो सकते हैं। इस उद्देश्य के लिए केरस इमेजडॉटेनजर क्लास एक अच्छा उपकरण है।