कृत्रिम रूप से संतुलित प्रशिक्षण सेट का निर्माण बहस का विषय है, वास्तव में काफी विवादास्पद है। यदि आप ऐसा करते हैं, तो आपको अनुभवजन्य रूप से सत्यापित करना चाहिए कि यह वास्तव में असंतुलित प्रशिक्षण सेट को छोड़ने से बेहतर काम करता है। कृत्रिम रूप से परीक्षण-सेट को संतुलित करना लगभग कभी भी अच्छा विचार नहीं है। परीक्षण-सेट को नए डेटा बिंदुओं का प्रतिनिधित्व करना चाहिए क्योंकि वे बिना लेबल के आते हैं। आप उनसे असंतुलित होने की उम्मीद करते हैं, इसलिए आपको यह जानना होगा कि क्या आपका मॉडल असंतुलित परीक्षण-सेट को संभाल सकता है। (यदि आप नए रिकॉर्ड्स के असंतुलित होने की उम्मीद नहीं करते हैं, तो आपके सभी मौजूदा रिकॉर्ड असंतुलित क्यों हैं?)
अपने प्रदर्शन मीट्रिक के बारे में, आपको हमेशा वही मिलेगा जो आप पूछते हैं। यदि एक असंतुलित सेट में सटीकता की आवश्यकता नहीं है, क्योंकि न केवल कक्षाएं बल्कि गर्भपात की लागत भी असंतुलित है, तो इसका उपयोग न करें। यदि आपने मीट्रिक के रूप में सटीकता का उपयोग किया था और अपने सभी मॉडल के चयन और हाइपरपैरेट ट्यूनिंग को हमेशा सबसे अच्छी सटीकता के साथ लेते हुए, आप सटीकता के लिए अनुकूलन कर रहे हैं।
मैं अल्पसंख्यक वर्ग को सकारात्मक वर्ग के रूप में लेता हूं, यह उनके नामकरण का पारंपरिक तरीका है। इस प्रकार नीचे चर्चा की गई सटीकता और याद अल्पसंख्यक वर्ग की सटीकता और याद है।
- यदि केवल महत्वपूर्ण बात सभी अल्पसंख्यक वर्ग रिकॉर्ड की पहचान करना है, तो आप वापस ले सकते हैं। आप इस प्रकार अधिक झूठी सकारात्मक स्वीकार कर रहे हैं।
- केवल परिशुद्धता का अनुकूलन एक बहुत ही अजीब विचार होगा। आप अपने क्लासिफायर को बता रहे होंगे कि अल्पसंख्यक वर्ग को कम आंकना कोई समस्या नहीं है। अल्पसंख्यक वर्ग की घोषणा करने में एक उच्च परिशुद्धता होने का सबसे आसान तरीका है।
- यदि आपको सटीक और याद रखने की आवश्यकता है, तो आप एफ-माप ले सकते हैं। यह सटीक और याद के बीच का हार्मोनिक मतलब है और इस प्रकार उन परिणामों को दंडित करता है जहां दोनों मैट्रिक्स डायवर्ज करते हैं।
- यदि आप दोनों दिशाओं में ठोस गर्भपात लागत जानते हैं (और सही वर्गीकरण का लाभ यदि वे प्रति वर्ग भिन्न हैं), तो आप एक नुकसान के कार्य में सभी डाल सकते हैं और इसे अनुकूलित कर सकते हैं।