आपको वर्ग असंतुलन से निपटने की आवश्यकता है यदि / क्योंकि यह आपके मॉडल को बेहतर बनाता है (अनदेखी डेटा पर)। "बेहतर" एक ऐसी चीज है जिसे आपको खुद को परिभाषित करना होगा। यह सटीकता हो सकती है, यह एक लागत हो सकती है, यह वास्तविक सकारात्मक दर आदि हो सकती है।
एक सूक्ष्म अति सूक्ष्म अंतर है जो वर्ग असंतुलन के बारे में बात करते समय समझना महत्वपूर्ण है। अर्थात्, आपका डेटा असंतुलित है क्योंकि:
- डेटा का वितरण स्वयं असंतुलित है
कुछ मामलों में, एक वर्ग दूसरे की तुलना में बहुत अधिक होता है। और यह ठीक है। इस मामले में, आपको यह देखना होगा कि क्या कुछ गलतियाँ दूसरों की तुलना में अधिक महंगी हैं। यह रोगियों में घातक बीमारियों का पता लगाने का एक विशिष्ट उदाहरण है, यह पता लगाना कि क्या कोई आतंकवादी है आदि। यह संक्षिप्त उत्तर पर वापस जाता है। यदि कुछ गलतियाँ दूसरों की तुलना में अधिक महंगी हैं, तो आप उन्हें उच्च लागत देकर "दंडित" करना चाहेंगे। इसलिए, एक बेहतर मॉडल की कम लागत होगी। यदि सभी गलतियाँ उतनी ही बुरी हैं, तो कोई वास्तविक कारण नहीं है कि आपको लागत संवेदनशील मॉडल का उपयोग करना चाहिए।
यह भी ध्यान रखना महत्वपूर्ण है कि लागत के प्रति संवेदनशील मॉडल का उपयोग असंतुलित डेटासेट के लिए विशिष्ट नहीं है। आप ऐसे मॉडल का उपयोग कर सकते हैं यदि आपका डेटा पूरी तरह से संतुलित है।
- यह डेटा के सही वितरण का प्रतिनिधित्व नहीं करता है
कभी-कभी आपका डेटा "असंतुलित" होता है क्योंकि यह डेटा के सही वितरण का प्रतिनिधित्व नहीं करता है। इस मामले में, आपको सावधान रहना होगा, क्योंकि आपके पास एक वर्ग के "बहुत सारे" उदाहरण हैं और दूसरे के "बहुत कम" हैं, और इसलिए, आपको यह सुनिश्चित करने की आवश्यकता है कि आपका मॉडल एक पर अधिक नहीं है / / कम इन वर्गों के।
यह लागत का उपयोग करने से अलग है क्योंकि यह मामला नहीं हो सकता है कि एक गलती दूसरे की तुलना में खराब है। क्या होगा कि आप पक्षपाती होंगे और यह आपके मॉडल के लिए फायदेमंद नहीं होगा यदि अनदेखी डेटा का उतना वितरण नहीं है जितना कि आपके द्वारा प्रशिक्षित डेटा पर।
मान लीजिए कि मैं आपको प्रशिक्षण डेटा देता हूं और आपका लक्ष्य यह अनुमान लगाना है कि क्या कुछ लाल या नीला है। चाहे आप नीले रंग के लिए लाल या नीले रंग के लिए गलती करें, इससे बहुत फर्क नहीं पड़ता। आपके प्रशिक्षण डेटा में 90% लाल उदाहरण हैं जहां वास्तविक जीवन में, वे केवल 10% समय होते हैं। अपने मॉडल को बेहतर बनाने के लिए आपको उससे निपटने की आवश्यकता होगी।