मैं हाल ही में मशीन / सांख्यिकीय सीखने में "क्लास असंतुलन समस्या" के बारे में बहुत कुछ सोच रहा हूं, और मैं कभी भी इस भावना को गहरा कर रहा हूं कि मुझे समझ नहीं आ रहा है कि क्या चल रहा है।
पहले मुझे अपनी शर्तों को परिभाषित (या प्रयास) परिभाषित करने दें:
वर्ग असंतुलन समस्या मशीन / सांख्यिकीय सीखने में अवलोकन है कि कुछ द्विआधारी वर्गीकरण (*) एल्गोरिदम अच्छा प्रदर्शन नहीं करते जब 1 वर्गों के लिए 0 कक्षाओं का अनुपात बहुत विषम है।
इसलिए, उपरोक्त में, उदाहरण के लिए, यदि हर एक वर्ग के लिए एक सौ वर्ग थे, तो मैं कहूंगा कि कक्षा का असंतुलन से 100 है , या 1 \% है ।
समस्या के अधिकांश विवरणों में मुझे यह कमी दिखाई दी कि मैं पर्याप्त योग्यता के रूप में क्या सोचूंगा (कौन से मॉडल संघर्ष करते हैं, असंतुलित होना एक समस्या है), और यह मेरी उलझन का एक स्रोत है।
मशीन / सांख्यिकीय शिक्षण में मानक ग्रंथों का एक सर्वेक्षण थोड़ा बदल जाता है:
- सांख्यिकीय लीनिंग और सांख्यिकीय अधिगम से परिचय के तत्वों में सूचकांक में "वर्ग असंतुलन" नहीं होता है।
प्रिडिक्टिव डेटा एनालिटिक्स के लिए मशीन लर्निंग में इंडेक्स में "क्लास असंतुलन" भी नहीं होता है।
मर्फी की मशीन लर्निंग: एक प्रोबेबिलिस्टिक पर्सपेक्टिव में इंडेक्स में "क्लास असंतुलन" होता है। संदर्भ एसवीएम पर एक सेक्शन का है, जहां मुझे निम्नलिखित टेंटलाइजिंग टिप्पणी मिली:
यह याद रखने योग्य है कि इन सभी कठिनाइयों और उन्हें ठीक करने के लिए प्रस्तावित सांख्यिकी के ढेरों, मौलिक रूप से उत्पन्न होते हैं क्योंकि एसवीएम संभावनाओं का उपयोग करके अनिश्चितता का मॉडल नहीं बनाते हैं, इसलिए उनके आउटपुट स्कोर कक्षाओं में तुलनीय नहीं हैं।
यह टिप्पणी मेरे अंतर्ज्ञान और अनुभव के साथ रहती है: मेरी पिछली नौकरी में हम नियमित रूप से लॉजिस्टिक रेजिमेंट्स और ग्रेडिएंट बूस्टेड ट्री मॉडल (द्विपद लॉग-लाइबिलिटी को कम करने के लिए) असंतुलित डेटा ( असंतुलन के आदेश पर) के साथ फिट करेंगे। प्रदर्शन में कोई स्पष्ट मुद्दे नहीं।
मैंने पढ़ा है (कहीं) कि वृक्ष आधारित मॉडल (वृक्ष स्वयं और यादृच्छिक वन) का वर्गीकरण भी वर्ग असंतुलन समस्या से ग्रस्त हैं। यह पानी को थोड़ा कम करता है, पेड़ कुछ अर्थों में करते हैं, संभावनाएं लौटाते हैं: पेड़ के प्रत्येक टर्मिनल नोड में लक्ष्य वर्ग के लिए मतदान रिकॉर्ड।
इसलिए, मैं जो कुछ भी कर रहा हूं, उसे समझने के लिए, बलों की एक वैचारिक समझ है जो वर्ग असंतुलन की समस्या को जन्म देती है (यदि यह मौजूद है)।
- क्या यह ऐसा कुछ है जो हम खुद को बुरी तरह से चुने गए एल्गोरिदम और आलसी डिफ़ॉल्ट वर्गीकरण थ्रेसहोल्ड के साथ करते हैं?
- क्या यह गायब हो जाता है अगर हम हमेशा संभावना मॉडल फिट करते हैं जो उचित स्कोरिंग मानदंडों को अनुकूलित करते हैं? अलग तरह से कहा, क्या कारण है बस एक खराब विकल्प का नुकसान समारोह, यानी हार्ड वर्गीकरण नियमों और समग्र सटीकता के आधार पर एक मॉडल की भविष्य कहनेवाला शक्ति का मूल्यांकन?
- यदि हां, तो क्या ऐसे मॉडल हैं जो उचित स्कोरिंग नियमों का अनुकूलन नहीं करते हैं, फिर बेकार (या कम से कम उपयोगी)?
(*) वर्गीकरण से मेरा मतलब है कि कोई भी सांख्यिकीय मॉडल द्विआधारी प्रतिक्रिया डेटा के लिए फिट है। मैं यह नहीं मान रहा हूं कि मेरा लक्ष्य एक वर्ग या दूसरे के लिए एक कठिन काम है, हालांकि यह हो सकता है।
poor choice of loss function
अपनी सूची में जोड़ना भूल गया । तो, क्या आपको लगता है कि हानि कार्यों के रूप में उचित स्कोरिंग नियमों के लिए भी यह सच है?