सबसे पहले, मैं कुछ सामान्य लेआउट का वर्णन करना चाहूंगा, जो डेटा माइनिंग की किताबें बताती हैं कि असंतुलित डेटासेट से कैसे निपटना है । आमतौर पर मुख्य खंड को असंतुलित डेटासेट नाम दिया गया है और वे इन दो उपखंडों को कवर करते हैं: लागत-संवेदनशील वर्गीकरण और नमूनाकरण तकनीक।
ऐसा लगता है कि एक दुर्लभ वर्ग के साथ एक समस्या का सामना करना पड़ रहा है आप लागत-संवेदनशील वर्गीकरण और नमूनाकरण दोनों कर सकते हैं। इसके बजाय, मुझे लगता है कि किसी को लागत-संवेदनशील तकनीकों को लागू करना चाहिए अगर दुर्लभ वर्ग भी वर्गीकरण का लक्ष्य है और उस वर्ग के रिकॉर्ड का एक गलत वर्गीकरण महंगा है।
दूसरी ओर, नमूनाकरण तकनीक, जैसे कि ओवर-सैंपलिंग और अंडर-सैंपलिंग, उपयोगी हैं यदि वर्गीकरण का लक्ष्य किसी विशेष वर्ग पर ध्यान केंद्रित किए बिना समग्र सटीकता है।
यह विश्वास मेटाकॉस्ट के औचित्य से आता है जो एक क्लासिफायर को लागत-संवेदनशील बनाने का एक सामान्य तरीका है: यदि कोई दुर्लभ श्रेणी के एक गलत वर्गीकरण त्रुटि को दंडित करने के लिए एक क्लासिफायरियर को लागत-संवेदनशील बनाना चाहता है, तो उसे दूसरे वर्ग का नमूना लेना चाहिए। । मोटे तौर पर, क्लासिफायर दूसरे वर्ग के अनुकूल होने की कोशिश करता है और यह दुर्लभ वर्ग के लिए विशिष्ट हो जाता है।
यह दुर्लभ वर्ग के ओवर-सैंपलिंग के विपरीत है, जो आमतौर पर इस समस्या से निपटने का तरीका है। समग्र सटीकता में सुधार के लिए दुर्लभ वर्ग का ओवर-सैंपलिंग या अन्य वर्ग का अंडर-सैंपलिंग उपयोगी है।
कृपया, यह बहुत अच्छा होगा यदि आपने मेरे विचारों की पुष्टि की।
यह बताया, असंतुलित डेटासेट का सामना करने वाला सामान्य प्रश्न है:
क्या मुझे एक ऐसा डेटासेट प्राप्त करने का प्रयास करना चाहिए जो अन्य लोगों के समान दुर्लभ रिकॉर्डों को गिना जाए?
मेरा जवाब होगा, यदि आप सटीकता की तलाश में हैं: ठीक है। आप इसे या तो दुर्लभ श्रेणी के उदाहरणों का पता लगा सकते हैं या अन्य वर्ग के कुछ रिकॉर्डों को हटा सकते हैं।
यदि आप लागत-संवेदनशील तकनीक के साथ दुर्लभ वर्ग पर ध्यान केंद्रित कर रहे हैं, तो मैं जवाब दूंगा: आप केवल और अधिक दुर्लभ श्रेणी का उदाहरण पा सकते हैं, लेकिन आपको अन्य वर्ग के रिकॉर्ड को नहीं हटाना चाहिए। उत्तरार्द्ध मामले में आप क्लासिफायर को अन्य वर्ग के अनुकूल नहीं होने देंगे, और दुर्लभ श्रेणी के मिसकॉलिफिकेशन त्रुटि बढ़ सकती है।
आप क्या जवाब देंगे?