जब असंतुलित वर्गों से अधिक / अंडर-सैंपलिंग की जाती है, तो सटीकता को अधिकतम करने से गर्भपात की लागत कम से कम होती है?


14

सबसे पहले, मैं कुछ सामान्य लेआउट का वर्णन करना चाहूंगा, जो डेटा माइनिंग की किताबें बताती हैं कि असंतुलित डेटासेट से कैसे निपटना है । आमतौर पर मुख्य खंड को असंतुलित डेटासेट नाम दिया गया है और वे इन दो उपखंडों को कवर करते हैं: लागत-संवेदनशील वर्गीकरण और नमूनाकरण तकनीक।

ऐसा लगता है कि एक दुर्लभ वर्ग के साथ एक समस्या का सामना करना पड़ रहा है आप लागत-संवेदनशील वर्गीकरण और नमूनाकरण दोनों कर सकते हैं। इसके बजाय, मुझे लगता है कि किसी को लागत-संवेदनशील तकनीकों को लागू करना चाहिए अगर दुर्लभ वर्ग भी वर्गीकरण का लक्ष्य है और उस वर्ग के रिकॉर्ड का एक गलत वर्गीकरण महंगा है।

दूसरी ओर, नमूनाकरण तकनीक, जैसे कि ओवर-सैंपलिंग और अंडर-सैंपलिंग, उपयोगी हैं यदि वर्गीकरण का लक्ष्य किसी विशेष वर्ग पर ध्यान केंद्रित किए बिना समग्र सटीकता है।

यह विश्वास मेटाकॉस्ट के औचित्य से आता है जो एक क्लासिफायर को लागत-संवेदनशील बनाने का एक सामान्य तरीका है: यदि कोई दुर्लभ श्रेणी के एक गलत वर्गीकरण त्रुटि को दंडित करने के लिए एक क्लासिफायरियर को लागत-संवेदनशील बनाना चाहता है, तो उसे दूसरे वर्ग का नमूना लेना चाहिए। । मोटे तौर पर, क्लासिफायर दूसरे वर्ग के अनुकूल होने की कोशिश करता है और यह दुर्लभ वर्ग के लिए विशिष्ट हो जाता है।

यह दुर्लभ वर्ग के ओवर-सैंपलिंग के विपरीत है, जो आमतौर पर इस समस्या से निपटने का तरीका है। समग्र सटीकता में सुधार के लिए दुर्लभ वर्ग का ओवर-सैंपलिंग या अन्य वर्ग का अंडर-सैंपलिंग उपयोगी है।

कृपया, यह बहुत अच्छा होगा यदि आपने मेरे विचारों की पुष्टि की।

यह बताया, असंतुलित डेटासेट का सामना करने वाला सामान्य प्रश्न है:

क्या मुझे एक ऐसा डेटासेट प्राप्त करने का प्रयास करना चाहिए जो अन्य लोगों के समान दुर्लभ रिकॉर्डों को गिना जाए?

मेरा जवाब होगा, यदि आप सटीकता की तलाश में हैं: ठीक है। आप इसे या तो दुर्लभ श्रेणी के उदाहरणों का पता लगा सकते हैं या अन्य वर्ग के कुछ रिकॉर्डों को हटा सकते हैं।

यदि आप लागत-संवेदनशील तकनीक के साथ दुर्लभ वर्ग पर ध्यान केंद्रित कर रहे हैं, तो मैं जवाब दूंगा: आप केवल और अधिक दुर्लभ श्रेणी का उदाहरण पा सकते हैं, लेकिन आपको अन्य वर्ग के रिकॉर्ड को नहीं हटाना चाहिए। उत्तरार्द्ध मामले में आप क्लासिफायर को अन्य वर्ग के अनुकूल नहीं होने देंगे, और दुर्लभ श्रेणी के मिसकॉलिफिकेशन त्रुटि बढ़ सकती है।

आप क्या जवाब देंगे?


2
दुर्लभ वर्गों के लिए "रिकॉर्ड करना" नए रिकॉर्ड असंभव हो सकते हैं। मुझे लगता है कि डेटा को इस तरह से संरचित किया गया है क्योंकि यह अधिक दुर्लभ श्रेणी की घटनाओं को बनाने के लिए महंगा (जैव सूचना विज्ञान) या जोखिम भरा (बैंक ऋण) है।
स्टीफन

बेशक, लेकिन यह एक आम प्रस्तावित समाधान है। हालांकि, यह सच है कि यदि आप अधिक दुर्लभ श्रेणी के उदाहरणों का पता लगा सकते हैं तो आप अन्य उदाहरणों का भी पता लगा सकते हैं। क्योंकि प्रशिक्षण सेट रिकॉर्ड ब्रह्मांड का प्रतिनिधि नमूना होना चाहिए। इसलिए, मुझे लगता है कि यह ओवर-सैंपलिंग करता हुआ दिख रहा है।
सिमोन

जवाबों:


9

यह एक अच्छा सवाल है। व्यक्तिगत रूप से, मेरा जवाब यह होगा कि डेटा को फेंकने का कभी कोई मतलब नहीं है (जब तक कि यह कम्प्यूटेशनल कारणों से नहीं है), जितना अधिक डेटा आपके पास होगा, दुनिया का आपका मॉडल उतना ही बेहतर होगा। इसलिए, मेरा सुझाव है कि आपके कार्य के लिए उचित तरीके से लागत फ़ंक्शन को संशोधित करना पर्याप्त होना चाहिए। उदाहरण के लिए, यदि आप एक विशेष दुर्लभ वर्ग में रुचि रखते हैं, तो आप इस वर्ग के गर्भपात को केवल अधिक महंगा बना सकते हैं; यदि आप एक संतुलित उपाय में रुचि रखते हैं, तो संतुलित त्रुटि दर (प्रत्येक वर्ग पर त्रुटियों का औसत) या मैथ्यू सहसंबंध गुणांक जैसा कुछ उपयुक्त है; यदि आप केवल समग्र वर्गीकरण त्रुटि, पारंपरिक 0-1 नुकसान में रुचि रखते हैं ।

समस्या का एक आधुनिक तरीका है एक्टिव लर्निंग का उपयोग करना। उदाहरण के लिए, होस्पेडलेस एट अल (2011) "फाइंडिंग रेयर क्लासेस: एक्टिव लर्निंग विथ जेनेरेटिव एंड डिस्क्रिमिनटिव मॉडल्स, आईईई ट्रांजैक्शंस ऑन नॉलेज एंड डेटा इंजीनियरिंग, (टीकेडीई 2011) । हालांकि, मेरा मानना ​​है कि ये दृष्टिकोण अभी भी अपेक्षाकृत परिपक्व हैं।


यदि कोई संतुलित उपाय की आवश्यकता हो तो दिलचस्प तरीके से Metthews को मापें। हालाँकि, यह देखते हुए कि हम किसी भी रिकॉर्ड को नष्ट नहीं करना चाहते हैं, लागत समारोह में कोई नमूना या संशोधन करने से पहले, क्या आप दुर्लभ श्रेणी के उदाहरणों को जोड़कर डेटासेट को पुनः संतुलित करेंगे? मुझे लगता है कि उत्तर नहीं हो सकता है। क्योंकि जब तक आपको दुर्लभ श्रेणी के उदाहरण मिलते हैं तब तक आप अन्य उदाहरणों का पता लगा सकते हैं। इस प्रकार, एक बेहतर संतुलित उपाय या एक बेहतर दुर्लभ वर्ग प्रदर्शन माप (जैसे एफ-उपाय) प्राप्त करने के लिए मैं डेटा संग्रह चरण के बाद ही एक तकनीक (जैसे कि नमूना या लागत का मॉड) प्रदर्शन करूंगा। क्या आप सहमत हैं?
सिमोन

सहमत, डेटा संग्रह चरण के बाद इस तरह के किसी भी ऑपरेशन का प्रदर्शन किया जाना चाहिए।
टीडीसी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.