कक्षा के असंतुलन के मुद्दों को लागत-संवेदनशील सीखने या फिर से शुरू करने के साथ संबोधित किया जा सकता है। लागत-संवेदनशील सीखने बनाम नमूने लेने के फायदे और नुकसान देखें , नीचे कॉपी किए गए:
{1} लागत-संवेदनशील शिक्षा बनाम नमूने के फायदे और नुकसान की एक सूची देता है:
२.२ नमूना
ओवरसम्पलिंग और अंडरसमैंपिंग का उपयोग प्रशिक्षण डेटा के वर्ग वितरण को बदलने के लिए किया जा सकता है और दोनों तरीकों का उपयोग वर्ग असंतुलन [1, 2, 3, 6, 10, 11] से निपटने के लिए किया गया है। अत्यधिक तिरछे डेटा सेट के साथ सीखने वाले प्रशिक्षण डेटा एड्स के वर्ग वितरण को बदलने का कारण यह है कि यह प्रभावी रूप से गैर-समान गर्भपात लागत लगाता है। उदाहरण के लिए, यदि कोई प्रशिक्षण सेट के वर्ग वितरण को बदल देता है ताकि नकारात्मक से सकारात्मक उदाहरणों का अनुपात 1: 1 से 2: 1 हो जाए, तो किसी ने प्रभावी रूप से 2: 1 का एक मिसकॉलिफिकेशन लागत अनुपात निर्धारित किया है। प्रशिक्षण डेटा के वर्ग वितरण में बदलाव और मिसकैरेजिफिकेशन लागत अनुपात को बदलने के बीच यह समानता सर्वविदित है और इसे एल्कान [9] द्वारा औपचारिक रूप से वर्णित किया गया था।
लागत-संवेदनशील सीखने को लागू करने के लिए नमूने के उपयोग से जुड़े ज्ञात नुकसान हैं।
अवर साथ नुकसान यह है कि यह संभावित रूप से उपयोगी डेटा को छोड़ देता है है । हमारे दृष्टिकोण से, ओवरसैंपलिंग के साथ मुख्य नुकसान यह है कि मौजूदा उदाहरणों की सटीक प्रतियां बनाकर, यह अधिक संभावना बनाता है । वास्तव में, ओवरसैंपलिंग के साथ, एक शिक्षार्थी के लिए एकल, प्रतिकृति, उदाहरण को कवर करने के लिए वर्गीकरण नियम उत्पन्न करना काफी सामान्य है। ओवरसैंपलिंग का एक दूसरा नुकसान यह है कि यह प्रशिक्षण के उदाहरणों की संख्या को बढ़ाता है, इस प्रकार मैं सीखने के समय को कम करता हूं ।
२.३ नमूने का उपयोग क्यों करें?
नमूने के साथ नुकसान को देखते हुए, यह पूछने योग्य है कि कोई भी एक तिरछे वर्ग वितरण और गैर-समान विविधीकरण लागत के साथ डेटा से निपटने के लिए एक लागत-संवेदनशील शिक्षण एल्गोरिदम के बजाय इसका उपयोग क्यों करेगा। इसके अनेक कारण हैं। सबसे स्पष्ट कारण सभी शिक्षण एल्गोरिदम की लागत के प्रति संवेदनशील कार्यान्वयन नहीं हैं और इसलिए नमूना का उपयोग करते हुए एक आवरण-आधारित दृष्टिकोण एकमात्र विकल्प है। हालांकि यह निश्चित रूप से अतीत की तुलना में आज कम सच है, कई शिक्षण एल्गोरिदम (जैसे, C4.5) अभी भी सीखने की प्रक्रिया में लागतों को सीधे नहीं संभालते हैं।
सैंपलिंग का उपयोग करने का एक दूसरा कारण यह है कि कई अत्यधिक तिरछे डेटा सेट विशाल हैं और सीखने के लिए प्रशिक्षण सेट का आकार कम होना चाहिए। इस मामले में, अंडरसैंपलिंग एक उचित, और वैध, रणनीति प्रतीत होती है। इस पत्र में हम प्रशिक्षण सेट के आकार को कम करने की आवश्यकता पर विचार नहीं करते हैं। हालांकि, हम यह बताएंगे कि यदि किसी को कुछ प्रशिक्षण डेटा को छोड़ने की आवश्यकता है, तो यह अभी भी बहुमत वर्ग के कुछ उदाहरणों को त्यागने के लिए फायदेमंद हो सकता है ताकि प्रशिक्षण के आकार को आवश्यक आकार को कम करने के लिए, और फिर एक लागत भी नियोजित किया जा सके- संवेदनशील शिक्षण एल्गोरिथ्म, ताकि त्याग किए गए प्रशिक्षण डेटा की मात्रा कम से कम हो।
एक अंतिम कारण जिसने लागत-संवेदी शिक्षण एल्गोरिथ्म के बजाय नमूने के उपयोग में योगदान दिया हो सकता है कि गर्भपात की लागत अक्सर अज्ञात होती है। हालांकि, यह एक महंगी शिक्षण एल्गोरिथ्म पर नमूने का उपयोग करने के लिए एक वैध कारण नहीं है, क्योंकि नमूना के साथ अनुरूप मुद्दा उठता है - अंतिम प्रशिक्षण डेटा का वर्ग वितरण क्या होना चाहिए? यदि यह लागत जानकारी ज्ञात नहीं है, तो आरओसी वक्र के तहत क्षेत्र जैसे माप का उपयोग वर्गीकरण प्रदर्शन को मापने के लिए किया जा सकता है और दोनों दृष्टिकोण तब उचित लागत अनुपात / वर्ग वितरण का अनुभव कर सकते हैं।
उन्होंने प्रयोगों की एक श्रृंखला भी की, जो अनिर्णायक थी:
सभी डेटा सेटों के परिणामों के आधार पर, लागत-संवेदनशील शिक्षा, ओवरसम्पलिंग और अंडरसम्पलिंग के बीच कोई निश्चित विजेता नहीं है
वे फिर यह समझने की कोशिश करते हैं कि डेटासेट में कौन से मापदंड संकेत दे सकते हैं कि कौन सी तकनीक बेहतर है।
वे यह भी टिप्पणी करते हैं कि SMOTE कुछ वृद्धि ला सकता है:
विभिन्न प्रकार के संवर्द्धन हैं जो लोगों ने नमूने की प्रभावशीलता में सुधार करने के लिए किए हैं। इन संवर्द्धन में से कुछ में नए "सिंथेटिक" उदाहरणों को शामिल किया गया है जब ओवरसम्पलिंग [5 -> SMOTE], कम उपयोगी बहुसंख्यक वर्ग के उदाहरणों को हटाना जब अंडरस्लैम्पिंग [11] और कई उप-नमूनों का उपयोग करते समय, जब प्रत्येक उदाहरण से कम अंडरस्लैम्पिंग का उपयोग कम से कम एक में किया जाता है उप-नमूना [३]। हालांकि इन तकनीकों की तुलना ओवरसैमलिंग और अंडरस्लैम्पलिंग से की गई है, लेकिन आम तौर पर इनकी तुलना लागत-संवेदनशील शिक्षण एल्गोरिदम से नहीं की गई है। यह भविष्य में अध्ययन के लायक होगा।
{1} वीस, गैरी एम।, केट मैकार्थी, और बीबी ज़बर। "लागत-संवेदनशील शिक्षा बनाम नमूनाकरण: जो असमान त्रुटि लागत के साथ असंतुलित वर्गों को संभालने के लिए सबसे अच्छा है।" DMIN 7 (2007): 35-41। https://scholar.google.com/scholar?cluster=10779872536070567255&hl=en&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf