सामान्य रूप से ओवरएम्पलिंग के बारे में राय और विशेष रूप से SMOTE एल्गोरिथ्म [बंद]

बंद हो गया । यह सवाल राय आधारित है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है।

इस प्रश्न को सुधारना चाहते हैं?प्रश्न को अपडेट करें ताकि इस पोस्ट को संपादित करके तथ्यों और उद्धरणों के साथ उत्तर दिया जा सके ।

2 साल पहले बंद हुआ ।

सामान्य रूप से वर्गीकरण में ओवरसम्पलिंग और विशेष रूप से SMOTE एल्गोरिदम के बारे में आपकी क्या राय है? वर्ग डेटा में असंतुलन और त्रुटियों की असंतुलित लागत को समायोजित करने के लिए हम सिर्फ लागत / जुर्माना क्यों नहीं लगाएंगे? मेरे उद्देश्यों के लिए, प्रायोगिक इकाइयों के भविष्य के सेट के लिए भविष्यवाणी की सटीकता अंतिम उपाय है।

संदर्भ के लिए, SMOTE पेपर: http://www.jair.org/papers/paper953.html

machine-learning classification oversampling

— डेव कमिंस
स्रोत

एक असंतुलित डेटासेट में अल्पसंख्यक वर्ग की निगरानी के साथ एक समस्या यह है कि आप कुछ विशिष्ट उदाहरणों के बहुत अधिक सीखने को समाप्त कर देंगे, और यह अच्छी तरह से सामान्य नहीं होगा। एसएमओटीई को अल्पसंख्यक वर्ग में उन बिंदुओं के पड़ोस के सामयिक गुणों को सीखना चाहिए, ताकि आपके पास ओवरफिट होने की संभावना कम हो।

— राशिफल

यह एक प्रश्न के लिए एक महान विषय है, लेकिन क्या आप इसे थोड़ा अधिक केंद्रित कर सकते हैं? "आपकी क्या राय है?" अंतहीन चर्चा को आमंत्रित करता है, लेकिन हम एक प्रश्न / उत्तर प्रारूप पर अधिक तेजी से ध्यान केंद्रित करते हैं।

— साइकोरैक्स का कहना है कि मोनिका

{1} लागत-संवेदनशील शिक्षा बनाम नमूने के फायदे और नुकसान की एक सूची देता है:

२.२ नमूना

ओवरसम्पलिंग और अंडरसमैंपिंग का उपयोग प्रशिक्षण डेटा के वर्ग वितरण को बदलने के लिए किया जा सकता है और दोनों तरीकों का उपयोग वर्ग असंतुलन [1, 2, 3, 6, 10, 11] से निपटने के लिए किया गया है। अत्यधिक तिरछे डेटा सेट के साथ सीखने वाले प्रशिक्षण डेटा एड्स के वर्ग वितरण को बदलने का कारण यह है कि यह प्रभावी रूप से गैर-समान गर्भपात लागत लगाता है। उदाहरण के लिए, यदि कोई प्रशिक्षण सेट के वर्ग वितरण को बदल देता है ताकि नकारात्मक से सकारात्मक उदाहरणों का अनुपात 1: 1 से 2: 1 हो जाए, तो किसी ने प्रभावी रूप से 2: 1 का एक मिसकॉलिफिकेशन लागत अनुपात निर्धारित किया है। इसप्रशिक्षण डेटा के वर्ग वितरण में फेरबदल और मिसकैरेजिफिकेशन लागत अनुपात को बदलने के बीच समानता सर्वविदित है और इसे एल्कान [9] द्वारा औपचारिक रूप से वर्णित किया गया था।

लागत-संवेदनशील शिक्षा को लागू करने के लिए नमूने के उपयोग से जुड़े ज्ञात नुकसान हैं। अवर साथ नुकसान यह है कि छोड देता है संभावित रूप से उपयोगी डेटा है । हमारे दृष्टिकोण से, ओवरसैंपलिंग के साथ मुख्य नुकसान यह है कि मौजूदा उदाहरणों की सटीक प्रतियां बनाकर, यह अधिक संभावना बनाता है । वास्तव में, ओवरसैंपलिंग के साथ, एक शिक्षार्थी के लिए एकल, प्रतिकृति, उदाहरण को कवर करने के लिए वर्गीकरण नियम उत्पन्न करना काफी सामान्य है। ओवरसैमलिंग का एक दूसरा नुकसान यह है कि यह प्रशिक्षण के उदाहरणों की संख्या को बढ़ाता है, इस प्रकार मैं सीखने के समय को कम करता हूं ।

२.३ नमूने का उपयोग क्यों करें?

नमूने के साथ नुकसान को देखते हुए, यह पूछने योग्य है कि कोई भी एक तिरछे वर्ग वितरण और गैर-समान विविधीकरण लागत के साथ डेटा से निपटने के लिए एक लागत-संवेदनशील शिक्षण एल्गोरिदम के बजाय इसका उपयोग क्यों करेगा। इसके अनेक कारण हैं। सबसे स्पष्ट कारण सभी शिक्षण एल्गोरिदम के लागत-संवेदनशील कार्यान्वयन नहीं हैं और इसलिए नमूना का उपयोग करते हुए एक आवरण-आधारित दृष्टिकोण एकमात्र विकल्प है। हालांकि यह निश्चित रूप से अतीत की तुलना में आज कम सच है, कई शिक्षण एल्गोरिदम (जैसे, C4.5) अभी भी सीखने की प्रक्रिया में लागतों को सीधे नहीं संभालते हैं।

सैंपलिंग का उपयोग करने का एक दूसरा कारण यह है कि कई अत्यधिक तिरछे डेटा सेट विशाल होते हैं और सीखने योग्य होने के लिए प्रशिक्षण सेट का आकार कम होना चाहिए।इस मामले में, अंडरसम्पलिंग एक उचित, और वैध, रणनीति प्रतीत होती है। इस पत्र में हम प्रशिक्षण सेट के आकार को कम करने की आवश्यकता पर विचार नहीं करते हैं। हालांकि, हम यह बताएंगे कि यदि किसी को कुछ प्रशिक्षण डेटा को छोड़ने की आवश्यकता है, तो यह अभी भी बहुमत वर्ग के कुछ उदाहरणों को त्यागने के लिए फायदेमंद हो सकता है ताकि प्रशिक्षण के आकार को आवश्यक आकार को कम करने के लिए, और फिर एक लागत भी नियोजित किया जा सके- संवेदनशील शिक्षण एल्गोरिथ्म, ताकि त्याग किए गए प्रशिक्षण डेटा की मात्रा कम से कम हो।

एक अंतिम कारण जिसने लागत-संवेदी शिक्षण एल्गोरिथ्म के बजाय नमूने के उपयोग में योगदान दिया हो सकता है कि गर्भपात की लागत अक्सर अज्ञात होती है। हालांकि, यह एक महंगी शिक्षण एल्गोरिथ्म पर नमूने का उपयोग करने के लिए एक वैध कारण नहीं है, क्योंकि नमूना के साथ अनुरूप मुद्दा उठता है - अंतिम प्रशिक्षण डेटा का वर्ग वितरण क्या होना चाहिए? यदि यह लागत जानकारी ज्ञात नहीं है, तो आरओसी वक्र के तहत क्षेत्र जैसे माप का उपयोग वर्गीकरण प्रदर्शन को मापने के लिए किया जा सकता है और दोनों दृष्टिकोण तब उचित लागत अनुपात / वर्ग वितरण का अनुभव कर सकते हैं।

उन्होंने प्रयोगों की एक श्रृंखला भी की, जो अनिर्णायक थी:

सभी डेटा सेटों के परिणामों के आधार पर, लागत-संवेदनशील शिक्षा, ओवरसम्पलिंग और अंडरसम्पलिंग के बीच कोई निश्चित विजेता नहीं है

वे फिर यह समझने की कोशिश करते हैं कि डेटासेट में कौन से मापदंड संकेत दे सकते हैं कि कौन सी तकनीक बेहतर है।

वे यह भी टिप्पणी करते हैं कि SMOTE कुछ वृद्धि ला सकता है:

विभिन्न प्रकार के संवर्द्धन हैं जो लोगों ने नमूने की प्रभावशीलता में सुधार करने के लिए किए हैं। इन संवर्द्धन में से कुछ में नए "सिंथेटिक" उदाहरणों को शामिल किया गया है जब ओवरसम्पलिंग [5 -> SMOTE], कम उपयोगी बहुसंख्यक वर्ग के उदाहरणों को हटाना जब अंडरस्लैम्पिंग [11] और कई उप-नमूनों का उपयोग करते समय, जब प्रत्येक उदाहरण से कम अंडरस्लैम्पिंग का उपयोग कम से कम एक में किया जाता है उप-नमूना [३]। हालांकि इन तकनीकों की तुलना ओवरसैमलिंग और अंडरस्लैम्पलिंग से की गई है, लेकिन आम तौर पर इनकी तुलना लागत-संवेदनशील शिक्षण एल्गोरिदम से नहीं की गई है। यह भविष्य में अध्ययन के लायक होगा।

{1} वीस, गैरी एम।, केट मैकार्थी, और बीबी ज़बर। "लागत-संवेदनशील शिक्षा बनाम नमूनाकरण: जो असमान त्रुटि लागत के साथ असंतुलित वर्गों को संभालने के लिए सबसे अच्छा है।" DMIN 7 (2007): 35-41। https://scholar.google.com/scholar?cluster=10779872536070567255&hl=en&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf

— फ्रेंक डर्नोनकोर्ट
स्रोत

जब आप "लागत संवेदनशील शिक्षण एल्गोरिथ्म" कहते हैं, तो क्या मेरे मस्तिष्क को "घटनाओं की उच्च आवृत्तियों के साथ कक्षाओं को दंडित करना चाहिए और संभवतः कम आवृत्तियों वाले वर्गों को अधिक महत्व देना चाहिए"? क्या यह कॉन्सेप्ट क्लास वेट असाइन करने के बराबर है?

— जारद