दृढ़ता से असंतुलित कक्षाओं के साथ द्विआधारी वर्गीकरण


52

मेरे पास (सुविधाओं, बाइनरी आउटपुट 0 या 1) के रूप में एक डेटा सेट है, लेकिन 1 बहुत कम ही होता है, इसलिए केवल हमेशा 0 की भविष्यवाणी करने से, मुझे 70% और 90% के बीच सटीकता मिलती है (विशेष डेटा के आधार पर मैं देखता हूं )। एमएल विधियां मुझे उसी सटीकता के बारे में बताती हैं, और मुझे लगता है, इस स्थिति में आवेदन करने के लिए कुछ मानक तरीके होने चाहिए, जिससे स्पष्ट भविष्यवाणी नियम पर सटीकता में सुधार होगा।


3
मैंने इस लेख को इस विषय पर बहुत उपयोगी पाया है: svds.com/learning-imbalanced-classes
J. O'Brien Antognini

@ J.O'BrienAntognini यह एक बहुत अच्छा लेख है!
जिंहुआ वांग

जवाबों:


30

दोनों hxd1011 और फ्रैंक सही हैं (+1)। अनिवार्य रूप से पुनरुत्पादन और / या लागत-संवेदनशील शिक्षा असंतुलित डेटा की समस्या के आसपास होने के दो मुख्य तरीके हैं; तीसरा कर्नेल विधियों का उपयोग करना है जो कभी-कभी कक्षा के असंतुलन से कम प्रभावित हो सकते हैं। मुझे इस बात पर जोर देना चाहिए कि सिल्वर-बुलेट समाधान नहीं है। परिभाषा के अनुसार आपके पास एक ऐसा वर्ग है जिसे आपके नमूनों में अपर्याप्त रूप से दर्शाया गया है।

ऊपर कहा गया है कि मुझे विश्वास है कि आपको एल्गोरिदम SMOTE और ROSE बहुत मददगार मिलेगा । ऐसा मारा प्रभावी रूप से एक का उपयोग करता है बहुमत वर्ग के सदस्यों को बाहर करने, जबकि एक समान तरीके से एक अल्पसंख्यक वर्ग के सिंथेटिक उदाहरण बनाने में -nearest पड़ोसियों दृष्टिकोण। ROSE एक स्मूद बूटस्ट्रैप दृष्टिकोण का उपयोग करके दो वर्गों के अंतर्निहित वितरण के अनुमान बनाने की कोशिश करता है और सिंथेटिक उदाहरणों के लिए उन्हें नमूना देता है। दोनों पैकेज में आसानी से उपलब्ध हैं, पैकेज में SMOTE DMwR और ROSE एक ही नाम के साथ पैकेज में हैं । दोनों SMOTE और ROSE का परिणाम एक प्रशिक्षण डेटासेट में होता है जो मूल से छोटा होता है।k

मैं शायद का तर्क था कि एक बेहतर (या कम बुरा) मीट्रिक असंतुलित डेटा के मामले के लिए उपयोग कर रहा है कोहेनk और / या वक्र के तहत अभिग्राही प्रचालन विशेषता के क्षेत्र । कोहेन का कप्पा अपेक्षित सटीकता के लिए सीधे नियंत्रण करता है, एयूसी क्योंकि यह संवेदनशीलता और विशिष्टता का कार्य है, वक्र वर्ग अनुपात में असमानता के लिए असंवेदनशील है। फिर, ध्यान दें कि ये केवल मीट्रिक हैं जिनका उपयोग नमक के बड़े अनाज के साथ किया जाना चाहिए। आपको आदर्श रूप से उन्हें अपनी विशिष्ट समस्या के अनुकूल होना चाहिए और आपके मामले में सही और गलत वर्गीकरण के लाभ और लागत का ध्यान रखना चाहिए। मैंने पाया है कि लिफ्ट-कर्व्स को देख रहा हूंवास्तव में इस मामले के लिए जानकारीपूर्ण है। अपने मीट्रिक के बावजूद आपको अपने एल्गोरिथ्म के प्रदर्शन का आकलन करने के लिए एक अलग परीक्षण का उपयोग करने की कोशिश करनी चाहिए; ठीक इसी तरह वर्ग के असंतुलित होने के कारण ओवर-फिटिंग और भी अधिक संभावना है इसलिए आउट-ऑफ-सैंपल परीक्षण महत्वपूर्ण है।

संभवतः इस मामले पर सबसे लोकप्रिय हालिया पेपर हे और गार्सिया द्वारा असंतुलित डेटा से सीख रहा है । यह अपने आप में और अन्य उत्तरों में उठाए गए बिंदुओं का बहुत अच्छा अवलोकन देता है। इसके अलावा मुझे विश्वास है कि माध्यम से गुजरने के पर कक्षा असंतुलन के लिए सबसैम्पलिंग , के हिस्से के रूप मैक्स कुहन द्वारा प्रस्तुत कैरट पैकेज कैसे तहत / अधिक-नमूने के साथ ही कृत्रिम डेटा सृजन को माप सकते हैं की एक संरचना उदाहरण प्राप्त करने के लिए एक उत्कृष्ट संसाधन है एक दूसरे के खिलाफ।


एक तीसरा कुछ लोकप्रिय (और फिर से उपयुक्त नहीं) मीट्रिक सटीक-रिकॉल वक्र का एरिया-अंडर-द-कर्व है। डेविस एंड जेम्स, 2006 के पेपर को इस मामले पर एक क्लासिक माना जाता है; सीवी का एक अच्छा धागा भी है । मैंने हाल ही में कुछ हेमी शीर्षक के साथ एक पेपर देखा " रीसेंट -रिकॉल प्लॉट आरओसी प्लॉट की तुलना में अधिक जानकारीपूर्ण है जब असंतुलित डेटासेट पर बाइनरी क्लासीफायर का मूल्यांकन करता है ", इसलिए कोई भी उसे जांचना चाहेगा।
us --r11852 का कहना है कि

1
डेटा री-सैंपलिंग तकनीकों की एक किस्म के अजगर के कार्यान्वयन के लिए मैं असंतुलन-सीखने के पैकेज की सिफारिश करता हूं: github.com/scikit-learn-contrib/imbalanced-learn
Vadim Smolyakov

अत्यधिक असंतुलित वर्ग वितरण के लिए, AUPRC AUROC की तुलना में अधिक जानकारीपूर्ण है। विवरण शामिल नहीं है क्योंकि यह एक टिप्पणी है। कई स्रोतों में से एक यहाँ है
झूबारब

15

सबसे पहले, असंतुलित डेटा के लिए मूल्यांकन मीट्रिक सटीकता नहीं होगी। मान लीजिए कि आप धोखाधड़ी का पता लगा रहे हैं, तो आपका 99.9% डेटा धोखाधड़ी नहीं है। हम आसानी से एक डमी मॉडल बना सकते हैं जिसमें 99.9% सटीकता है। (सिर्फ सभी डेटा गैर-धोखाधड़ी की भविष्यवाणी करें)।

आप अपने मूल्यांकन मीट्रिक को सटीकता से कुछ और में बदलना चाहते हैं, जैसे कि एफ 1 स्कोर या सटीक और याद । दूसरे लिंक में मैंने प्रदान किया। सटीक विवरण क्यों काम करेगा इस पर विवरण और अंतर्ज्ञान हैं।

अत्यधिक असंतुलित डेटा के लिए, एक मॉडल बनाना बहुत चुनौतीपूर्ण हो सकता है। आप केवल एक वर्ग के वजन घटाने के समारोह या मॉडलिंग के साथ खेल सकते हैं। जैसे कि एक वर्ग एसवीएम या एक मल्टी-वेरिएंट गाऊसी (मेरे द्वारा पहले दिए गए लिंक के अनुसार फिट)।


2
+1। एक वर्ग के एसवीएम पर अच्छा उदाहरण और अच्छा उल्लेख। हालांकि मुझे लगता है कि -score थोड़ा बहुत भारी-भरकम है, जो सच नकारात्मक को एक साथ नजरअंदाज करता है। F1
us --r11852

"सटीक और याद" के लिए लिंक मर चुका है?
जेसन

13

कक्षा के असंतुलन के मुद्दों को लागत-संवेदनशील सीखने या फिर से शुरू करने के साथ संबोधित किया जा सकता है। लागत-संवेदनशील सीखने बनाम नमूने लेने के फायदे और नुकसान देखें , नीचे कॉपी किए गए:


{1} लागत-संवेदनशील शिक्षा बनाम नमूने के फायदे और नुकसान की एक सूची देता है:

२.२ नमूना

ओवरसम्पलिंग और अंडरसमैंपिंग का उपयोग प्रशिक्षण डेटा के वर्ग वितरण को बदलने के लिए किया जा सकता है और दोनों तरीकों का उपयोग वर्ग असंतुलन [1, 2, 3, 6, 10, 11] से निपटने के लिए किया गया है। अत्यधिक तिरछे डेटा सेट के साथ सीखने वाले प्रशिक्षण डेटा एड्स के वर्ग वितरण को बदलने का कारण यह है कि यह प्रभावी रूप से गैर-समान गर्भपात लागत लगाता है। उदाहरण के लिए, यदि कोई प्रशिक्षण सेट के वर्ग वितरण को बदल देता है ताकि नकारात्मक से सकारात्मक उदाहरणों का अनुपात 1: 1 से 2: 1 हो जाए, तो किसी ने प्रभावी रूप से 2: 1 का एक मिसकॉलिफिकेशन लागत अनुपात निर्धारित किया है। प्रशिक्षण डेटा के वर्ग वितरण में बदलाव और मिसकैरेजिफिकेशन लागत अनुपात को बदलने के बीच यह समानता सर्वविदित है और इसे एल्कान [9] द्वारा औपचारिक रूप से वर्णित किया गया था।

लागत-संवेदनशील सीखने को लागू करने के लिए नमूने के उपयोग से जुड़े ज्ञात नुकसान हैं। अवर साथ नुकसान यह है कि यह संभावित रूप से उपयोगी डेटा को छोड़ देता है है । हमारे दृष्टिकोण से, ओवरसैंपलिंग के साथ मुख्य नुकसान यह है कि मौजूदा उदाहरणों की सटीक प्रतियां बनाकर, यह अधिक संभावना बनाता है । वास्तव में, ओवरसैंपलिंग के साथ, एक शिक्षार्थी के लिए एकल, प्रतिकृति, उदाहरण को कवर करने के लिए वर्गीकरण नियम उत्पन्न करना काफी सामान्य है। ओवरसैंपलिंग का एक दूसरा नुकसान यह है कि यह प्रशिक्षण के उदाहरणों की संख्या को बढ़ाता है, इस प्रकार मैं सीखने के समय को कम करता हूं ।

२.३ नमूने का उपयोग क्यों करें?

नमूने के साथ नुकसान को देखते हुए, यह पूछने योग्य है कि कोई भी एक तिरछे वर्ग वितरण और गैर-समान विविधीकरण लागत के साथ डेटा से निपटने के लिए एक लागत-संवेदनशील शिक्षण एल्गोरिदम के बजाय इसका उपयोग क्यों करेगा। इसके अनेक कारण हैं। सबसे स्पष्ट कारण सभी शिक्षण एल्गोरिदम की लागत के प्रति संवेदनशील कार्यान्वयन नहीं हैं और इसलिए नमूना का उपयोग करते हुए एक आवरण-आधारित दृष्टिकोण एकमात्र विकल्प है। हालांकि यह निश्चित रूप से अतीत की तुलना में आज कम सच है, कई शिक्षण एल्गोरिदम (जैसे, C4.5) अभी भी सीखने की प्रक्रिया में लागतों को सीधे नहीं संभालते हैं।

सैंपलिंग का उपयोग करने का एक दूसरा कारण यह है कि कई अत्यधिक तिरछे डेटा सेट विशाल हैं और सीखने के लिए प्रशिक्षण सेट का आकार कम होना चाहिए। इस मामले में, अंडरसैंपलिंग एक उचित, और वैध, रणनीति प्रतीत होती है। इस पत्र में हम प्रशिक्षण सेट के आकार को कम करने की आवश्यकता पर विचार नहीं करते हैं। हालांकि, हम यह बताएंगे कि यदि किसी को कुछ प्रशिक्षण डेटा को छोड़ने की आवश्यकता है, तो यह अभी भी बहुमत वर्ग के कुछ उदाहरणों को त्यागने के लिए फायदेमंद हो सकता है ताकि प्रशिक्षण के आकार को आवश्यक आकार को कम करने के लिए, और फिर एक लागत भी नियोजित किया जा सके- संवेदनशील शिक्षण एल्गोरिथ्म, ताकि त्याग किए गए प्रशिक्षण डेटा की मात्रा कम से कम हो।

एक अंतिम कारण जिसने लागत-संवेदी शिक्षण एल्गोरिथ्म के बजाय नमूने के उपयोग में योगदान दिया हो सकता है कि गर्भपात की लागत अक्सर अज्ञात होती है। हालांकि, यह एक महंगी शिक्षण एल्गोरिथ्म पर नमूने का उपयोग करने के लिए एक वैध कारण नहीं है, क्योंकि नमूना के साथ अनुरूप मुद्दा उठता है - अंतिम प्रशिक्षण डेटा का वर्ग वितरण क्या होना चाहिए? यदि यह लागत जानकारी ज्ञात नहीं है, तो आरओसी वक्र के तहत क्षेत्र जैसे माप का उपयोग वर्गीकरण प्रदर्शन को मापने के लिए किया जा सकता है और दोनों दृष्टिकोण तब उचित लागत अनुपात / वर्ग वितरण का अनुभव कर सकते हैं।

उन्होंने प्रयोगों की एक श्रृंखला भी की, जो अनिर्णायक थी:

सभी डेटा सेटों के परिणामों के आधार पर, लागत-संवेदनशील शिक्षा, ओवरसम्पलिंग और अंडरसम्पलिंग के बीच कोई निश्चित विजेता नहीं है

वे फिर यह समझने की कोशिश करते हैं कि डेटासेट में कौन से मापदंड संकेत दे सकते हैं कि कौन सी तकनीक बेहतर है।

वे यह भी टिप्पणी करते हैं कि SMOTE कुछ वृद्धि ला सकता है:

विभिन्न प्रकार के संवर्द्धन हैं जो लोगों ने नमूने की प्रभावशीलता में सुधार करने के लिए किए हैं। इन संवर्द्धन में से कुछ में नए "सिंथेटिक" उदाहरणों को शामिल किया गया है जब ओवरसम्पलिंग [5 -> SMOTE], कम उपयोगी बहुसंख्यक वर्ग के उदाहरणों को हटाना जब अंडरस्लैम्पिंग [11] और कई उप-नमूनों का उपयोग करते समय, जब प्रत्येक उदाहरण से कम अंडरस्लैम्पिंग का उपयोग कम से कम एक में किया जाता है उप-नमूना [३]। हालांकि इन तकनीकों की तुलना ओवरसैमलिंग और अंडरस्लैम्पलिंग से की गई है, लेकिन आम तौर पर इनकी तुलना लागत-संवेदनशील शिक्षण एल्गोरिदम से नहीं की गई है। यह भविष्य में अध्ययन के लायक होगा।


{1} वीस, गैरी एम।, केट मैकार्थी, और बीबी ज़बर। "लागत-संवेदनशील शिक्षा बनाम नमूनाकरण: जो असमान त्रुटि लागत के साथ असंतुलित वर्गों को संभालने के लिए सबसे अच्छा है।" DMIN 7 (2007): 35-41। https://scholar.google.com/scholar?cluster=10779872536070567255&hl=en&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf


1
तो लिंक को संक्षेप में प्रस्तुत करने के लिए: इस पद्धति के परिणाम बेहतर हैं जो अनिर्णायक हैं, और अंडर / नमूनाकरण का उपयोग करना आसान है। सही?
अक्टूबर को LazyCat


हां, प्लेटफॉर्म की सीमाएं हैं। लेकिन उनमें से कई विशेषताएं भी हैं। उदाहरण के लिए, मुझे लगता है कि यदि एक लंबा, विस्तृत उत्तर इस तरह के दो प्रश्नों के पर्याप्त उत्तर दे सकता है, तो उन प्रश्नों को डुप्लिकेट होना चाहिए। और अगर वे डुप्लिकेट नहीं हैं, तो किसी के उत्तरों को सार्थक तरीके से अलग करना संभव होना चाहिए ताकि वे सिर्फ कॉपी-पेस्ट न हों। इस मामले में क्या कार्रवाई की जानी चाहिए? (सीसी @gung)
whuber

@whuber अन्य प्रश्न को पहले ही बंद कर दिया गया है :-)
फ्रेंक डेर्नोनकोर्ट

1
ठीक है - यह एक प्रेरक तर्क है!
whuber

6

इस क्वेरी के कई उत्तर पहले से ही सभी मान्य कई अलग-अलग दृष्टिकोण प्रदान कर चुके हैं। यह सुझाव हार्वर्ड के प्रख्यात राजनीतिक वैज्ञानिक गैरी किंग के एक कागज और संबद्ध सॉफ्टवेयर से है। उन्होंने दुर्लभ घटनाओं के डेटा में लॉजिस्टिक रिग्रेशन नामक एक कागज़ का सह-लेखन किया है जो कुछ उल्लेखनीय रूप से समाधान प्रदान करता है।

यहाँ सार है:

हम शून्य ("नोवेन्टेंट्स") की तुलना में दुर्लभ घटनाओं के डेटा, बाइनरी पर निर्भर चर का दर्जनों से हजारों गुना कम (घटनाओं, जैसे युद्धों, वीटो, राजनीतिक सक्रियता के मामलों, या महामारी विज्ञान के संक्रमण) के साथ अध्ययन करते हैं। कई साहित्य में, इन चरों की व्याख्या करना और भविष्यवाणी करना मुश्किल साबित हुआ है, एक समस्या जो कम से कम दो स्रोतों की है। सबसे पहले, लोकप्रिय सांख्यिकीय प्रक्रियाएं, जैसे कि लॉजिस्टिक रिग्रेशन, दुर्लभ घटनाओं की संभावना को कम कर सकती हैं। हम उन सुधारों की सलाह देते हैं जो मौजूदा तरीकों को बेहतर बनाते हैं और साहित्य में रिपोर्ट किए गए कुछ अनुमानित प्रभावों के अनुसार पूर्ण और सापेक्ष जोखिमों के अनुमानों को बदलते हैं। दूसरे, आमतौर पर उपयोग किए जाने वाले डेटा संग्रह की रणनीति दुर्लभ घटनाओं डेटा के लिए सकल अक्षम हैं। बहुत कम घटनाओं के साथ डेटा एकत्र करने के डर से बड़ी संख्या में टिप्पणियों के साथ डेटा संग्रह हुआ है, लेकिन अपेक्षाकृत कम, और खराब रूप से मापा गया, व्याख्यात्मक चर, जैसे कि एक चौथाई मिलियन से अधिक रंगों के साथ अंतर्राष्ट्रीय संघर्ष डेटा, जिनमें से कुछ ही युद्ध में हैं। जैसा कि यह पता चला है, और अधिक कुशल नमूना डिजाइन मान्य इंफ़ॉर्मेशन बनाने के लिए मौजूद हैं, जैसे सभी चर घटनाओं (उदाहरण के लिए, युद्धों) और नॉनवेंट्स (शांति) के एक छोटे से अंश का नमूना। यह विद्वानों को उनके (नॉनफिक्स) डेटा संग्रह लागतों के 99% से अधिक बचत करने या अधिक सार्थक व्याख्यात्मक चर एकत्र करने में सक्षम बनाता है। हम इन दोनों परिणामों को जोड़ने वाले तरीके प्रदान करते हैं, दोनों प्रकार के सुधारों को एक साथ काम करने के लिए सक्षम करते हैं, और सॉफ़्टवेयर जो विकसित किए गए तरीकों को लागू करता है। और खराब रूप से मापा गया, व्याख्यात्मक चर, जैसे कि एक चौथाई मिलियन से अधिक रंगाई वाले अंतर्राष्ट्रीय संघर्ष डेटा, जिनमें से कुछ ही युद्ध में हैं। जैसा कि यह पता चला है, और अधिक कुशल नमूना डिजाइन मान्य इंफ़ॉर्मेशन बनाने के लिए मौजूद हैं, जैसे सभी चर घटनाओं (उदाहरण के लिए, युद्धों) और नॉनवेंट्स (शांति) के एक छोटे से अंश का नमूना। यह विद्वानों को उनके (नॉनफिक्स) डेटा संग्रह लागतों के 99% से अधिक बचत करने या अधिक सार्थक व्याख्यात्मक चर एकत्र करने में सक्षम बनाता है। हम इन दोनों परिणामों को जोड़ने वाले तरीके प्रदान करते हैं, दोनों प्रकार के सुधारों को एक साथ काम करने के लिए सक्षम करते हैं, और सॉफ़्टवेयर जो विकसित किए गए तरीकों को लागू करता है। और खराब रूप से मापा गया, व्याख्यात्मक चर, जैसे कि एक चौथाई मिलियन से अधिक रंगाई वाले अंतर्राष्ट्रीय संघर्ष डेटा, जिनमें से कुछ ही युद्ध में हैं। जैसा कि यह पता चला है, और अधिक कुशल नमूना डिजाइन मान्य इंफ़ॉर्मेशन बनाने के लिए मौजूद हैं, जैसे सभी चर घटनाओं (उदाहरण के लिए, युद्धों) और नॉनवेंट्स (शांति) के एक छोटे से अंश का नमूना। यह विद्वानों को उनके (नॉनफिक्स) डेटा संग्रह लागतों के 99% से अधिक बचत करने या अधिक सार्थक व्याख्यात्मक चर एकत्र करने में सक्षम बनाता है। हम इन दोनों परिणामों को जोड़ने वाले तरीके प्रदान करते हैं, दोनों प्रकार के सुधारों को एक साथ काम करने के लिए सक्षम करते हैं, और सॉफ़्टवेयर जो विकसित किए गए तरीकों को लागू करता है। अधिक कुशल नमूना डिजाइन वैध मान्यताओं को बनाने के लिए मौजूद हैं, जैसे कि सभी परिवर्तनशील घटनाओं (जैसे, युद्धों) के नमूने और नॉनवेंट्स (शांति) का एक छोटा सा अंश। यह विद्वानों को उनके (नॉनफिक्स) डेटा संग्रह लागतों के 99% से अधिक बचत करने या अधिक सार्थक व्याख्यात्मक चर एकत्र करने में सक्षम बनाता है। हम इन दोनों परिणामों को जोड़ने वाले तरीके प्रदान करते हैं, दोनों प्रकार के सुधारों को एक साथ काम करने के लिए सक्षम करते हैं, और सॉफ़्टवेयर जो विकसित किए गए तरीकों को लागू करता है। अधिक कुशल नमूना डिजाइन वैध मान्यताओं को बनाने के लिए मौजूद हैं, जैसे सभी चर घटनाओं (उदाहरण के लिए, युद्धों) का नमूना और नॉनवेज (शांति) का एक छोटा सा अंश। यह विद्वानों को उनके (नॉनफ़िक्स) डेटा संग्रह लागतों के 99% से अधिक की बचत करने या अधिक सार्थक व्याख्यात्मक चर एकत्र करने में सक्षम बनाता है। हम इन दो परिणामों को जोड़ने वाले तरीके प्रदान करते हैं, दोनों प्रकार के सुधारों को एक साथ काम करने में सक्षम करते हैं, और सॉफ़्टवेयर जो विकसित तरीकों को लागू करता है।

यहाँ कागज के लिए एक लिंक है ... http://gking.harvard.edu/files/abs/0s-abs.shtml


धन्यवाद, - यदि आप पेपर पढ़ते हैं, तो क्या वे ऊपर दिए गए अंडर-सैंपलिंग से परे कुछ महत्वपूर्ण सुझाव देते हैं?
लज़्ज़कट

4
यह एक अच्छा पेपर है, मैंने इसे एक से अधिक बार पढ़ा है! (+1) मुझे लगता है कि आपको इंगित करना चाहिए कि पेपर भी निष्कर्ष में रुचि रखता है। यही कारण है कि एक GLM की तुलना में एक GBM एक राजनीतिक वैज्ञानिक के लिए कम उपयोगी होगा। उदाहरण के लिए यदि ट्री-मेथडोलॉजी का उपयोग किया जाता है: " ... दो पुनरावर्ती विभाजन एल्गोरिदम एक ही भविष्यवाणी सटीकता प्राप्त कर सकते हैं लेकिन, एक ही समय में, संरचनात्मक रूप से विभिन्न प्रतिगमन संबंधों, अर्थात, विभिन्न मॉडलों का प्रतिनिधित्व करते हैं और इस प्रकार प्रभाव के बारे में अलग-अलग निष्कर्ष निकाल सकते हैं। प्रतिक्रिया पर कुछ सहसंयोजकों का "(होथोर्न एट अल। 2006)
usovr11852 का कहना है कि

2

असंतुलित कक्षाओं के साथ डेटासेट के लिए क्लासिफायर का विकास मशीन सीखने में एक आम समस्या है। घनत्व-आधारित विधियों में ऐसी स्थिति में "पारंपरिक क्लासिफर्स" पर महत्वपूर्ण गुण हो सकते हैं।

एक घनत्व-आधारित विधि अज्ञात घनत्व अनुमान लगाती है , जहां सबसे प्रमुख वर्ग है (आपके उदाहरण में, )।सीसी={x:yमैं=0}p^(x|yC)CC={x:yi=0}

एक बार एक घनत्व अनुमान प्रशिक्षित होने के बाद, आप इस संभावना का अनुमान लगा सकते हैं कि एक अनदेखी परीक्षण रिकॉर्ड इस घनत्व अनुमान से संबंधित है या नहीं। यदि संभावना पर्याप्त रूप से छोटी है, एक निर्दिष्ट सीमा (आमतौर पर एक सत्यापन चरण के माध्यम से प्राप्त) से कम है, तो , अन्यथा* y ( एक्स * ) सी y ( एक्स * ) सीxy^(x)Cy^(x)C

आप निम्नलिखित कागज का उल्लेख कर सकते हैं:

सी। पार्क, जे। हुआंग और वाई। डिंग, संचालन अनुसंधान, 58 (5), 2013, "नोवेल्टी डिटेक्शन के लिए मिनिमम वॉल्यूम सेट के एक कम्प्यूटेशनल प्लग-इन अनुमानक।"


2

यह समस्या का एक प्रकार है जहाँ एनोमली डिटेक्शन एक उपयोगी दृष्टिकोण है। यह मूल रूप से रॉडरिगो ने अपने उत्तर में वर्णित किया है, जिसमें आप अपने प्रशिक्षण वर्ग के सांख्यिकीय प्रोफाइल को निर्धारित करते हैं, और एक संभाव्यता सीमा निर्धारित करते हैं, जिसके आगे भविष्य के माप उस वर्ग से संबंधित नहीं हैं। यहां एक वीडियो ट्यूटोरियल है , जिसे आपको शुरू करना चाहिए। एक बार जब आप इसे अवशोषित कर लेते हैं, तो मैं कर्नेल घनत्व आकलन देखने की सलाह दूंगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.