क्या सपोर्ट वेक्टर मशीन असंतुलित डेटासेट को संभालती है?


14

क्या SVM असंतुलित डेटासेट को संभालता है? असंतुलित डेटासेट को संभालने वाला कोई भी पैरामीटर (जैसे C, या misclassification लागत) है?


1
एक डाटासेट "असंतुलित" क्या करता है?
whuber

1
@ व्यापक रूप से भिन्न वर्ग के प्रसार के साथ एक वर्गीकरण डेटा सेट को अक्सर असंतुलित के रूप में जाना जाता है।
मार्क क्लेसेन

1
@Marc यह सामान्य रूप से सही हो सकता है लेकिन यह एक अस्पष्ट अवधारणा है। "मोटे तौर पर अलग-अलग" कितना है? कुछ विशेष परिस्थितियों में छोड़कर भी क्यों बात करनी चाहिए? मेरा मानना ​​है कि हमारे लिए यह जानना महत्वपूर्ण है कि इस प्रश्न के प्रस्तावक का अर्थ "असंतुलित" होने के बजाय किसी के बुद्धिमान अनुमान को स्वीकार करने से है।
whuber

मशीन में @whuber असंतुलित डेटासेट एक सामान्य अवधारणा है। उदाहरण के लिए स्पैम पहचान आदि के कारण अनुप्रयोगों के संदर्भ में शायद प्रायिकता के बजाय एल्गोरिदम त्रुटि को लक्षित करने वाले एल्गोरिदम के प्रसार के कारण। यह बदले में त्रुटि के भार को समस्याग्रस्त बनाता है।
seanv507

2
स्पष्टीकरण के लिए, @seanv धन्यवाद। पारिभाषिक समस्या वास्तव में यह प्रतीत होती है कि "हैंडल" का संदर्भ "करने के लिए लागू नहीं किया जा सकता है," लेकिन इसका मतलब है कि एक सेटिंग जिसमें (1) एक वर्ग है जो इस तरह के अल्पमत में है, इसका पूर्वानुमान प्रदर्शन बहुत अधिक प्रभावित हो सकता है अन्य वर्गों की उपस्थिति, जबकि (2) अल्पसंख्यक वर्ग के लिए सटीक भविष्यवाणी ब्याज की है। उस अर्थ में "असंतुलित डेटासेट" समस्या का एक अधूरा वर्णन है, लेकिन चूंकि शब्द कुछ मुद्रा प्राप्त करने के लिए प्रतीत होता है, यह शिकायत करने के लिए व्यर्थ लगता है।
व्हिबर

जवाबों:


18

असंतुलित डेटा सेट के लिए हम आम तौर पर प्रति वर्ग गर्भपात दंड को बदलते हैं। इसे क्लास-वेटेड एसवीएम कहा जाता है, जो निम्नलिखित को कम करता है:

minw,b,ξi=1Nj=1Nαiαjyiyjκ(xi,xj)+CposiPξi+CnegiNξi,s.t.yi(j=1Nαjyjκ(xi,xj)+b)1ξi,i=1Nξi0,i=1N

PNC वैल्यू है, जबकि अब हमारे पास 2 है। अल्पसंख्यक वर्ग के लिए गर्भपात दंड को बहुसंख्यक वर्ग की तुलना में बड़ा चुना जाता है।

इस दृष्टिकोण को काफी पहले पेश किया गया था, यह 1997 के कागज में उदाहरण के लिए उल्लिखित है:

एडगर ओसुना, रॉबर्ट फ्रंड और फेडेरिको गिरोसी। समर्थन वेक्टर मशीनें: प्रशिक्षण और अनुप्रयोग। तकनीकी रिपोर्ट AIM-1602, 1997. ( पीडीएफ )

सीपीरों=2सीnजी यह पूरी तरह से एक मानक एसवीएम के साथ प्रशिक्षण के बराबर है सी=सीnजी प्रशिक्षण सेट में हर सकारात्मक दो बार शामिल करने के बाद।


धन्यवाद! इसके अलावा, क्या लॉजिस्टिक रिग्रेशन, नेवी बे, डिसीजन ट्री ऐसी असंतुलन समस्या को संभालता है?
RockTheStar

लॉजिस्टिक रिग्रेशन निश्चित रूप से करता है, आप केवल सकारात्मक पैटर्न और नकारात्मक पैटर्न के लिए अलग तरह से संभावना का वजन करते हैं।
डिक्रान मार्सुपियल

लॉजिस्टिक रिग्रेशन और एसवीएम आंतरिक तरीके प्रदान करते हैं। मैं इन सभी अन्य तरीकों के लिए दिल से नहीं जानता, लेकिन अल्पसंख्यक वर्ग की निगरानी करना हर विधि के लिए बहुत अधिक काम करता है (हालांकि यह गणितीय रूप से सुरुचिपूर्ण नहीं है)।
मार्क क्लेसेन

1
कूल, धन्यवाद @ डिक्रान। मार्क: हाँ, साधारण ओवरसैंपलिंग सामान्य रूप से काम करती है। हालांकि, यह स्थिति पर निर्भर करता है। क्या होता है कि आप अल्पसंख्यक डेटा में "वेट" जोड़ रहे हैं, जब आप अल्पसंख्यक (समान स्थानों पर बार-बार अल्पसंख्यक बिंदुओं को दोहराते हुए) देख रहे हों। यह अनिवार्य रूप से अल्पसंख्यक उदाहरण के "विचार" को बेहतर बनाने में मदद करता है। हालांकि, वर्गीकरण की निर्णय सीमा तब बहुत तनावपूर्ण हो जाएगी (सामान्य रूप से पर्याप्त नहीं), यानी, ओवर-फिटिंग हो सकती है)। इसलिए, हमें SMOTE की तरह कुछ प्रोबेलिस्टिक नमूनाकरण तकनीकों पर विचार करना पड़ सकता है।
रॉकीस्टार

10

एसवीएम असंतुलित वर्ग आवृत्तियों के साथ डेटासेट से निपटने में सक्षम हैं। कई कार्यान्वयन आपको सकारात्मक और नकारात्मक वर्गों के लिए सुस्त दंड (सी) के लिए एक अलग मूल्य रखने की अनुमति देते हैं (जो वर्ग आवृत्तियों को बदलने के लिए समान रूप से बराबर है)। मैं एक परीक्षण सेट पर सामान्यीकरण प्रदर्शन को अधिकतम करने के लिए इन मापदंडों के मूल्यों को निर्धारित करने की सिफारिश करूंगा जहां कक्षा की आवृत्ति वे हैं जो आप परिचालन उपयोग में देखने की उम्मीद करते हैं।

मैं उन कई लोगों में से एक था, जिन्होंने इस पर पत्र लिखे, यहाँ मेरा है , मैं देखूंगा कि क्या मुझे हाल ही में कुछ और मिल सकता है / बेहतर। वर्पोउलोस, कैम्पबेल और क्रिस्टियानिनी (1999) आज़माएं


Dikran यह केवल asymptotically समतुल्य क्यों है ... निश्चित रूप से यह अलग-अलग वर्ग की त्रुटियों को अलग-अलग भार करने के बराबर है?
seanv507

यह कक्षा की त्रुटियों को भारित करने के बराबर है, लेकिन यह डेटा को फिर से शुरू करने के समान नहीं है (एक शुरुआत के लिए वजन लगातार चर रहे हैं, लेकिन डेटा असतत हैं)। यह स्पर्शोन्मुख अपेक्षा परिणामों में से एक है (जो ज्यादातर परिस्थितियों में विशेष रूप से उपयोगी नहीं लगता है)।
डिक्रान मार्सुपियल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.