क्या सपोर्ट वेक्टर मशीन असंतुलित डेटासेट को संभालती है?

क्या SVM असंतुलित डेटासेट को संभालता है? असंतुलित डेटासेट को संभालने वाला कोई भी पैरामीटर (जैसे C, या misclassification लागत) है?

machine-learning svm unbalanced-classes

— RockTheStar
स्रोत

एक डाटासेट "असंतुलित" क्या करता है?

— whuber

@ व्यापक रूप से भिन्न वर्ग के प्रसार के साथ एक वर्गीकरण डेटा सेट को अक्सर असंतुलित के रूप में जाना जाता है।

— मार्क क्लेसेन

@Marc यह सामान्य रूप से सही हो सकता है लेकिन यह एक अस्पष्ट अवधारणा है। "मोटे तौर पर अलग-अलग" कितना है? कुछ विशेष परिस्थितियों में छोड़कर भी क्यों बात करनी चाहिए? मेरा मानना है कि हमारे लिए यह जानना महत्वपूर्ण है कि इस प्रश्न के प्रस्तावक का अर्थ "असंतुलित" होने के बजाय किसी के बुद्धिमान अनुमान को स्वीकार करने से है।

— whuber

मशीन में @whuber असंतुलित डेटासेट एक सामान्य अवधारणा है। उदाहरण के लिए स्पैम पहचान आदि के कारण अनुप्रयोगों के संदर्भ में शायद प्रायिकता के बजाय एल्गोरिदम त्रुटि को लक्षित करने वाले एल्गोरिदम के प्रसार के कारण। यह बदले में त्रुटि के भार को समस्याग्रस्त बनाता है।

— seanv507

स्पष्टीकरण के लिए, @seanv धन्यवाद। पारिभाषिक समस्या वास्तव में यह प्रतीत होती है कि "हैंडल" का संदर्भ "करने के लिए लागू नहीं किया जा सकता है," लेकिन इसका मतलब है कि एक सेटिंग जिसमें (1) एक वर्ग है जो इस तरह के अल्पमत में है, इसका पूर्वानुमान प्रदर्शन बहुत अधिक प्रभावित हो सकता है अन्य वर्गों की उपस्थिति, जबकि (2) अल्पसंख्यक वर्ग के लिए सटीक भविष्यवाणी ब्याज की है। उस अर्थ में "असंतुलित डेटासेट" समस्या का एक अधूरा वर्णन है, लेकिन चूंकि शब्द कुछ मुद्रा प्राप्त करने के लिए प्रतीत होता है, यह शिकायत करने के लिए व्यर्थ लगता है।

— व्हिबर

जवाबों:

असंतुलित डेटा सेट के लिए हम आम तौर पर प्रति वर्ग गर्भपात दंड को बदलते हैं। इसे क्लास-वेटेड एसवीएम कहा जाता है, जो निम्नलिखित को कम करता है:

\begin{aligned} min_{w, b, ξ} & \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} κ (x_{i}, x_{j}) + C_{p o s} \sum_{i \in P} ξ_{i} + C_{n e g} \sum_{i \in N} ξ_{i}, \\ s . t . & y_{i} (\sum_{j = 1}^{N} α_{j} y_{j} κ (x_{i}, x_{j}) + b) \geq 1 - ξ_{i}, & i = 1 \dots N \\ ξ_{i} \geq 0, & i = 1 \dots N \end{aligned}

$\begin{align} \min_{\mathbf{w},b,\xi} &\quad \sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j \kappa(\mathbf{x}_i,\mathbf{x}_j) + C_{pos}\sum_{i\in \mathcal{P}} \xi_i + C_{neg}\sum_{i\in \mathcal{N}}\xi_i, \\ s.t. &\quad y_i\big(\sum_{j=1}^N \alpha_j y_j \kappa(\mathbf{x}_i, \mathbf{x}_j) + b\big) \geq 1-\xi_i,& i=1\ldots N \\ &\quad \xi_i \geq 0, & i=1\ldots N \end{align}$

$\mathcal{P}$ $\mathcal{N}$ $C$ वैल्यू है, जबकि अब हमारे पास 2 है। अल्पसंख्यक वर्ग के लिए गर्भपात दंड को बहुसंख्यक वर्ग की तुलना में बड़ा चुना जाता है।

इस दृष्टिकोण को काफी पहले पेश किया गया था, यह 1997 के कागज में उदाहरण के लिए उल्लिखित है:

एडगर ओसुना, रॉबर्ट फ्रंड और फेडेरिको गिरोसी। समर्थन वेक्टर मशीनें: प्रशिक्षण और अनुप्रयोग। तकनीकी रिपोर्ट AIM-1602, 1997. ( पीडीएफ )

$C_{pos} = 2 C_{neg}$ यह पूरी तरह से एक मानक एसवीएम के साथ प्रशिक्षण के बराबर है $C=C_{neg}$ प्रशिक्षण सेट में हर सकारात्मक दो बार शामिल करने के बाद।

— मार्क क्लेसेन
स्रोत

धन्यवाद! इसके अलावा, क्या लॉजिस्टिक रिग्रेशन, नेवी बे, डिसीजन ट्री ऐसी असंतुलन समस्या को संभालता है?

— RockTheStar

लॉजिस्टिक रिग्रेशन निश्चित रूप से करता है, आप केवल सकारात्मक पैटर्न और नकारात्मक पैटर्न के लिए अलग तरह से संभावना का वजन करते हैं।

— डिक्रान मार्सुपियल

लॉजिस्टिक रिग्रेशन और एसवीएम आंतरिक तरीके प्रदान करते हैं। मैं इन सभी अन्य तरीकों के लिए दिल से नहीं जानता, लेकिन अल्पसंख्यक वर्ग की निगरानी करना हर विधि के लिए बहुत अधिक काम करता है (हालांकि यह गणितीय रूप से सुरुचिपूर्ण नहीं है)।

— मार्क क्लेसेन

कूल, धन्यवाद @ डिक्रान। मार्क: हाँ, साधारण ओवरसैंपलिंग सामान्य रूप से काम करती है। हालांकि, यह स्थिति पर निर्भर करता है। क्या होता है कि आप अल्पसंख्यक डेटा में "वेट" जोड़ रहे हैं, जब आप अल्पसंख्यक (समान स्थानों पर बार-बार अल्पसंख्यक बिंदुओं को दोहराते हुए) देख रहे हों। यह अनिवार्य रूप से अल्पसंख्यक उदाहरण के "विचार" को बेहतर बनाने में मदद करता है। हालांकि, वर्गीकरण की निर्णय सीमा तब बहुत तनावपूर्ण हो जाएगी (सामान्य रूप से पर्याप्त नहीं), यानी, ओवर-फिटिंग हो सकती है)। इसलिए, हमें SMOTE की तरह कुछ प्रोबेलिस्टिक नमूनाकरण तकनीकों पर विचार करना पड़ सकता है।

— रॉकीस्टार

एसवीएम असंतुलित वर्ग आवृत्तियों के साथ डेटासेट से निपटने में सक्षम हैं। कई कार्यान्वयन आपको सकारात्मक और नकारात्मक वर्गों के लिए सुस्त दंड (सी) के लिए एक अलग मूल्य रखने की अनुमति देते हैं (जो वर्ग आवृत्तियों को बदलने के लिए समान रूप से बराबर है)। मैं एक परीक्षण सेट पर सामान्यीकरण प्रदर्शन को अधिकतम करने के लिए इन मापदंडों के मूल्यों को निर्धारित करने की सिफारिश करूंगा जहां कक्षा की आवृत्ति वे हैं जो आप परिचालन उपयोग में देखने की उम्मीद करते हैं।

मैं उन कई लोगों में से एक था, जिन्होंने इस पर पत्र लिखे, यहाँ मेरा है , मैं देखूंगा कि क्या मुझे हाल ही में कुछ और मिल सकता है / बेहतर। वर्पोउलोस, कैम्पबेल और क्रिस्टियानिनी (1999) आज़माएं ।

— डिक्रान मार्सुपियल
स्रोत

Dikran यह केवल asymptotically समतुल्य क्यों है ... निश्चित रूप से यह अलग-अलग वर्ग की त्रुटियों को अलग-अलग भार करने के बराबर है?

— seanv507

यह कक्षा की त्रुटियों को भारित करने के बराबर है, लेकिन यह डेटा को फिर से शुरू करने के समान नहीं है (एक शुरुआत के लिए वजन लगातार चर रहे हैं, लेकिन डेटा असतत हैं)। यह स्पर्शोन्मुख अपेक्षा परिणामों में से एक है (जो ज्यादातर परिस्थितियों में विशेष रूप से उपयोगी नहीं लगता है)।

— डिक्रान मार्सुपियल