असंतुलित डेटा के लिए एसवीएम

15

मैं अपने डेटासेट पर सपोर्ट वेक्टर मशीनों (एसवीएम) का उपयोग करने का प्रयास करना चाहता हूं। इससे पहले कि मैं इस समस्या का प्रयास करूँ, मुझे चेतावनी दी गई थी कि एसवीएम बेहद असंतुलित आंकड़ों पर अच्छा प्रदर्शन नहीं करते हैं। मेरे मामले में, मेरे पास 95-98% 0 और 2-5% 1 के रूप में हो सकता है।

मैंने उन संसाधनों को खोजने की कोशिश की जो विरल / असंतुलित डेटा पर एसवीएम का उपयोग करने के बारे में बात करते थे, लेकिन सभी मुझे मिल सकते थे 'स्पार्स वीवीएम' (जो थोड़ी मात्रा में समर्थन वैक्टर का उपयोग करते हैं)।

मैं उम्मीद कर रहा था कि कोई व्यक्ति संक्षेप में समझा सकता है:

इस तरह के डेटासेट के साथ SVM को कितनी अच्छी उम्मीद होगी
जो, यदि कोई हो, संशोधनों को एसवीएम एल्गोरिथ्म में किया जाना चाहिए
कौन से संसाधन / कागजात इस पर चर्चा करते हैं

svm libsvm unbalanced-classes

— DankMasterDan
स्रोत

15

कई एसवीएम कार्यान्वयन सकारात्मक और नकारात्मक उदाहरणों को अलग-अलग भार प्रदान करके इसे संबोधित करते हैं। अनिवार्य रूप से आप नमूनों का वजन करते हैं ताकि सकारात्मक के लिए वजन का योग नकारात्मक के बराबर हो। बेशक, एसवीएम के आपके मूल्यांकन में आपको याद रखना होगा कि यदि 95% डेटा नकारात्मक है, तो हमेशा नकारात्मक की भविष्यवाणी करके 95% सटीकता प्राप्त करना तुच्छ है। इसलिए आपको यह सुनिश्चित करना होगा कि आपके मूल्यांकन मैट्रिक्स को भी भारित किया जाए ताकि वे संतुलित हों।

विशेष रूप से libsvm, जिसे आपने एक टैग के रूप में जोड़ा था, एक ध्वज है जो आपको वर्ग भार निर्धारित करने की अनुमति देता है ( -wमुझे विश्वास है, लेकिन डॉक्स की जांच करें )।

अंत में, व्यक्तिगत अनुभव से मैं आपको बता सकता हूं कि मैं अक्सर पाता हूं कि एक एसवीएम वजन में सुधार के साथ या उसके बिना बहुत समान परिणाम देगा।

— बिटवाइज़
स्रोत

मुझे इसे हरा दें :-)

— मार्क क्लेसेन

@ बिटवाइज मुझे असंतुलित डेटा की समान समस्या है और मुझे 99% की सटीकता प्राप्त है। मैंने libsvm में वेट का इस्तेमाल किया। आपने उल्लेख किया कि मूल्यांकन मेट्रिक्स को भी भारित किया जाना चाहिए। मैं जानना चाहता था कि हम मूल्यांकन मेट्रिक्स का वजन कैसे कर सकते हैं।

— हानी गोच

1

90 / 100 = 0.9

$90/100 = 0.9$

0.5 * (0 / 10 + 90 / 90) = 0.5

$0.5*(0/10+90/90) = 0.5$

7

एसवीएम विरल और असंतुलित डेटा पर ठीक काम करते हैं। वर्ग-भारित एसवीएम को अल्पसंख्यक वर्ग के प्रशिक्षण उदाहरणों के लिए उच्च गर्भपात दंड देकर असंतुलित डेटा से निपटने के लिए डिज़ाइन किया गया है।

— मार्क क्लेसेन
स्रोत

5

इस तरह के विरल डेटा के मामले में एसवीएम अच्छा काम करेगा।

जैसा कि @Bitwise ने कहा है कि आपको एल्गोरिथ्म के प्रदर्शन को मापने के लिए सटीकता का उपयोग नहीं करना चाहिए।

इसके बजाय आपको एल्गोरिथ्म की शुद्धता, रिकॉल और एफ-स्कोर की गणना करनी चाहिए ।

— alexandrekow
स्रोत

क्या आप कृपया अपने तर्क पर विस्तार कर सकते हैं? इसके अलावा, वर्गीकरण (परीक्षण सेट पर) पूरा होने के बाद आप एफ-स्कोर को मापने के बारे में कैसे जाएंगे? धन्यवाद

— स्पेसी

परीक्षण सेट पर एफएसकोर को मापने के लिए आपको मैन्युअल रूप से इसे वर्गीकृत करने की आवश्यकता होगी, और फिर मैन्युअल डेटा बनाम भविष्यवाणी किए गए डेटा का उपयोग करके रिकॉल और सटीक गणना करें। आप मुझे क्या विस्तार देना चाहेंगे, क्यों एसवीएम विरल डेटा के साथ अच्छी तरह से काम करता है?

— अलेक्जेंड्रेको

हाँ, क्यों SVM विरल डेटा पर काम करता है और साथ ही अच्छा होगा। धन्यवाद

— स्पेसी

"बस विरल सुविधाओं के होने से एसवीएम के लिए कोई समस्या नहीं होती है। इसे देखने का एक तरीका यह है कि आप को-ऑर्डिनेट अक्षों का एक यादृच्छिक घुमाव कर सकते हैं, जो समस्या को अपरिवर्तित छोड़ देगा और एक ही समाधान देगा, लेकिन पूरा करेगा डेटा पूरी तरह से गैर-विरल (यह भाग में है कि कैसे यादृच्छिक अनुमान काम करते हैं "( सांख्यिकी.stackexchange.com/questions/23470/… )

— alexandrekow