हार्ड मार्जिन एसवीएम का नुकसान क्या है?


23

लोगों का कहना है कि नरम मार्जिन एसवीएम काज हानि समारोह का उपयोग करते हैं: । हालांकि, वास्तविक उद्देश्य फ़ंक्शन जो नरम मार्जिन SVM को कम करने की कोशिश करता है, वह है \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max (0,1-y_i (w ^ \ intercal x_i / b) ) कुछ लेखक \ _ w | ^ 2 टर्म रेग्युलर और \ मैक्स (0,1-y_i (w ^ \ intercal x_i + b)) टर्म लॉस फंक्शन कहते हैं।max(0,1yi(wxi+b))

12w2+Cimax(0,1yi(wxi+b))
w2max(0,1yi(wxi+b))

हालाँकि, हार्ड मार्जिन SVM के लिए, पूरा उद्देश्य फ़ंक्शन just

12w2
क्या इसका मतलब है कि हार्ड मार्जिन SVM केवल किसी भी हानि फ़ंक्शन के बिना एक नियमित रूप से कम से कम है? यह बहुत अजीब लगता है।

ठीक है, अगर 12w2 इस मामले में नुकसान फ़ंक्शन है, तो क्या हम इसे द्विघात नुकसान फ़ंक्शन कह सकते हैं? यदि ऐसा है, तो हार्ड मार्जिन एसवीएम का नुकसान फ़ंक्शन सॉफ्ट मार्जिन एसवीएम में नियमित क्यों हो जाता है और द्विघात हानि से काज हानि में बदलाव करता है?


मैं जो समझता हूं, उसके लिए कठिन मार्जिन का मतलब है कि आप अपने मार्जिन में डेटा को स्वीकार नहीं करते हैं। परिणामस्वरूप, अधिकतम (0, गणना) हमेशा 0.
fxm

जवाबों:


26

काज नुकसान अवधि imax(0,1yi(wxi+b)) नरम मार्जिन SVM penalizes में misclassifications । एसवीएम के हार्ड मार्जिन में, परिभाषा के अनुसार, कोई मिसकैरेज नहीं हैं।

इसका वास्तव में मतलब है कि हार्ड मार्जिन SVM \ _ \ _ \ _bbf {w} \ | ^ 2 को कम करने की कोशिश करता है w2। SVM समस्या के निर्माण के कारण, मार्जिन 2/w। जैसे, \ mathbf {w} के मान को कम करना, wज्यामितीय रूप से मार्जिन को अधिकतम करने के बराबर है। वास्तव में हम क्या चाहते हैं!

नियमितीकरण एक तकनीक समाधान वेक्टर में बड़े गुणांक को दंडित द्वारा overfitting से बचना है। हार्ड मार्जिन में SVM , दोनों लॉस फंक्शन और एक रेग्युलर है।w2L2

सॉफ्ट-मार्जिन एसवीएम में, हिंज लॉस टर्म भी एक तरह काम करता है, लेकिन ' बजाय और में बजाय । नियमितीकरण प्रेरित करता है, यही वजह है कि मानक एसवीएम समर्थन वैक्टर (कम से कम-एसवीएम के विपरीत) के मामले में विरल है।wL1L2L1


क्या आप पिछले दो पैराग्राफ को कुछ और विवरण और गणित के साथ समझा सकते हैं?
नैन

0

बस स्पष्ट करने के लिए, को बाधा के अधीन किया जाता है कि अंक रैखिक रूप से अलग होते हैं (यानी एक हाइपरप्लेन खींच सकता है जो दोनों को पूरी तरह से अलग करता है)। दूसरे शब्दों में, डब्ल्यू के एकमात्र अनुमत मूल्यों को हम समाधान के रूप में मान सकते हैं जो अंकों के दो सेटों को अलग करते हैं।

12w2

अब, यह सोचा गया है कि हार्ड मार्जिन SVM "ओवरफिट" नरम मार्जिन की तुलना में अधिक आसानी से होता है। यह एक आरबीएफ एसवीएम के साथ उच्च साथ कल्पना करना आसान है , जो जटिल (और) जटिल और संभावित रूप से ओवर-फिट निर्णय सीमाओं को बना सकता है। कठिन मार्जिन (उच्चतर "सी" के साथ अभेद्य रूप से अनुकरण), कठिन खोज निर्णय सीमाओं को खोजने की कोशिश करेगी जो बिंदुओं के दो सेटों को पूरी तरह से वर्गीकृत करती है।γ

जब हम "नरम मार्जिन" पर जाते हैं, तो बाधाएं शांत हो जाती हैं और "सुस्त" की शुरूआत के माध्यम से संयम के साथ बदल दिया जाता है। इस स्लैक वेरिएबल को "हिंग लॉस" टर्म के साथ परिभाषित किया गया है। सरलीकरण के बाद, एक काज + एल 2 पर पहुंचता है जैसे कि हानि अवधि सभी को एसवीएम के साथ जोड़ती है। एफडब्ल्यूआईडब्ल्यू, मुझे एसवीएम को एक अनुकूलन समस्या के रूप में सर्वव्यापी के बजाय फ्रेमवर्क "ग्रेडिएंट्स का पालन करें" समस्या पसंद है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.