सुविधा वेक्टर में एक अतिरिक्त आयाम के बजाय, SVM में पूर्वाग्रह शब्द का अलग-अलग अनुमान क्यों लगाया जाता है?


11

एसवीएम में इष्टतम हाइपरप्लेन को निम्न के रूप में परिभाषित किया गया है:

wx+b=0,

जहाँ दहलीज का प्रतिनिधित्व करता है। अगर हमारे पास कुछ मैपिंग जो इनपुट स्पेस को कुछ स्पेस मैप करता है , तो हम SVM को स्पेस में परिभाषित कर सकते हैं , जहां इष्टतम हाइपरप्लेन होगा:φ जेड जेडbϕZZ

wϕ(x)+b=0.

हालाँकि, हम हमेशा मैपिंग को परिभाषित कर सकते हैं ताकि , , और फिर इष्टतम hiperplane को रूप में परिभाषित किया जाएगा। φ 0 ( एक्स ) = 1 एक्स डब्ल्यूφ ( एक्स ) = 0।ϕϕ0(x)=1x

wϕ(x)=0.

प्रशन:

  1. जब वे पहले से ही मैपिंग और अनुमान पैरामीटर और थ्रेशोल्ड सेपरैटेली है तो कई पेपर उपयोग क्यों करते हैं?φ डब्ल्यू बीwϕ(x)+b=0ϕwb

  2. क्या SVM को रूप में परिभाषित करने के लिए कुछ समस्या है? s.t.\ y_n \ mathbf w \ cdot \ mathbf \ phi (\ mathbf x_n) \ geq 1, \ forall n और केवल पैरामीटर वेक्टर \ mathbf w का अनुमान है , यह मानते हुए कि हम \ phi0 (\ mathbf x) = 1, \ forall \ mathbf को परिभाषित करते हैं। x ? एसटीy एन डब्ल्यू φ ( एक्स एन )1,एन डब्ल्यू φ 0 ( एक्स )=1, एक्स

    minw||w||2
    s.t. ynwϕ(xn)1,n
    wϕ0(x)=1,x
  3. यदि प्रश्न 2. से SVM ​​की परिभाषा संभव है, तो हमारे पास w=nynαnϕ(xn) होगा और थ्रेशोल्ड बस b=w0 , जिसे हम अलग से व्यवहार नहीं करेंगे। इसलिए हम कुछ समर्थन वेक्टर x_n से b का अनुमान लगाने के लिए b = t_n- \ mathbf w \ cdot \ phi (\ mathbf x_n) जैसे सूत्र का उपयोग कभी नहीं करेंगे । सही?b=tnwϕ(xn)bxn


जवाबों:


12

पूर्वाग्रह क्यों महत्वपूर्ण है?

पूर्वाग्रह शब्द , वास्तव में, एसवीएम में एक विशेष पैरामीटर है। इसके बिना, क्लासिफायर हमेशा मूल के माध्यम से जाएगा। तो, एसवीएम आपको अधिकतम मार्जिन के साथ अलग-अलग हाइपरप्लेन नहीं देता है यदि यह मूल से गुजरने के लिए नहीं होता है, जब तक कि आपके पास पूर्वाग्रह शब्द न हो।b

नीचे पूर्वाग्रह मुद्दे का एक दृश्य है। एक एसवीएम (बिना) के साथ प्रशिक्षित एक पूर्वाग्रह शब्द बाईं (दाईं ओर) दिखाया गया है। यद्यपि दोनों एसवीएम को एक ही डेटा पर प्रशिक्षित किया जाता है , हालांकि, वे बहुत अलग दिखते हैं।

यहाँ छवि विवरण दर्ज करें

पूर्वाग्रह को अलग से क्यों माना जाना चाहिए?

जैसा कि बेन डीएआई ने बताया, नियमितीकरण के कारण पूर्वाग्रह को अलग से व्यवहार किया जाना चाहिए। एसवीएम मार्जिन आकार को है, जो कि (या जो आप इसे परिभाषित करते हैं) पर निर्भर करता है।b1||w||22||w||2

मार्जिन को अधिकतम करना कम से कम करने के समान है ।इसे नियमितीकरण शब्द भी कहा जाता है और इसकी व्याख्या क्लासिफायर की जटिलता के उपाय के रूप में की जा सकती है। हालाँकि, आप पूर्वाग्रह शब्द को नियमित नहीं करना चाहते हैं, क्योंकि पूर्वाग्रह वर्गीकरण स्कोर को सभी डेटा बिंदुओं के लिए एक ही राशि से ऊपर या नीचे स्थानांतरित करता है । विशेष रूप से, पूर्वाग्रह नहीं बदलता है आकार वर्गीकारक या उसके मार्जिन आकार की। इसलिए, ...||w||2

एसवीएम में पूर्वाग्रह को नियमित नहीं किया जाना चाहिए।

व्यवहार में, हालांकि, विशेष मामले से निपटने के बजाय पूर्वाग्रह को फीचर वेक्टर में धकेलना आसान है।

नोट: जब सुविधा फ़ंक्शन के पूर्वाग्रह को आगे बढ़ाते हैं, तो सुविधा वेक्टर के उस आयाम को बड़ी संख्या में ठीक करना सबसे अच्छा होता है, जैसे कि , ताकि पूर्वाग्रह के नियमितीकरण के दुष्प्रभावों को कम किया जा सके।ϕ0(x)=10


जिज्ञासा से बाहर, प्लॉट्स बनाने के लिए आपने किस कार्यक्रम का उपयोग किया?
d0rmLife

1
@ d0rmLife: यह सिर्फ एक कार्टून है जिसे मैंने MS PowerPoint का उपयोग करके बनाया है!
सोबी


1

कभी-कभी, लोग एसवीएम में अवरोधन को छोड़ देंगे, लेकिन मुझे लगता है कि हो सकता है कि हम इसे रोकने के लिए अवरोधन को दंडित कर सकें। अर्थात,

हम डेटा , और ताकि इंटरसेप्ट जैसा कि आप कहा, इसी तरह की तकनीक कर्नेल संस्करण में उपयोग की जा सकती है। डब्ल्यू =(डब्ल्यू0,डब्ल्यूटी)टीएक्सडब्ल्यू+= एक्स डब्ल्यूx^=(1,x)w^=(w0,wT)T

x w+b=x^ w^

हालांकि, अगर हम अवरोधन को वज़न में रखते हैं, तो उद्देश्य फ़ंक्शन मूल एक के साथ थोड़ा अलग होगा। इसलिए हम "दंड" कहते हैं।


मैं सहमत हूं कि हमारे अलग-अलग उद्देश्य होंगे। जब हम मापदंडों में इंटरसेप्ट को शामिल नहीं करते हैं, तो अनुकूलन समस्या ओर जाता है। बाधा के अधीन है, जबकि अन्यथा हमारे पास समस्या है । लेकिन, मुझे समझ नहीं आता कि मॉडल के लिए इंटरसेप्ट को कम या ज्यादा करना क्यों महत्वपूर्ण है। bminw,b||w||2minw,b||w||2+b2
देजन

मेरे दिमाग में क्या आता है, यह है कि हमारे पास अंतर का मुख्य कारण शायद यह है कि दोहरी समस्या में, अवरोधन हमें बाधा अनुमति देता है, जो एसएमओ एल्गोरिथ्म को लागू करने के लिए महत्वपूर्ण है, और यदि हम हमें नहीं रोकते हैं केवल स्थिरांक और दोहरी अनुकूलन उस मामले में कठिन होगा। αntn=0αn0
डेजन

@Petar एक बात जो मुझे ज्ञात है कि यह शक्तिशाली हो जाती है जब हम इस मॉडल के दोहरे रूप के बारे में विचार करते हैं। यह तकनीक रैखिक अवरोध को समाप्त कर देगी।
बेन दाई

@Petar मुझे नहीं लगता कि दोहरी अनुकूलन कठिन होगा, क्योंकि हमारे पास आसान डोमेन है।
बेन दाई

@Petar विशिष्ट एल्गोरिथ्म के लिए, यह कठिन हो सकता है। हालाँकि, गणितीय रूप से, मुझे लगता है कि बॉक्स डोमेन शायद बेहतर है
बेन दाई

0

कारणों के लिए अतिरिक्त ऊपर उल्लेख किया है, का एक बिंदु दूरी एक hyperplane को ढाल द्वारा परिभाषित और अवरोधन है यह कैसे है एसवीएम में मार्जिन की अवधारणा को हटा दिया जाता है। आप को बदलते हैं अवरोधन अवधि शामिल करने के लिए , के आदर्श अवरोधन के आकार, जो एक छोटे से अवरोध पैदा करते हैं जो कई मामलों में कोई मतलब नहीं है की दिशा में अनुकूलन करने के लिए SVM कारण होगा द्वारा प्रभावित हो जाएगा।xθb

|θTx+b|||θ||
θbθ


यहां तक ​​कि सोचा कि हाइपरप्लेन के लिए एक बिंदु की दूरी सही है और स्पष्टीकरण दिलचस्प लग रहा है, मुझे इस सूत्र और एसवीएम के प्रशिक्षण के बीच संबंध नहीं दिखता है। क्या आप बेहतर तरीके से समझा सकते हैं कि प्रशिक्षण के दौरान यह सूत्र कैसे उपयोग कर रहा है या कुछ अतिरिक्त लिंक प्रदान करता है।
देजन

@Dejan एक SVM के पीछे का विचार हाइपरप्लेन को खोजने के लिए है जो एक डेटासेट के न्यूनतम मार्जिन को अधिकतम करता है। मार्जिन "दूरी" ( , निरपेक्ष मान के बिना, जो उस संकेत को इंगित करता है कि हाइपरप्लेन के उस बिंदु पर क्लासिफायर की अपनी परिकल्पना है) इसके लेबल का समय, जो । उत्पाद , जो सकारात्मक है अगर क्लासिफायर आउटपुट लेबल से मेल खाता है और नकारात्मक है। व्यवहार में, हम केवल अपने मॉडल को मापते हैं ताकि डेटा सेट का न्यूनतम मार्जिन । {-1,1}y(θटीएक्स+)θTx+b||θ||{1,1}1y(θTx+b)||θ||1||θ||
charlieh_7

: @Dejan आप एंड्रयू एनजी के नोट्स में और अधिक जानकारी प्राप्त कर सकते cs229.stanford.edu/notes/cs229-notes3.pdf
charlieh_7
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.