सुविधा वेक्टर में एक अतिरिक्त आयाम के बजाय, SVM में पूर्वाग्रह शब्द का अलग-अलग अनुमान क्यों लगाया जाता है?

एसवीएम में इष्टतम हाइपरप्लेन को निम्न के रूप में परिभाषित किया गया है:

w \cdot x + b = 0,

$\mathbf w \cdot \mathbf x+b=0,$

जहाँ दहलीज का प्रतिनिधित्व करता है। अगर हमारे पास कुछ मैपिंग जो इनपुट स्पेस को कुछ स्पेस मैप करता है , तो हम SVM को स्पेस में परिभाषित कर सकते हैं , जहां इष्टतम हाइपरप्लेन होगा: $b$ $\mathbf \phi$ $Z$ $Z$

w \cdot ϕ (x) + b = 0.

$\mathbf w \cdot \mathbf \phi(\mathbf x)+b=0.$

हालाँकि, हम हमेशा मैपिंग को परिभाषित कर सकते हैं ताकि , , और फिर इष्टतम hiperplane को रूप में परिभाषित किया जाएगा। $\phi$ $\phi_0(\mathbf x)=1$ $\forall \mathbf x$

w \cdot ϕ (x) = 0.

$\mathbf w \cdot \mathbf \phi(\mathbf x)=0.$

प्रशन:

जब वे पहले से ही मैपिंग और अनुमान पैरामीटर और थ्रेशोल्ड सेपरैटेली है तो कई पेपर उपयोग क्यों करते हैं? $\mathbf w \cdot \mathbf \phi(\mathbf x)+b=0$ $\phi$ $\mathbf w$ $b$
क्या SVM को रूप में परिभाषित करने के लिए कुछ समस्या है? और केवल पैरामीटर वेक्टर अनुमान है , यह मानते हुए कि हम ?
$min_{w} | | w | |^{2}$ $\min_{\mathbf w} ||\mathbf w ||^2$ $s . t . y_{n} w \cdot ϕ (x_{n}) \geq 1, \forall n$ $s.t. \ y_n \mathbf w \cdot \mathbf \phi(\mathbf x_n) \geq 1, \forall n$ $\mathbf w$ $\phi_0(\mathbf x)=1, \forall\mathbf x$
यदि प्रश्न 2. से SVM की परिभाषा संभव है, तो हमारे पास $\mathbf w = \sum_{n} y_n\alpha_n \phi(\mathbf x_n)$ होगा और थ्रेशोल्ड बस $b=w_0$ , जिसे हम अलग से व्यवहार नहीं करेंगे। इसलिए हम कुछ समर्थन वेक्टर से का अनुमान लगाने के लिए जैसे सूत्र का उपयोग कभी नहीं करेंगे । सही? $b=t_n-\mathbf w\cdot \phi(\mathbf x_n)$ $b$ $x_n$

svm threshold

— डेजन
स्रोत

संबंधित: प्रतिगमन में पूर्वाग्रह (अवरोधन) शब्द को न सिकोड़ने का कारण ।

— अमीबा

जवाबों:

पूर्वाग्रह क्यों महत्वपूर्ण है?

पूर्वाग्रह शब्द , वास्तव में, एसवीएम में एक विशेष पैरामीटर है। इसके बिना, क्लासिफायर हमेशा मूल के माध्यम से जाएगा। तो, एसवीएम आपको अधिकतम मार्जिन के साथ अलग-अलग हाइपरप्लेन नहीं देता है यदि यह मूल से गुजरने के लिए नहीं होता है, जब तक कि आपके पास पूर्वाग्रह शब्द न हो। $b$

नीचे पूर्वाग्रह मुद्दे का एक दृश्य है। एक एसवीएम (बिना) के साथ प्रशिक्षित एक पूर्वाग्रह शब्द बाईं (दाईं ओर) दिखाया गया है। यद्यपि दोनों एसवीएम को एक ही डेटा पर प्रशिक्षित किया जाता है , हालांकि, वे बहुत अलग दिखते हैं।

पूर्वाग्रह को अलग से क्यों माना जाना चाहिए?

जैसा कि बेन डीएआई ने बताया, नियमितीकरण के कारण पूर्वाग्रह को अलग से व्यवहार किया जाना चाहिए। एसवीएम मार्जिन आकार को है, जो कि (या जो आप इसे परिभाषित करते हैं) पर निर्भर करता है। $b$ $\frac{1}{||w||^2}$ $\frac{2}{||w||^2}$

मार्जिन को अधिकतम करना कम से कम करने के समान है ।इसे नियमितीकरण शब्द भी कहा जाता है और इसकी व्याख्या क्लासिफायर की जटिलता के उपाय के रूप में की जा सकती है। हालाँकि, आप पूर्वाग्रह शब्द को नियमित नहीं करना चाहते हैं, क्योंकि पूर्वाग्रह वर्गीकरण स्कोर को सभी डेटा बिंदुओं के लिए एक ही राशि से ऊपर या नीचे स्थानांतरित करता है । विशेष रूप से, पूर्वाग्रह नहीं बदलता है आकार वर्गीकारक या उसके मार्जिन आकार की। इसलिए, ... $||w||^2$

एसवीएम में पूर्वाग्रह को नियमित नहीं किया जाना चाहिए।

व्यवहार में, हालांकि, विशेष मामले से निपटने के बजाय पूर्वाग्रह को फीचर वेक्टर में धकेलना आसान है।

नोट: जब सुविधा फ़ंक्शन के पूर्वाग्रह को आगे बढ़ाते हैं, तो सुविधा वेक्टर के उस आयाम को बड़ी संख्या में ठीक करना सबसे अच्छा होता है, जैसे कि , ताकि पूर्वाग्रह के नियमितीकरण के दुष्प्रभावों को कम किया जा सके। $\phi_0(x) = 10$

— SOBI
स्रोत

जिज्ञासा से बाहर, प्लॉट्स बनाने के लिए आपने किस कार्यक्रम का उपयोग किया?

— d0rmLife

@ d0rmLife: यह सिर्फ एक कार्टून है जिसे मैंने MS PowerPoint का उपयोग करके बनाया है!

— सोबी

+1। संबंधित: प्रतिगमन में पूर्वाग्रह (अवरोधन) शब्द को न सिकोड़ने का कारण ।

— अमीबा

कभी-कभी, लोग एसवीएम में अवरोधन को छोड़ देंगे, लेकिन मुझे लगता है कि हो सकता है कि हम इसे रोकने के लिए अवरोधन को दंडित कर सकें। अर्थात,

हम डेटा , और ताकि इंटरसेप्ट जैसा कि आप कहा, इसी तरह की तकनीक कर्नेल संस्करण में उपयोग की जा सकती है। $\mathbf{\hat{x}} = (\mathbf{1}, \mathbf{x})$ $\mathbf{\hat{w}} = (w_{0}, \mathbf{w}^{T})^{T}$

x w + b = \hat{x} \hat{w}

$\mathbf{x} ~ \mathbf{w} + b = \mathbf{\hat{x}} ~ \mathbf{\hat{w}}$

हालांकि, अगर हम अवरोधन को वज़न में रखते हैं, तो उद्देश्य फ़ंक्शन मूल एक के साथ थोड़ा अलग होगा। इसलिए हम "दंड" कहते हैं।

— बेन दाई
स्रोत

मैं सहमत हूं कि हमारे अलग-अलग उद्देश्य होंगे। जब हम मापदंडों में इंटरसेप्ट को शामिल नहीं करते हैं, तो अनुकूलन समस्या ओर जाता है। बाधा के अधीन है, जबकि अन्यथा हमारे पास समस्या है । लेकिन, मुझे समझ नहीं आता कि मॉडल के लिए इंटरसेप्ट को कम या ज्यादा करना क्यों महत्वपूर्ण है।

b

$b$

min_{w, b} | | w | |^{2}

$\min_{\mathbf w,b} ||\mathbf w||^2$

min_{w, b} | | w | |^{2} + b^{2}

$\min_{\mathbf w,b} ||\mathbf w||^2 + b^2$

— देजन

मेरे दिमाग में क्या आता है, यह है कि हमारे पास अंतर का मुख्य कारण शायद यह है कि दोहरी समस्या में, अवरोधन हमें बाधा अनुमति देता है, जो एसएमओ एल्गोरिथ्म को लागू करने के लिए महत्वपूर्ण है, और यदि हम हमें नहीं रोकते हैं केवल स्थिरांक और दोहरी अनुकूलन उस मामले में कठिन होगा।

\sum α_{n} t_{n} = 0

$\sum \alpha_n t_n=0$

α_{n} \geq 0

$\alpha_n\geq 0$

— डेजन

@Petar एक बात जो मुझे ज्ञात है कि यह शक्तिशाली हो जाती है जब हम इस मॉडल के दोहरे रूप के बारे में विचार करते हैं। यह तकनीक रैखिक अवरोध को समाप्त कर देगी।

— बेन दाई

@Petar मुझे नहीं लगता कि दोहरी अनुकूलन कठिन होगा, क्योंकि हमारे पास आसान डोमेन है।

— बेन दाई

@Petar विशिष्ट एल्गोरिथ्म के लिए, यह कठिन हो सकता है। हालाँकि, गणितीय रूप से, मुझे लगता है कि बॉक्स डोमेन शायद बेहतर है

— बेन दाई

कारणों के लिए अतिरिक्त ऊपर उल्लेख किया है, का एक बिंदु दूरी एक hyperplane को ढाल द्वारा परिभाषित और अवरोधन है यह कैसे है एसवीएम में मार्जिन की अवधारणा को हटा दिया जाता है। आप को बदलते हैं अवरोधन अवधि शामिल करने के लिए , के आदर्श अवरोधन के आकार, जो एक छोटे से अवरोध पैदा करते हैं जो कई मामलों में कोई मतलब नहीं है की दिशा में अनुकूलन करने के लिए SVM कारण होगा द्वारा प्रभावित हो जाएगा। $x$ $\theta$ $b$

\frac{| θ^{T} x + b |}{| | θ | |}

$\frac{|\theta^T x + b|}{||\theta||}$

θ

$\theta$

b

$b$

θ

$\theta$

— charlieh_7
स्रोत

यहां तक कि सोचा कि हाइपरप्लेन के लिए एक बिंदु की दूरी सही है और स्पष्टीकरण दिलचस्प लग रहा है, मुझे इस सूत्र और एसवीएम के प्रशिक्षण के बीच संबंध नहीं दिखता है। क्या आप बेहतर तरीके से समझा सकते हैं कि प्रशिक्षण के दौरान यह सूत्र कैसे उपयोग कर रहा है या कुछ अतिरिक्त लिंक प्रदान करता है।

— देजन

@Dejan एक SVM के पीछे का विचार हाइपरप्लेन को खोजने के लिए है जो एक डेटासेट के न्यूनतम मार्जिन को अधिकतम करता है। मार्जिन "दूरी" ( , निरपेक्ष मान के बिना, जो उस संकेत को इंगित करता है कि हाइपरप्लेन के उस बिंदु पर क्लासिफायर की अपनी परिकल्पना है) इसके लेबल का समय, जो । उत्पाद , जो सकारात्मक है अगर क्लासिफायर आउटपुट लेबल से मेल खाता है और नकारात्मक है। व्यवहार में, हम केवल अपने मॉडल को मापते हैं ताकि डेटा सेट का न्यूनतम मार्जिन ।

\frac{θ^{T} x + b}{| | θ | |}

$\frac{\theta^T x + b}{||\theta||}$

{- 1, 1}

$\{-1, 1\}$

\frac{y (θ^{T} x + b)}{| | θ | |}

$\frac{y(\theta^T x + b)}{||\theta||}$

\frac{1}{| | θ | |}

$\frac{1}{||\theta||}$

— charlieh_7

: @Dejan आप एंड्रयू एनजी के नोट्स में और अधिक जानकारी प्राप्त कर सकते cs229.stanford.edu/notes/cs229-notes3.pdf

— charlieh_7