36

इस तथ्य के पीछे अंतर्ज्ञान क्या है कि एक गॉसियन कर्नेल के साथ एक एसवीएम में ite नाइट आयामी विशेषता स्थान है?

svm feature-selection kernel-trick

— user36162
स्रोत

1

मैं वास्तव में सवाल नहीं समझता। क्या आप एक स्पष्टीकरण चाहते हैं कि इसकी संबंधित विशेषता स्थान अनंत आयामी या एक व्याख्या क्यों है जिसके परिणामस्वरूप हाइपरप्लेन का मतलब है?

— मार्क क्लेसेन

1

मैं दोनों को सुनने में बुरा नहीं मानूंगा!

— user36162

5

मुझे लगता है कि यह एक दिलचस्प सवाल है (+1)

39

यह उत्तर निम्नलिखित की व्याख्या करता है:

अलग-अलग बिंदुओं और गाऊसी कर्नेल (पर्याप्त रूप से छोटे बैंडविड्थ के साथ) के लिए पूर्ण पृथक्करण हमेशा क्यों संभव है
इस पृथक्करण को रेखीय के रूप में कैसे समझा जा सकता है, लेकिन केवल एक अमूर्त विशेषता अंतरिक्ष में उस स्थान से अलग है जहां डेटा रहता है
डेटा स्पेस से फीचर स्पेस में मैपिंग कैसे "पाया" है। Spoiler: यह SVM द्वारा नहीं मिला है, यह स्पष्ट रूप से आपके द्वारा चुने गए कर्नेल द्वारा परिभाषित किया गया है।
क्यों सुविधा स्थान अनंत-आयामी है।

1. पूर्ण अलगाव को प्राप्त करना

कर्नेल की स्थानीयता गुणों के कारण एक गाऊसी कर्नेल के साथ पूर्ण पृथक्करण हमेशा संभव होता है (विभिन्न वर्गों से कोई दो बिंदु बिल्कुल समान नहीं होते हैं), जो एक मनमाने ढंग से लचीले निर्णय सीमा की ओर ले जाता है। पर्याप्त रूप से छोटे कर्नेल बैंडविड्थ के लिए, निर्णय सीमा आपको ऐसी दिखेगी जब आप सकारात्मक और नकारात्मक उदाहरणों को अलग करने के लिए आवश्यक बिंदुओं के चारों ओर छोटे घेरे खींच लेंगे:

(क्रेडिट: एंड्रयू एनजी का ऑनलाइन मशीन लर्निंग कोर्स )।

तो, यह गणितीय दृष्टिकोण से क्यों होता है?

मानक सेटअप पर विचार करें: आप एक गाऊसी गिरी है और प्रशिक्षण डेटा जहां मान । हम एक क्लासिफायर फ़ंक्शन सीखना चाहते हैं $K(\mathbf{x},\mathbf{z}) = \exp(-||\mathbf{x}-\mathbf{z}||^2 / \sigma^2)$ $(\mathbf{x}^{(1)},y^{(1)}), (\mathbf{x}^{(2)},y^{(2)}), \ldots, (\mathbf{x}^{(n)},y^{(n)})$ $y^{(i)}$ $\pm 1$

\hat{y} (x) = \sum_{i} w_{i} y^{(i)} K (x^{(i)}, x)

$\hat{y}(\mathbf{x}) = \sum_i w_i y^{(i)} K(\mathbf{x}^{(i)},\mathbf{x})$

अब हम कभी भी वेट कैसे करेंगे ? क्या हमें अनंत आयामी स्थान और एक द्विघात प्रोग्रामिंग एल्गोरिथ्म की आवश्यकता है? नहीं, क्योंकि मैं सिर्फ यह दिखाना चाहता हूं कि मैं बिंदुओं को पूरी तरह से अलग कर सकता हूं। इसलिए मैं सबसे छोटे अलगाव से एक अरब गुना छोटा करता हूँकिसी भी दो प्रशिक्षण उदाहरणों के बीच, और मैं अभी सेट करता । इसका मतलब यह है कि सभी प्रशिक्षण बिंदु एक अरब सिगमा हैं जहां तक कर्नेल का संबंध है, और प्रत्येक बिंदु अपने पड़ोस में के संकेत को पूरी तरह से नियंत्रित करता है। औपचारिक रूप से, हमारे पास है $w_i$ $\sigma$ $||\mathbf{x}^{(i)} - \mathbf{x}^{(j)}||$ $w_i = 1$ $\hat{y}$

\hat{y} (x^{(k)}) = \sum_{i = 1}^{n} y^{(k)} K (x^{(i)}, x^{(k)}) = y^{(k)} K (x^{(k)}, x^{(k)}) + \sum_{i \neq k} y^{(i)} K (x^{(i)}, x^{(k)}) = y^{(k)} + ϵ

$\hat{y}(\mathbf{x}^{(k)}) = \sum_{i=1}^n y^{(k)} K(\mathbf{x}^{(i)},\mathbf{x}^{(k)}) = y^{(k)} K(\mathbf{x}^{(k)},\mathbf{x}^{(k)}) + \sum_{i \neq k} y^{(i)} K(\mathbf{x}^{(i)},\mathbf{x}^{(k)}) = y^{(k)} + \epsilon$

जहाँ कुछ मनमाने ढंग से छोटे मूल्य है। हम जानते हैं कि छोटा है क्योंकि किसी भी अन्य बिंदु से दूर एक अरब , इसलिए सभी हमारे पास है $\epsilon$ $\epsilon$ $\mathbf{x}^{(k)}$ $i \neq k$

K (x^{(i)}, x^{(k)}) = \exp (- | | x^{(i)} - x^{(k)} | |^{2} / σ^{2}) \approx 0.

$K(\mathbf{x}^{(i)},\mathbf{x}^{(k)}) = \exp(-||\mathbf{x}^{(i)} - \mathbf{x}^{(k)}||^2 / \sigma^2) \approx 0.$

चूँकि इतना छोटा है, इसलिए निश्चित रूप से रूप में एक ही संकेत है , और वर्गीकरणकर्ता प्रशिक्षण डेटा पर सही सटीकता प्राप्त करता है। $\epsilon$ $\hat{y}(\mathbf{x}^{(k)})$ $y^{(k)}$

2. कर्नेल एसवीएम लीनियर सेपरेशन के रूप में सीखते हैं

इस तथ्य की व्याख्या की जा सकती है कि "अनंत आयामी सुविधा वाले स्थान में परिपूर्ण रैखिक पृथक्करण" कर्नेल ट्रिक से आता है, जो आपको कर्नेल को एक आंतरिक उत्पाद के रूप में व्याख्या करने की अनुमति देता है (संभावित रूप से अनंत-आयामी) सुविधा स्थान:

K (x^{(i)}, x^{(j)}) = ⟨ Φ (x^{(i)}), Φ (x^{(j)}) ⟩

$K(\mathbf{x}^{(i)},\mathbf{x}^{(j)}) = \langle\Phi(\mathbf{x}^{(i)}),\Phi(\mathbf{x}^{(j)})\rangle$

जहाँ डेटा स्पेस से फीचर स्पेस में मैपिंग है। यह तुरंत इस प्रकार है कि सुविधा स्थान में एक रैखिक फ़ंक्शन के रूप में कार्य करता है: $\Phi(\mathbf{x})$ $\hat{y}(\mathbf{x})$

\hat{y} (x) = \sum_{i} w_{i} y^{(i)} ⟨ Φ (x^{(i)}), Φ (x) ⟩ = L (Φ (x))

$\hat{y}(\mathbf{x}) = \sum_i w_i y^{(i)} \langle\Phi(\mathbf{x}^{(i)}),\Phi(\mathbf{x})\rangle = L(\Phi(\mathbf{x}))$

जहाँ रैखिक फ़ंक्शन को फ़ीचर स्पेस वैक्टर रूप में परिभाषित किया गया है $L(\mathbf{v})$ $\mathbf{v}$

L (v) = \sum_{i} w_{i} y^{(i)} ⟨ Φ (x^{(i)}), v ⟩

$L(\mathbf{v}) = \sum_i w_i y^{(i)} \langle\Phi(\mathbf{x}^{(i)}),\mathbf{v}\rangle$

यह फ़ंक्शन में रैखिक है क्योंकि यह फिक्स्ड वैक्टर के साथ आंतरिक उत्पादों का एक रैखिक संयोजन है। फ़ीचर स्पेस में, निर्णय सीमा सिर्फ , जो एक रैखिक फ़ंक्शन का स्तर सेट है। फ़ीचर स्पेस में हाइपरप्लेन की यही परिभाषा है। $\mathbf{v}$ $\hat{y}(\mathbf{x}) = 0$ $L(\mathbf{v}) = 0$

3. मैपिंग और फीचर स्पेस को समझना

नोट: इस खंड में, नोटेशनएक मनमाना सेटबिंदुओंको दर्शाता हैन कि प्रशिक्षण डेटा को। यह शुद्ध गणित है; प्रशिक्षण डेटा इस खंड में बिल्कुल भी नहीं है! $\mathbf{x}^{(i)}$ $n$

कर्नेल विधियाँ वास्तव में फीचर स्पेस या मैपिंग स्पष्ट रूप से "खोज" या "कंप्यूट" नहीं करती हैं । कर्नेल सीखने के तरीकों जैसे कि एसवीएम को काम करने की आवश्यकता नहीं है; उन्हें केवल कर्नेल फ़ंक्शन आवश्यकता है । $\Phi$ $K$

उस ने कहा, लिए एक सूत्र नीचे लिखना संभव है । फ़ीचर स्पेस जिस पर मैप्स अमूर्त (और संभावित रूप से अनंत-आयामी) की तरह है, लेकिन अनिवार्य रूप से, मैपिंग बस कर्नेल का उपयोग कुछ सरल फीचर इंजीनियरिंग करने के लिए कर रहा है। अंतिम परिणाम के संदर्भ में, जिस मॉडल को आपने सीखना शुरू कर दिया है, कर्नेल का उपयोग करना पारंपरिक सुविधा इंजीनियरिंग से अलग नहीं है जो कि रेखीय प्रतिगमन और जीएलएम मॉडलिंग में लागू होता है, जैसे कि एक प्रतिगमन सूत्र में खिलाने से पहले एक सकारात्मक पूर्वसूचक चर का लॉग लेना। गणित ज्यादातर सिर्फ यह सुनिश्चित करने में मदद करता है कि कर्नेल एसवीएम एल्गोरिथ्म के साथ अच्छी तरह से खेलता है, जिसमें स्पार्सिटी के इसके निहित लाभ हैं और बड़े डेटासेट के लिए अच्छी तरह से स्केलिंग है। $\Phi$ $\Phi$

यदि आप अभी भी रुचि रखते हैं, तो यहां बताया गया है कि यह कैसे काम करता है। अनिवार्य रूप से हम वह पहचान लेते हैं जिसे हम पकड़ना चाहते हैं, , और एक अंतरिक्ष और आंतरिक उत्पाद का निर्माण करें जो इसे परिभाषा के अनुसार रखता है। ऐसा करने के लिए, हम एक सार सदिश स्थान को परिभाषित करते हैं जहाँ प्रत्येक सदिश उस स्थान से एक फ़ंक्शन होता है जहाँ डेटा वास्तविक संख्या लिए , में रहता है । में एक वेक्टर एक फ़ंक्शन है जो कर्नेल स्लाइस के एक परिमित रैखिक संयोजन से बनता है: अधिक कॉम्पैक्ट रूप में लिखना सुविधाजनक है $\langle \Phi(\mathbf{x}), \Phi(\mathbf{y}) \rangle = K(\mathbf{x},\mathbf{y})$ $V$ $\mathcal{X}$ $\mathbb{R}$ $f$ $V$

f (x) = \sum_{i = 1}^{n} α_{i} K (x^{(i)}, x)

$f(\mathbf{x}) = \sum_{i=1}^n \alpha_i K(\mathbf{x}^{(i)},\mathbf{x})$

f

$f$

f = \sum_{i = 1}^{n} α_{i} K_{x^{(i)}}

$f = \sum_{i=1}^n \alpha_i K_{\mathbf{x}^{(i)}}$ जहां एक फ़ंक्शन है जो कर्नेल के "slice" को ।

K_{x} (y) = K (x, y)

$K_\mathbf{x}(\mathbf{y}) = K(\mathbf{x},\mathbf{y})$

x

$\mathbf{x}$

अंतरिक्ष पर आंतरिक उत्पाद साधारण डॉट उत्पाद नहीं है, लेकिन कर्नेल के आधार पर एक सार आंतरिक उत्पाद है:

⟨ \sum_{i = 1}^{n} α_{i} K_{x^{(i)}}, \sum_{j = 1}^{n} β_{j} K_{x^{(j)}} ⟩ = \sum_{i, j} α_{i} β_{j} K (x^{(i)}, x^{(j)})

$\langle \sum_{i=1}^n \alpha_i K_{\mathbf{x}^{(i)}}, \sum_{j=1}^n \beta_j K_{\mathbf{x}^{(j)}} \rangle = \sum_{i,j} \alpha_i \beta_j K(\mathbf{x}^{(i)},\mathbf{x}^{(j)})$

इस तरह परिभाषित फ़ीचर स्पेस के साथ, एक मैपिंग , उस बिंदु पर "कर्नेल स्लाइस" के लिए प्रत्येक बिंदु ले रहा है : $\Phi$ $\mathcal{X} \rightarrow V$ $\mathbf{x}$

Φ (x) = K_{x}, where K_{x} (y) = K (x, y) .

$\Phi(\mathbf{x}) = K_\mathbf{x}, \quad \text{where} \quad K_\mathbf{x}(\mathbf{y}) = K(\mathbf{x},\mathbf{y}).$

आप यह साबित कर सकते हैं कि एक आंतरिक उत्पाद स्थान है जब एक सकारात्मक निश्चित कर्नेल है। विवरण के लिए यह पेपर देखें। (इसे इंगित करने के लिए कॉपोस टू एफ कॉप्सन!) $V$ $K$

4. फ़ीचर स्पेस अनंत-आयामी क्यों है?

यह उत्तर एक अच्छा रैखिक बीजगणित स्पष्टीकरण देता है, लेकिन यहाँ एक ज्यामितीय परिप्रेक्ष्य है, जिसमें अंतर्ज्ञान और प्रमाण दोनों हैं।

सहज बोध

किसी भी निश्चित बिंदु , हमारे पास कर्नेल स्लाइस फ़ंक्शन । का ग्राफ सिर्फ Gaussian bump है जो पर केंद्रित है । अब, यदि सुविधा स्थान केवल परिमित आयामी था, तो इसका मतलब है कि हम बिंदुओं के एक निश्चित सेट पर समान सेट ले सकते हैं और किसी भी अन्य स्थान पर किसी भी गॉसियन टक्कर का निर्माण कर सकते हैं। लेकिन स्पष्ट रूप से कोई रास्ता नहीं है कि हम ऐसा कर सकें; आप पुराने धक्कों से बाहर एक नया टक्कर नहीं बना सकते, क्योंकि नया टक्कर वास्तव में पुराने लोगों से बहुत दूर हो सकता है। इसलिए, हमारे पास जितने भी फ़ीचर वैक्टर (धक्कों) हैं, हम हमेशा नए धक्कों को जोड़ सकते हैं, और फ़ीचर स्पेस में ये नए स्वतंत्र वैक्टर हैं। तो सुविधा स्थान परिमित आयामी नहीं हो सकता है; उसे अनंत होना है। $\mathbf{z}$ $K_\mathbf{z}(\mathbf{x}) = K(\mathbf{z},\mathbf{x})$ $K_\mathbf{z}$ $\mathbf{z}$

प्रमाण

हम इंडक्शन का इस्तेमाल करते हैं। मान लीजिए कि आपके पास अंकों का एक मनमाना सेट है कि वैक्टर फ़ीचर स्पेस में रैखिक रूप से स्वतंत्र हैं। अब एक बिंदु को इन बिंदुओं से अलग पाते हैं , वास्तव में उन सभी से एक बिलियन दूर। हम दावा करते हैं कि पहले फ़ीचर वैक्टर से रैखिक रूप से स्वतंत्र है । $\mathbf{x}^{(1)}, \mathbf{x}^{(2)}, \ldots, \mathbf{x}^{(n)}$ $\Phi(\mathbf{x}^{(i)})$ $\mathbf{x}^{(n+1)}$ $n$ $\Phi(\mathbf{x}^{(n+1)})$ $n$ $\Phi(\mathbf{x}^{(i)})$

विरोधाभास से सबूत। इसके विपरीत मान लीजिए

Φ (x^{(n + 1)}) = \sum_{i = 1}^{n} α_{i} Φ (x^{(i)})

$\Phi(\mathbf{x}^{(n+1)}) = \sum_{i=1}^n \alpha_i \Phi(\mathbf{x}^{(i)})$

अब आंतरिक उत्पाद को दोनों तरफ से एक मनमाना । पहचान , हम प्राप्त करते हैं $\mathbf{x}$ $\langle \Phi(\mathbf{z}), \Phi(\mathbf{x}) \rangle = K(\mathbf{z},\mathbf{x})$

K (x^{(n + 1)}, x) = \sum_{i = 1}^{n} α_{i} K (x^{(i)}, x)

$K(\mathbf{x}^{(n+1)},\mathbf{x}) = \sum_{i=1}^n \alpha_i K(\mathbf{x}^{(i)},\mathbf{x})$

यहाँ एक निशुल्क चर है, इसलिए यह समीकरण एक पहचान है जो बताता है कि दो कार्य समान हैं। विशेष रूप से, यह कहता है कि एक गौसियन पर केंद्रित है जो अन्य बिंदुओं रैखिक संयोजन के रूप में दर्शाया जा सकता है । यह स्पष्ट रूप से ज्यामितीय रूप से है कि कोई एक गॉसियन बम्प को एक बिंदु पर केन्द्रित नहीं कर सकता है जो गॉसियन धक्कों के एक परिमित संयोजन से दूसरे बिंदुओं पर केंद्रित होता है, विशेषकर तब जब उन सभी अन्य गॉसियन धक्कों के एक अरब सैटमास दूर हों। तो हमारी रैखिक निर्भरता की धारणा ने विरोधाभास पैदा कर दिया है, जैसा कि हम दिखाने के लिए तैयार हैं। $\mathbf{x}$ $\mathbf{x}^{(n+1)}$ $\mathbf{x}^{(i)}$

— पॉल
स्रोत

6

परिपूर्ण अलगाव असंभव है। प्रतिपक्ष: (0,0, ClasssA), (0,0, ClassB)। सौभाग्य इस डेटा सेट को अलग कर!

— ऐनी-मूस

4

यह ... तकनीकी रूप से सही है, सही का सबसे अच्छा प्रकार है! एक उत्थान है। मैं पोस्ट में एक नोट जोड़ दूंगा।

— पॉल

3

(मुझे लगता है कि आपकी बात समझ में आती है अगर आपको विभिन्न वर्गों के नमूनों के बीच न्यूनतम दूरी की आवश्यकता होती है। यह इंगित करने योग्य हो सकता है कि इस परिदृश्य में, एसवीएम एक निकटतम पड़ोसी क्लासिफायर बन जाता है)

— एनोनी-मूस

1

मैं केवल परिमित प्रशिक्षण सेट के मामले को संबोधित कर रहा हूं, इसलिए जब हम काम करने के लिए अलग-अलग बिंदुओं का प्रशिक्षण सेट देते हैं, तो बिंदुओं के बीच हमेशा न्यूनतम दूरी होती है।

n

$n$

— पॉल

@Paul आपके अनुभाग 2 के बारे में, मेरा एक प्रश्न है। बता दें कि प्रशिक्षण बिंदु और लिए मनमाने ढंग से नए बिंदु लिए हमारे ताकि तो समारोह कुछ के लिए । मेरे लिए यह रैखिक रिग्रेशन के लिए के कॉलम स्पेस में होने वाले के फंक्शन स्पेस वर्जन की तरह है और यह वह जगह है जहां लीनियरिटी वास्तव में होती है। क्या यह विवरण सटीक लगता है? मैं अभी भी इस RKHS सामान को बहुत सीख रहा हूँ।

k_{i}

$k_i$

x^{(i)}

$x^{(i)}$

k_{x}

$k_x$

x

$x$

\hat{y} (x) = \sum_{i} w_{i} y^{(i)} ⟨ k_{i}, k_{x} ⟩ = \sum_{i} w_{i} y^{(i)} k_{i} (x)

$\hat y(x) = \sum_i w_i y^{(i)} \langle k_i, k_x \rangle = \sum_i w_i y^{(i)} k_i(x)$

\hat{y} = \sum_{i} z_{i} k_{i}

$\hat y = \sum_i z_i k_i$

z_{i} \in R

$z_i \in \mathbb R$

\hat{y}

$\hat y$

X

$X$

— बड़ा

12

गॉसियन कर्नेल के कर्नेल मैट्रिक्स में हमेशा विशिष्ट लिए पूर्ण रैंक होती है । इसका मतलब है कि हर बार जब आप एक नया उदाहरण जोड़ते हैं, तो रैंक बढ़ जाती है । सबसे आसान तरीका यह देखने के लिए कि आप सेट बहुत छोटा। फिर कर्नेल मैट्रिक्स लगभग विकर्ण है। $\mathbf x_1,...,\mathbf x_m$ $1$ $\sigma$

तथ्य यह है कि पद हमेशा एक तरह से बढ़ जाती है कि सभी अनुमानों सुविधा अंतरिक्ष में रैखिक स्वतंत्र (orthogonal नहीं है, लेकिन स्वतंत्र) कर रहे हैं। इसलिए, प्रत्येक उदाहरण के अनुमानों की अवधि को एक नया आयाम कहते हैं । चूंकि आप बेशुमार असीम रूप से कई उदाहरण जोड़ सकते हैं, इसलिए फ़ीचर स्पेस में अनंत आयाम होने चाहिए। दिलचस्प है, फीचर स्पेस में इनपुट स्पेस के सभी अनुमान एक क्षेत्र पर स्थित हैं, क्योंकि $\Phi(\mathbf x)$ $\Phi(\mathbf x_1),...,\Phi(\mathbf x_m)$ । फिर भी, गोले की ज्यामिति समतल है। आप उस पर और अधिक पढ़ सकते हैं $||\Phi(\mathbf x)||_{\mathcal H}^²=k(\mathbf x,\mathbf x)=1$

बर्गेस, सीजेसी (1999)। ज्यामिति और Invariance कर्नेल आधारित विधियों में। बी। स्कोल्कोफ, सीजेसी बर्जेस, और एजे स्मोला (ईडीएस) में, कर्नेल मेथड्स सपोर्ट सदिश लर्निंग (पीपी। 89–116) में अग्रिम। एमआईटी प्रेस।

— fabee
स्रोत

मुझे अभी भी यह समझ में नहीं आया है, लेकिन आपने वैसे भी

— अपवोट

आपका मतलब है, आप यह नहीं समझते कि ज्यामिति समतल क्यों है या यह अनंत आयामी क्यों है? Upvote के लिए धन्यवाद।

— फेबी

अगर मेरे पास 100 उदाहरण हैं, तो क्या मेरी सुविधा अंतरिक्ष 100-आयामी या पहले से ही असीम आयामी है? मैं "बेशुमार" अनन्त रूप से कई उदाहरण क्यों जोड़ सकता हूं? क्या यह गणना योग्य अनंत नहीं है? यहाँ गिनती योग्य / बेशुमार बात क्यों है? मैंने अभी तक "सपाट क्षेत्र" के बारे में सोचने की कोशिश नहीं की: डी आपके स्पष्टीकरण के लिए धन्यवाद!

— स्टेमाक्स

5

मुझे आशा है कि आप मुझ पर विश्वास करेंगे कि हर नया उदाहरण पहले वाले सभी (एक ही

को छोड़कर ) से रैखिक रूप से स्वतंत्र है । में

से परे हर बिंदु: आप ऐसा नहीं कर सकते

रैखिक दूसरों पर निर्भर होना चाहिए। गाऊसी आरकेएचएस के लिए, यदि आपके पास 100 अलग-अलग उदाहरण हैं, तो वे अनंत आयामी अंतरिक्ष के 100 आयामी उप-क्षेत्र का विस्तार करते हैं। तो यह अवधि परिमित आयामी है, लेकिन वे जिस स्थान में रहते हैं, वह अनंत आयामी है। अनंतता बेशुमार है, क्योंकि

में हर नया बिंदु एक नया आयाम है और

में कई बिंदु हैं ।

x

$x$

R^{n}

$\mathbb R^n$

n

$n$

R^{n}

$\mathbb R^n$

R^{n}

$\mathbb R^n$

— फेबी

@ फैबी: मैंने इसे एक अलग तरीके से आज़माया, आपको लगता है कि आप इसके बारे में बहुत कुछ जानते हैं, क्या आप मेरे जवाब पर एक नज़र डाल सकते हैं कि क्या मुझे यह कम या ज्यादा 'सही' लगा?

5

पृष्ठभूमि और संकेतन के लिए मैं उत्तर का उल्लेख करता हूं कि समर्थन वैक्टर से निर्णय सीमा की गणना कैसे करें? ।

तो 'मूल' अंतरिक्ष में विशेषताएं हैं वैक्टर , द्विआधारी परिणाम और Lagrange मल्टीप्लायरों हैं । $x_i$ $y_i \in \{-1, +1\}$ $\alpha_i$

यह ज्ञात है कि कर्नेल के रूप में लिखा जा सकता है ( ' ' आंतरिक उत्पाद का प्रतिनिधित्व करता है।) जहां एक (अंतर्निहित और अज्ञात) एक नई सुविधा के लिए परिवर्तन है अंतरिक्ष। $K(x,y)=\Phi(x) \cdot \Phi(y)$ $\cdot$ $\Phi$

मैं कुछ देने की कोशिश करेंगे 'सहज' स्पष्टीकरण यह है कि क्या की , लगता है तो यह जवाब नहीं औपचारिक प्रमाण है, यह सिर्फ करना चाहता है के कुछ भावना दे कैसे मुझे लगता है कि यह काम करता है लगता है। अगर मैं गलत हूं तो मुझे सुधारने में संकोच न करें। मेरे स्पष्टीकरण का आधार इस पीडीएफ की धारा 2.2.1 है $\Phi$

मुझे अपने फीचर स्पेस (इसलिए मेरे ) को कुछ 'नए' फीचर स्पेस में बदलना होगा, जिसमें रैखिक पृथक्करण को हल किया जाएगा। $x_i$

प्रत्येक अवलोकन के लिए , मैं कार्यों को परिभाषित , तो मैं एक समारोह है मेरी प्रशिक्षण नमूने के प्रत्येक तत्व के लिए। ये कार्य एक वेक्टर स्थान फैलाते हैं। वेक्टर अंतरिक्ष से फैला , यह नोट । ( $x_i$ $\phi_i(x)=K(x_i,x)$ $\phi_i$ $\phi_i$ $\phi_i$ $V=span(\phi_{i, i=1,2,\dots N})$ $N$ प्रशिक्षण नमूने का आकार है)।

मैं यह तर्क देने की कोशिश करूंगा कि यह वेक्टर स्पेस वेक्टर स्पेस है जिसमें रैखिक पृथक्करण संभव होगा। $V$ काल की परिभाषा के अनुसार, वेक्टर अंतरिक्ष में प्रत्येक वेक्टर की एक रेखीय संयोजन के रूप में के रूप में लिखा जा सकता है , अर्थात्: , जहां वास्तविक संख्या है। तो, वास्तव में, $V$ $\phi_i$ $\sum_{i=1}^N \gamma_i \phi_i$ $\gamma_i$ $V=\{v=\sum_{i=1}^N \gamma_i \phi_i|(\gamma_1,\gamma_2,\dots\gamma_N) \in \mathbb{R}^N \}$

ध्यान दें कि वेक्टर के निर्देशांक वेक्टर अंतरिक्ष में । $(\gamma_1,\gamma_2,\dots\gamma_N)$ $v$ $V$

प्रशिक्षण नमूने का आकार और इसलिए वेक्टर अंतरिक्ष के आयाम है तक जा सकता है , जो इस पर निर्भर रैखिक स्वतंत्र हैं। के रूप में (सुप्रा देखते हैं, हम परिभाषित इस तरह से), इस का मतलब है किके आयाम इस्तेमाल किया गिरी पर निर्भर करता है और प्रशिक्षण के नमूने का आकार तक जा सकता है। $N$ $V$ $N$ $\phi_i$ $\phi_i(x)=K(x_i,x)$ $\phi$ $V$

गिरी 'जटिल पर्याप्त' है तो सभी स्वतंत्र हो जाएगा और उसके बाद के आयाम हो जाएगा , प्रशिक्षण नमूने का आकार। $\phi_i(x)=K(x_i, x)$ $V$ $N$

परिवर्तन, जो लिए मेरे मूल फीचर स्पेस को मैप करता है $V$

। $\Phi: x_i \to \phi_i(x)=K(x_i, x)$

यह नक्शा एक वेक्टर स्थान पर मेरे मूल फीचर स्पेस को मैप करता है जिसमें एक आयाम हो सकता है जो मेरे प्रशिक्षण नमूने के आकार तक जाता है। $\Phi$ तो एक वेक्टर अंतरिक्ष जहां वैक्टर कार्य हैं में अपने प्रशिक्षण नमूने में प्रत्येक अवलोकन करें। वेक्टर मेरी प्रशिक्षण नमूना से है में एक सदिश करने के लिए 'मैप किया' , अर्थात् वेक्टर निर्देशांक सब शून्य के बराबर के साथ, सिवाय समन्वय मई 1 है। $\Phi$ $x_i$ $V$ $\phi_i$ $i$

जाहिर है, इस बदलाव (क) कर्नेल पर निर्भर करता है, (ख) मूल्यों पर निर्भर करता है प्रशिक्षण नमूना और (ग) में कर सकते हैं, मेरे गिरी के आधार पर, एक आयाम है कि मेरे प्रशिक्षण नमूने का आकार करने के लिए चला जाता है है और (घ) के वैक्टर की तरह लग रहे , जहां वास्तविक संख्या है। $x_i$ $V$ $\sum_{i=1}^N \gamma_i \phi_i$ $\gamma_i$

फंक्शन को देखते हुए सपोर्ट वैक्टर से निर्णय सीमा की गणना कैसे करें? यह देखा जा सकता है कि । एसवीएम द्वारा पाया गया निर्णय सीमा । $f(x)$ $f(x)=\sum_i y_i \alpha_i \phi_i(x)+b$ $f(x)=0$

दूसरे शब्दों में, की एक रेखीय संयोजन है और एक रेखीय में hyperplane अलग है -अंतरिक्ष : इसके बारे में एक विशेष स्थान है अर्थात् ! $f(x)$ $\phi_i$ $f(x)=0$ $V$ $\gamma_i$ $\gamma_i=\alpha_i y_i$

हमारी टिप्पणियों से जाना जाता है, Lagrange गुणकों हैं कि SVM पाया गया है। दूसरे शब्दों SVM खोज में, एक कर्नेल के प्रयोग के माध्यम और एक द्विघात प्रोग्रामिंग समस्या, में एक रेखीय जुदाई को हल करके -spave। $y_i$ $\alpha_i$ $V$

$V$

तो गुठली एक ऐसी तकनीक है जो एसवीएम को आपके फ़ीचर स्पेस को बदलने की अनुमति देती है, यह भी देखें कि गॉसियन कर्नेल को पीसीए के लिए कितना जादुई बनाता है, और सामान्य तौर पर भी?

— समुदाय
स्रोत

+1 यह ठोस है। मैंने इस सामग्री का अपने एक्सपोजर शैली में अनुवाद किया और इसे अपने उत्तर में जोड़ा।

— पॉल

5

दुर्भाग्य से, fcop की व्याख्या काफी गलत है। सबसे पहले वह कहता है "यह ज्ञात है कि कर्नेल को लिखा जा सकता है ... जहां ... एक नई सुविधा स्थान के लिए (अंतर्निहित और अज्ञात) परिवर्तन है।" यह अज्ञात नहीं है। यह वास्तव में वह स्थान है जहाँ सुविधाओं को मैप किया जाता है और यह वह स्थान है जो RBF मामले की तरह अनंत आयामी हो सकता है। सभी कर्नेल करता है कि एक ट्रांसफ़ॉर्म किए गए फ़ीचर वेक्टर के ट्रांसफ़ॉर्म किए गए फ़ीचर वेक्टर के आंतरिक उत्पाद को एक प्रशिक्षण उदाहरण के साथ लिया जाता है और परिणाम पर कुछ फ़ंक्शन लागू करता है। इस प्रकार यह अंतर्निहित रूप से इस उच्च आयामी विशेषता वेक्टर का प्रतिनिधित्व करता है। उदाहरण के लिए, x ^ 2 + 2xy + y ^ 2 के बजाय लेखन (x + y) ^ 2 पर विचार करें। अब विचार करें कि घातीय श्रृंखला को किस प्रकार घातीय फ़ंक्शन द्वारा दर्शाया गया है ... वहां आपके पास अपनी अनंत सुविधा स्थान है।

एसवीएम के बारे में सोचने का सही तरीका यह है कि आप अपनी सुविधाओं को संभवतः एक अनंत आयामी सुविधा वाले स्थान पर मैप करते हैं, जो कि एक अन्य परिमित आयामी "कर्नेल" फीचर स्पेस में स्पष्ट रूप से प्रतिनिधित्व करने योग्य होता है, जिसका आयाम प्रशिक्षण सेट आकार जितना बड़ा हो सकता है।

— साल्वाडोर
स्रोत

एसवीएम 'अनंत सुविधा वाला स्थान' कैसे खोज सकता है जहां रैखिक पृथक्करण हमेशा संभव है?

1. पूर्ण अलगाव को प्राप्त करना

2. कर्नेल एसवीएम लीनियर सेपरेशन के रूप में सीखते हैं

3. मैपिंग और फीचर स्पेस को समझना

4. फ़ीचर स्पेस अनंत-आयामी क्यों है?

सहज बोध

प्रमाण