एसवीएम 'अनंत सुविधा वाला स्थान' कैसे खोज सकता है जहां रैखिक पृथक्करण हमेशा संभव है?


36

इस तथ्य के पीछे अंतर्ज्ञान क्या है कि एक गॉसियन कर्नेल के साथ एक एसवीएम में ite नाइट आयामी विशेषता स्थान है?


1
मैं वास्तव में सवाल नहीं समझता। क्या आप एक स्पष्टीकरण चाहते हैं कि इसकी संबंधित विशेषता स्थान अनंत आयामी या एक व्याख्या क्यों है जिसके परिणामस्वरूप हाइपरप्लेन का मतलब है?
मार्क क्लेसेन

1
मैं दोनों को सुनने में बुरा नहीं मानूंगा!
user36162

5
मुझे लगता है कि यह एक दिलचस्प सवाल है (+1)

जवाबों:


39

यह उत्तर निम्नलिखित की व्याख्या करता है:

  1. अलग-अलग बिंदुओं और गाऊसी कर्नेल (पर्याप्त रूप से छोटे बैंडविड्थ के साथ) के लिए पूर्ण पृथक्करण हमेशा क्यों संभव है
  2. इस पृथक्करण को रेखीय के रूप में कैसे समझा जा सकता है, लेकिन केवल एक अमूर्त विशेषता अंतरिक्ष में उस स्थान से अलग है जहां डेटा रहता है
  3. डेटा स्पेस से फीचर स्पेस में मैपिंग कैसे "पाया" है। Spoiler: यह SVM द्वारा नहीं मिला है, यह स्पष्ट रूप से आपके द्वारा चुने गए कर्नेल द्वारा परिभाषित किया गया है।
  4. क्यों सुविधा स्थान अनंत-आयामी है।

1. पूर्ण अलगाव को प्राप्त करना

कर्नेल की स्थानीयता गुणों के कारण एक गाऊसी कर्नेल के साथ पूर्ण पृथक्करण हमेशा संभव होता है (विभिन्न वर्गों से कोई दो बिंदु बिल्कुल समान नहीं होते हैं), जो एक मनमाने ढंग से लचीले निर्णय सीमा की ओर ले जाता है। पर्याप्त रूप से छोटे कर्नेल बैंडविड्थ के लिए, निर्णय सीमा आपको ऐसी दिखेगी जब आप सकारात्मक और नकारात्मक उदाहरणों को अलग करने के लिए आवश्यक बिंदुओं के चारों ओर छोटे घेरे खींच लेंगे:

Something like this

(क्रेडिट: एंड्रयू एनजी का ऑनलाइन मशीन लर्निंग कोर्स )।

तो, यह गणितीय दृष्टिकोण से क्यों होता है?

मानक सेटअप पर विचार करें: आप एक गाऊसी गिरी है और प्रशिक्षण डेटा जहां मान । हम एक क्लासिफायर फ़ंक्शन सीखना चाहते हैंK(x,z)=exp(||xz||2/σ2)y ( मैं ) ± 1(x(1),y(1)),(x(2),y(2)),,(x(n),y(n))y(i)±1

y^(x)=iwiy(i)K(x(i),x)

अब हम कभी भी वेट कैसे करेंगे ? क्या हमें अनंत आयामी स्थान और एक द्विघात प्रोग्रामिंग एल्गोरिथ्म की आवश्यकता है? नहीं, क्योंकि मैं सिर्फ यह दिखाना चाहता हूं कि मैं बिंदुओं को पूरी तरह से अलग कर सकता हूं। इसलिए मैं सबसे छोटे अलगाव से एक अरब गुना छोटा करता हूँकिसी भी दो प्रशिक्षण उदाहरणों के बीच, और मैं अभी सेट करता । इसका मतलब यह है कि सभी प्रशिक्षण बिंदु एक अरब सिगमा हैं जहां तक ​​कर्नेल का संबंध है, और प्रत्येक बिंदु अपने पड़ोस में के संकेत को पूरी तरह से नियंत्रित करता है। औपचारिक रूप से, हमारे पास है σ | | x ( i ) - x ( j ) | | डब्ल्यू मैं = 1 ywiσ||x(i)x(j)||wi=1y^

y^(x(k))=i=1ny(k)K(x(i),x(k))=y(k)K(x(k),x(k))+iky(i)K(x(i),x(k))=y(k)+ϵ

जहाँ कुछ मनमाने ढंग से छोटे मूल्य है। हम जानते हैं कि छोटा है क्योंकि किसी भी अन्य बिंदु से दूर एक अरब , इसलिए सभी हमारे पास हैε एक्स ( कश्मीर ) मैं कश्मीरϵϵx(k)ik

K(x(i),x(k))=exp(||x(i)x(k)||2/σ2)0.

चूँकि इतना छोटा है, इसलिए निश्चित रूप से रूप में एक ही संकेत है , और वर्गीकरणकर्ता प्रशिक्षण डेटा पर सही सटीकता प्राप्त करता है।y ( एक्स ( कश्मीर ) ) y ( कश्मीर )ϵy^(x(k))y(k)

2. कर्नेल एसवीएम लीनियर सेपरेशन के रूप में सीखते हैं

इस तथ्य की व्याख्या की जा सकती है कि "अनंत आयामी सुविधा वाले स्थान में परिपूर्ण रैखिक पृथक्करण" कर्नेल ट्रिक से आता है, जो आपको कर्नेल को एक आंतरिक उत्पाद के रूप में व्याख्या करने की अनुमति देता है (संभावित रूप से अनंत-आयामी) सुविधा स्थान:

K(x(i),x(j))=Φ(x(i)),Φ(x(j))

जहाँ डेटा स्पेस से फीचर स्पेस में मैपिंग है। यह तुरंत इस प्रकार है कि सुविधा स्थान में एक रैखिक फ़ंक्शन के रूप में कार्य करता है:y ( एक्स )Φ(x)y^(x)

y^(x)=iwiy(i)Φ(x(i)),Φ(x)=L(Φ(x))

जहाँ रैखिक फ़ंक्शन को फ़ीचर स्पेस वैक्टर रूप में परिभाषित किया गया हैवीL(v)v

L(v)=iwiy(i)Φ(x(i)),v

यह फ़ंक्शन में रैखिक है क्योंकि यह फिक्स्ड वैक्टर के साथ आंतरिक उत्पादों का एक रैखिक संयोजन है। फ़ीचर स्पेस में, निर्णय सीमा सिर्फ , जो एक रैखिक फ़ंक्शन का स्तर सेट है। फ़ीचर स्पेस में हाइपरप्लेन की यही परिभाषा है।y ( एक्स ) = 0 एल ( v ) = 0vy^(x)=0L(v)=0

3. मैपिंग और फीचर स्पेस को समझना

नोट: इस खंड में, नोटेशनएक मनमाना सेटबिंदुओंको दर्शाता हैन कि प्रशिक्षण डेटा को। यह शुद्ध गणित है; प्रशिक्षण डेटा इस खंड में बिल्कुल भी नहीं है! एनx(i)n

कर्नेल विधियाँ वास्तव में फीचर स्पेस या मैपिंग स्पष्ट रूप से "खोज" या "कंप्यूट" नहीं करती हैं । कर्नेल सीखने के तरीकों जैसे कि एसवीएम को काम करने की आवश्यकता नहीं है; उन्हें केवल कर्नेल फ़ंक्शन आवश्यकता है ।केΦK

उस ने कहा, लिए एक सूत्र नीचे लिखना संभव है । फ़ीचर स्पेस जिस पर मैप्स अमूर्त (और संभावित रूप से अनंत-आयामी) की तरह है, लेकिन अनिवार्य रूप से, मैपिंग बस कर्नेल का उपयोग कुछ सरल फीचर इंजीनियरिंग करने के लिए कर रहा है। अंतिम परिणाम के संदर्भ में, जिस मॉडल को आपने सीखना शुरू कर दिया है, कर्नेल का उपयोग करना पारंपरिक सुविधा इंजीनियरिंग से अलग नहीं है जो कि रेखीय प्रतिगमन और जीएलएम मॉडलिंग में लागू होता है, जैसे कि एक प्रतिगमन सूत्र में खिलाने से पहले एक सकारात्मक पूर्वसूचक चर का लॉग लेना। गणित ज्यादातर सिर्फ यह सुनिश्चित करने में मदद करता है कि कर्नेल एसवीएम एल्गोरिथ्म के साथ अच्छी तरह से खेलता है, जिसमें स्पार्सिटी के इसके निहित लाभ हैं और बड़े डेटासेट के लिए अच्छी तरह से स्केलिंग है।ΦΦΦ

यदि आप अभी भी रुचि रखते हैं, तो यहां बताया गया है कि यह कैसे काम करता है। अनिवार्य रूप से हम वह पहचान लेते हैं जिसे हम पकड़ना चाहते हैं, , और एक अंतरिक्ष और आंतरिक उत्पाद का निर्माण करें जो इसे परिभाषा के अनुसार रखता है। ऐसा करने के लिए, हम एक सार सदिश स्थान को परिभाषित करते हैं जहाँ प्रत्येक सदिश उस स्थान से एक फ़ंक्शन होता है जहाँ डेटा वास्तविक संख्या लिए , में रहता है । में एक वेक्टर एक फ़ंक्शन है जो कर्नेल स्लाइस के एक परिमित रैखिक संयोजन से बनता है: अधिक कॉम्पैक्ट रूप में लिखना सुविधाजनक हैवी एक्स आरवी ( एक्स ) = n Σ मैं = 1 α मैं कश्मीर ( एक्स ( मैं ) , एक्स ) = n Σ मैं = 1 α i K x ( i )Φ(x),Φ(y)=K(x,y)VXRfV

f(x)=i=1nαiK(x(i),x)
f
f=i=1nαiKx(i)
जहां एक फ़ंक्शन है जो कर्नेल के "slice" को ।xKx(y)=K(x,y)x

अंतरिक्ष पर आंतरिक उत्पाद साधारण डॉट उत्पाद नहीं है, लेकिन कर्नेल के आधार पर एक सार आंतरिक उत्पाद है:

i=1nαiKx(i),j=1nβjKx(j)=i,jαiβjK(x(i),x(j))

इस तरह परिभाषित फ़ीचर स्पेस के साथ, एक मैपिंग , उस बिंदु पर "कर्नेल स्लाइस" के लिए प्रत्येक बिंदु ले रहा है :एक्सवी एक्सΦXVx

Φ(x)=Kx,whereKx(y)=K(x,y).

आप यह साबित कर सकते हैं कि एक आंतरिक उत्पाद स्थान है जब एक सकारात्मक निश्चित कर्नेल है। विवरण के लिए यह पेपर देखें। (इसे इंगित करने के लिए कॉपोस टू एफ कॉप्सन!)केVK

4. फ़ीचर स्पेस अनंत-आयामी क्यों है?

यह उत्तर एक अच्छा रैखिक बीजगणित स्पष्टीकरण देता है, लेकिन यहाँ एक ज्यामितीय परिप्रेक्ष्य है, जिसमें अंतर्ज्ञान और प्रमाण दोनों हैं।

सहज बोध

किसी भी निश्चित बिंदु , हमारे पास कर्नेल स्लाइस फ़ंक्शन । का ग्राफ सिर्फ Gaussian bump है जो पर केंद्रित है । अब, यदि सुविधा स्थान केवल परिमित आयामी था, तो इसका मतलब है कि हम बिंदुओं के एक निश्चित सेट पर समान सेट ले सकते हैं और किसी भी अन्य स्थान पर किसी भी गॉसियन टक्कर का निर्माण कर सकते हैं। लेकिन स्पष्ट रूप से कोई रास्ता नहीं है कि हम ऐसा कर सकें; आप पुराने धक्कों से बाहर एक नया टक्कर नहीं बना सकते, क्योंकि नया टक्कर वास्तव में पुराने लोगों से बहुत दूर हो सकता है। इसलिए, हमारे पास जितने भी फ़ीचर वैक्टर (धक्कों) हैं, हम हमेशा नए धक्कों को जोड़ सकते हैं, और फ़ीचर स्पेस में ये नए स्वतंत्र वैक्टर हैं। तो सुविधा स्थान परिमित आयामी नहीं हो सकता है; उसे अनंत होना है।K z ( x ) = K ( z , x ) K z zzKz(x)=K(z,x)Kzz

प्रमाण

हम इंडक्शन का इस्तेमाल करते हैं। मान लीजिए कि आपके पास अंकों का एक मनमाना सेट है कि वैक्टर फ़ीचर स्पेस में रैखिक रूप से स्वतंत्र हैं। अब एक बिंदु को इन बिंदुओं से अलग पाते हैं , वास्तव में उन सभी से एक बिलियन दूर। हम दावा करते हैं कि पहले फ़ीचर वैक्टर से रैखिक रूप से स्वतंत्र है ।x(1),x(2),,x(n)Φ(x(i))x(n+1)nΦ(x(n+1))nΦ(x(i))

विरोधाभास से सबूत। इसके विपरीत मान लीजिए

Φ(x(n+1))=i=1nαiΦ(x(i))

अब आंतरिक उत्पाद को दोनों तरफ से एक मनमाना । पहचान , हम प्राप्त करते हैंxΦ(z),Φ(x)=K(z,x)

K(x(n+1),x)=i=1nαiK(x(i),x)

यहाँ एक निशुल्क चर है, इसलिए यह समीकरण एक पहचान है जो बताता है कि दो कार्य समान हैं। विशेष रूप से, यह कहता है कि एक गौसियन पर केंद्रित है जो अन्य बिंदुओं रैखिक संयोजन के रूप में दर्शाया जा सकता है । यह स्पष्ट रूप से ज्यामितीय रूप से है कि कोई एक गॉसियन बम्प को एक बिंदु पर केन्द्रित नहीं कर सकता है जो गॉसियन धक्कों के एक परिमित संयोजन से दूसरे बिंदुओं पर केंद्रित होता है, विशेषकर तब जब उन सभी अन्य गॉसियन धक्कों के एक अरब सैटमास दूर हों। तो हमारी रैखिक निर्भरता की धारणा ने विरोधाभास पैदा कर दिया है, जैसा कि हम दिखाने के लिए तैयार हैं।xx(n+1)x(i)


6
परिपूर्ण अलगाव असंभव है। प्रतिपक्ष: (0,0, ClasssA), (0,0, ClassB)। सौभाग्य इस डेटा सेट को अलग कर!
ऐनी-मूस

4
यह ... तकनीकी रूप से सही है, सही का सबसे अच्छा प्रकार है! एक उत्थान है। मैं पोस्ट में एक नोट जोड़ दूंगा।
पॉल

3
(मुझे लगता है कि आपकी बात समझ में आती है अगर आपको विभिन्न वर्गों के नमूनों के बीच न्यूनतम दूरी की आवश्यकता होती है। यह इंगित करने योग्य हो सकता है कि इस परिदृश्य में, एसवीएम एक निकटतम पड़ोसी क्लासिफायर बन जाता है)
एनोनी-मूस

1
मैं केवल परिमित प्रशिक्षण सेट के मामले को संबोधित कर रहा हूं, इसलिए जब हम काम करने के लिए अलग-अलग बिंदुओं का प्रशिक्षण सेट देते हैं, तो बिंदुओं के बीच हमेशा न्यूनतम दूरी होती है। n
पॉल

@Paul आपके अनुभाग 2 के बारे में, मेरा एक प्रश्न है। बता दें कि प्रशिक्षण बिंदु और लिए मनमाने ढंग से नए बिंदु लिए हमारे ताकि तो समारोह कुछ के लिए । मेरे लिए यह रैखिक रिग्रेशन के लिए के कॉलम स्पेस में होने वाले के फंक्शन स्पेस वर्जन की तरह है और यह वह जगह है जहां लीनियरिटी वास्तव में होती है। क्या यह विवरण सटीक लगता है? मैं अभी भी इस RKHS सामान को बहुत सीख रहा हूँ। kix(i)kxxy^(x)=iwiy(i)ki,kx=iwiy(i)ki(x)y^=izikiziRy^X
बड़ा

12

गॉसियन कर्नेल के कर्नेल मैट्रिक्स में हमेशा विशिष्ट लिए पूर्ण रैंक होती है , एक्स एम । इसका मतलब है कि हर बार जब आप एक नया उदाहरण जोड़ते हैं, तो रैंक 1 से बढ़ जाती है । सबसे आसान तरीका यह देखने के लिए कि आप सेट σ बहुत छोटा। फिर कर्नेल मैट्रिक्स लगभग विकर्ण है।x1,...,xm1σ

तथ्य यह है कि पद हमेशा एक तरह से बढ़ जाती है कि सभी अनुमानों सुविधा अंतरिक्ष में रैखिक स्वतंत्र (orthogonal नहीं है, लेकिन स्वतंत्र) कर रहे हैं। इसलिए, प्रत्येक उदाहरण के अनुमानों की अवधि को एक नया आयाम कहते हैं Φ ( एक्स 1 ) , , Φ ( एक्स मीटर ) । चूंकि आप बेशुमार असीम रूप से कई उदाहरण जोड़ सकते हैं, इसलिए फ़ीचर स्पेस में अनंत आयाम होने चाहिए। दिलचस्प है, फीचर स्पेस में इनपुट स्पेस के सभी अनुमान एक क्षेत्र पर स्थित हैं, क्योंकि | | Φ ( एक्स ) | |Φ(x)Φ(x1),...,Φ(xm)। फिर भी, गोले की ज्यामिति समतल है। आप उस पर और अधिक पढ़ सकते हैं||Φ(x)||H²=k(x,x)=1

बर्गेस, सीजेसी (1999)। ज्यामिति और Invariance कर्नेल आधारित विधियों में। बी। स्कोल्कोफ, सीजेसी बर्जेस, और एजे स्मोला (ईडीएस) में, कर्नेल मेथड्स सपोर्ट सदिश लर्निंग (पीपी। 89–116) में अग्रिम। एमआईटी प्रेस।


मुझे अभी भी यह समझ में नहीं आया है, लेकिन आपने वैसे भी
अपवोट

आपका मतलब है, आप यह नहीं समझते कि ज्यामिति समतल क्यों है या यह अनंत आयामी क्यों है? Upvote के लिए धन्यवाद।
फेबी

अगर मेरे पास 100 उदाहरण हैं, तो क्या मेरी सुविधा अंतरिक्ष 100-आयामी या पहले से ही असीम आयामी है? मैं "बेशुमार" अनन्त रूप से कई उदाहरण क्यों जोड़ सकता हूं? क्या यह गणना योग्य अनंत नहीं है? यहाँ गिनती योग्य / बेशुमार बात क्यों है? मैंने अभी तक "सपाट क्षेत्र" के बारे में सोचने की कोशिश नहीं की: डी आपके स्पष्टीकरण के लिए धन्यवाद!
स्टेमाक्स

5
मुझे आशा है कि आप मुझ पर विश्वास करेंगे कि हर नया उदाहरण पहले वाले सभी (एक ही को छोड़कर ) से रैखिक रूप से स्वतंत्र है । में आर एन से परे हर बिंदु: आप ऐसा नहीं कर सकते n रैखिक दूसरों पर निर्भर होना चाहिए। गाऊसी आरकेएचएस के लिए, यदि आपके पास 100 अलग-अलग उदाहरण हैं, तो वे अनंत आयामी अंतरिक्ष के 100 आयामी उप-क्षेत्र का विस्तार करते हैं। तो यह अवधि परिमित आयामी है, लेकिन वे जिस स्थान में रहते हैं, वह अनंत आयामी है। अनंतता बेशुमार है, क्योंकि R n में हर नया बिंदु एक नया आयाम है और R n में कई बिंदु हैं । xRnnRnRn
फेबी

@ फैबी: मैंने इसे एक अलग तरीके से आज़माया, आपको लगता है कि आप इसके बारे में बहुत कुछ जानते हैं, क्या आप मेरे जवाब पर एक नज़र डाल सकते हैं कि क्या मुझे यह कम या ज्यादा 'सही' लगा?

5

पृष्ठभूमि और संकेतन के लिए मैं उत्तर का उल्लेख करता हूं कि समर्थन वैक्टर से निर्णय सीमा की गणना कैसे करें?

तो 'मूल' अंतरिक्ष में विशेषताएं हैं वैक्टर , द्विआधारी परिणाम y मैं{ - 1 , + 1 } और Lagrange मल्टीप्लायरों हैं α मैंxiyi{1,+1}αi

यह ज्ञात है कि कर्नेल के रूप में लिखा जा सकता है ( ' ' आंतरिक उत्पाद का प्रतिनिधित्व करता है।) जहां Φ एक (अंतर्निहित और अज्ञात) एक नई सुविधा के लिए परिवर्तन है अंतरिक्ष।K(x,y)=Φ(x)Φ(y)Φ

मैं कुछ देने की कोशिश करेंगे 'सहज' स्पष्टीकरण यह है कि क्या की , लगता है तो यह जवाब नहीं औपचारिक प्रमाण है, यह सिर्फ करना चाहता है के कुछ भावना दे कैसे मुझे लगता है कि यह काम करता है लगता है। अगर मैं गलत हूं तो मुझे सुधारने में संकोच न करें। मेरे स्पष्टीकरण का आधार इस पीडीएफ की धारा 2.2.1 हैΦ

मुझे अपने फीचर स्पेस (इसलिए मेरे ) को कुछ 'नए' फीचर स्पेस में बदलना होगा, जिसमें रैखिक पृथक्करण को हल किया जाएगा।xi

प्रत्येक अवलोकन के लिए , मैं कार्यों को परिभाषित φ मैं ( एक्स ) = कश्मीर ( एक्स मैं , एक्स ) , तो मैं एक समारोह है φ मैं मेरी प्रशिक्षण नमूने के प्रत्येक तत्व के लिए। ये कार्य ϕ मैं एक वेक्टर स्थान फैलाते हैं। वेक्टर अंतरिक्ष से फैला φ मैं , यह नोट वी = रों पी एक n ( φ मैं , मैं = 1 , 2 , ... एन ) । ( एनxiϕi(x)=K(xi,x)ϕiϕiϕiV=span(ϕi,i=1,2,N)N प्रशिक्षण नमूने का आकार है)।

मैं यह तर्क देने की कोशिश करूंगा कि यह वेक्टर स्पेस वेक्टर स्पेस है जिसमें रैखिक पृथक्करण संभव होगा। V काल की परिभाषा के अनुसार, वेक्टर अंतरिक्ष में प्रत्येक वेक्टर की एक रेखीय संयोजन के रूप में के रूप में लिखा जा सकता है φ मैं , अर्थात्: Σ एन मैं = 1 γ मैं φ मैं , जहां γ मैं वास्तविक संख्या है। तो, वास्तव में, वी = { v = Σ एन मैं = 1 γ मैं φ मैं | ( γ 1 , γVϕii=1NγiϕiγiV={v=i=1Nγiϕi|(γ1,γ2,γN)RN}

ध्यान दें कि वेक्टर के निर्देशांक वी वेक्टर अंतरिक्ष में वी(γ1,γ2,γN)vV

प्रशिक्षण नमूने का आकार और इसलिए वेक्टर अंतरिक्ष के आयाम है वी तक जा सकता है एन , जो इस पर निर्भर φ मैं रैखिक स्वतंत्र हैं। के रूप में φ मैं ( एक्स ) = कश्मीर ( एक्स मैं , एक्स ) (सुप्रा देखते हैं, हम परिभाषित φ इस तरह से), इस का मतलब है किके आयाम वी इस्तेमाल किया गिरी पर निर्भर करता है और प्रशिक्षण के नमूने का आकार तक जा सकता है।NVNϕiϕi(x)=K(xi,x)ϕV

गिरी 'जटिल पर्याप्त' है तो सभी स्वतंत्र हो जाएगा और उसके बाद के आयाम वी हो जाएगा एन , प्रशिक्षण नमूने का आकार।ϕi(x)=K(xi,x)VN

परिवर्तन, जो लिए मेरे मूल फीचर स्पेस को मैप करता हैV

Φ:xiϕi(x)=K(xi,x)

यह नक्शा एक वेक्टर स्थान पर मेरे मूल फीचर स्पेस को मैप करता है जिसमें एक आयाम हो सकता है जो मेरे प्रशिक्षण नमूने के आकार तक जाता है। Φतो एक वेक्टर अंतरिक्ष जहां वैक्टर कार्य हैं में अपने प्रशिक्षण नमूने में प्रत्येक अवलोकन करें। वेक्टर x मैं मेरी प्रशिक्षण नमूना से है में एक सदिश करने के लिए 'मैप किया' वी , अर्थात् वेक्टर φ मैं निर्देशांक सब शून्य के बराबर के साथ, सिवाय मैं समन्वय मई 1 है।ΦxiVϕii

जाहिर है, इस बदलाव (क) कर्नेल पर निर्भर करता है, (ख) मूल्यों पर निर्भर करता है प्रशिक्षण नमूना और (ग) में कर सकते हैं, मेरे गिरी के आधार पर, एक आयाम है कि मेरे प्रशिक्षण नमूने का आकार करने के लिए चला जाता है है और (घ) के वैक्टर वी की तरह लग रहे Σ एन मैं = 1 γ मैं φ मैं , जहां γ मैं वास्तविक संख्या है।xiVi=1Nγiϕiγi

फंक्शन को देखते हुए सपोर्ट वैक्टर से निर्णय सीमा की गणना कैसे करें? यह देखा जा सकता है कि ( एक्स ) = Σ मैं y मैं α मैं φ मैं ( एक्स ) + । एसवीएम द्वारा पाया गया निर्णय सीमा f ( x ) = 0 हैf(x)f(x)=iyiαiϕi(x)+bf(x)=0

दूसरे शब्दों में, की एक रेखीय संयोजन है φ मैं और ( एक्स ) = 0 एक रेखीय में hyperplane अलग है वी -अंतरिक्ष : इसके बारे में एक विशेष स्थान है γ मैं अर्थात् γ मैं = α मैं y मैं ! f(x)ϕi f(x)=0Vγiγi=αiyi

हमारी टिप्पणियों से जाना जाता है, α मैं Lagrange गुणकों हैं कि SVM पाया गया है। दूसरे शब्दों SVM खोज में, एक कर्नेल के प्रयोग के माध्यम और एक द्विघात प्रोग्रामिंग समस्या, में एक रेखीय जुदाई को हल करके वी -spave।yiαiV

V

तो गुठली एक ऐसी तकनीक है जो एसवीएम को आपके फ़ीचर स्पेस को बदलने की अनुमति देती है, यह भी देखें कि गॉसियन कर्नेल को पीसीए के लिए कितना जादुई बनाता है, और सामान्य तौर पर भी?


+1 यह ठोस है। मैंने इस सामग्री का अपने एक्सपोजर शैली में अनुवाद किया और इसे अपने उत्तर में जोड़ा।
पॉल

5

दुर्भाग्य से, fcop की व्याख्या काफी गलत है। सबसे पहले वह कहता है "यह ज्ञात है कि कर्नेल को लिखा जा सकता है ... जहां ... एक नई सुविधा स्थान के लिए (अंतर्निहित और अज्ञात) परिवर्तन है।" यह अज्ञात नहीं है। यह वास्तव में वह स्थान है जहाँ सुविधाओं को मैप किया जाता है और यह वह स्थान है जो RBF मामले की तरह अनंत आयामी हो सकता है। सभी कर्नेल करता है कि एक ट्रांसफ़ॉर्म किए गए फ़ीचर वेक्टर के ट्रांसफ़ॉर्म किए गए फ़ीचर वेक्टर के आंतरिक उत्पाद को एक प्रशिक्षण उदाहरण के साथ लिया जाता है और परिणाम पर कुछ फ़ंक्शन लागू करता है। इस प्रकार यह अंतर्निहित रूप से इस उच्च आयामी विशेषता वेक्टर का प्रतिनिधित्व करता है। उदाहरण के लिए, x ^ 2 + 2xy + y ^ 2 के बजाय लेखन (x + y) ^ 2 पर विचार करें। अब विचार करें कि घातीय श्रृंखला को किस प्रकार घातीय फ़ंक्शन द्वारा दर्शाया गया है ... वहां आपके पास अपनी अनंत सुविधा स्थान है।

एसवीएम के बारे में सोचने का सही तरीका यह है कि आप अपनी सुविधाओं को संभवतः एक अनंत आयामी सुविधा वाले स्थान पर मैप करते हैं, जो कि एक अन्य परिमित आयामी "कर्नेल" फीचर स्पेस में स्पष्ट रूप से प्रतिनिधित्व करने योग्य होता है, जिसका आयाम प्रशिक्षण सेट आकार जितना बड़ा हो सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.