इस तथ्य के पीछे अंतर्ज्ञान क्या है कि एक गॉसियन कर्नेल के साथ एक एसवीएम में ite नाइट आयामी विशेषता स्थान है?
इस तथ्य के पीछे अंतर्ज्ञान क्या है कि एक गॉसियन कर्नेल के साथ एक एसवीएम में ite नाइट आयामी विशेषता स्थान है?
जवाबों:
यह उत्तर निम्नलिखित की व्याख्या करता है:
कर्नेल की स्थानीयता गुणों के कारण एक गाऊसी कर्नेल के साथ पूर्ण पृथक्करण हमेशा संभव होता है (विभिन्न वर्गों से कोई दो बिंदु बिल्कुल समान नहीं होते हैं), जो एक मनमाने ढंग से लचीले निर्णय सीमा की ओर ले जाता है। पर्याप्त रूप से छोटे कर्नेल बैंडविड्थ के लिए, निर्णय सीमा आपको ऐसी दिखेगी जब आप सकारात्मक और नकारात्मक उदाहरणों को अलग करने के लिए आवश्यक बिंदुओं के चारों ओर छोटे घेरे खींच लेंगे:
(क्रेडिट: एंड्रयू एनजी का ऑनलाइन मशीन लर्निंग कोर्स )।
तो, यह गणितीय दृष्टिकोण से क्यों होता है?
मानक सेटअप पर विचार करें: आप एक गाऊसी गिरी है और प्रशिक्षण डेटा जहां मान । हम एक क्लासिफायर फ़ंक्शन सीखना चाहते हैंy ( मैं ) ± 1
अब हम कभी भी वेट कैसे करेंगे ? क्या हमें अनंत आयामी स्थान और एक द्विघात प्रोग्रामिंग एल्गोरिथ्म की आवश्यकता है? नहीं, क्योंकि मैं सिर्फ यह दिखाना चाहता हूं कि मैं बिंदुओं को पूरी तरह से अलग कर सकता हूं। इसलिए मैं सबसे छोटे अलगाव से एक अरब गुना छोटा करता हूँकिसी भी दो प्रशिक्षण उदाहरणों के बीच, और मैं अभी सेट करता । इसका मतलब यह है कि सभी प्रशिक्षण बिंदु एक अरब सिगमा हैं जहां तक कर्नेल का संबंध है, और प्रत्येक बिंदु अपने पड़ोस में के संकेत को पूरी तरह से नियंत्रित करता है। औपचारिक रूप से, हमारे पास है σ | | x ( i ) - x ( j ) | | डब्ल्यू मैं = 1 y
जहाँ कुछ मनमाने ढंग से छोटे मूल्य है। हम जानते हैं कि छोटा है क्योंकि किसी भी अन्य बिंदु से दूर एक अरब , इसलिए सभी हमारे पास हैε एक्स ( कश्मीर ) मैं ≠ कश्मीर
चूँकि इतना छोटा है, इसलिए निश्चित रूप से रूप में एक ही संकेत है , और वर्गीकरणकर्ता प्रशिक्षण डेटा पर सही सटीकता प्राप्त करता है।y ( एक्स ( कश्मीर ) ) y ( कश्मीर )
इस तथ्य की व्याख्या की जा सकती है कि "अनंत आयामी सुविधा वाले स्थान में परिपूर्ण रैखिक पृथक्करण" कर्नेल ट्रिक से आता है, जो आपको कर्नेल को एक आंतरिक उत्पाद के रूप में व्याख्या करने की अनुमति देता है (संभावित रूप से अनंत-आयामी) सुविधा स्थान:
जहाँ डेटा स्पेस से फीचर स्पेस में मैपिंग है। यह तुरंत इस प्रकार है कि सुविधा स्थान में एक रैखिक फ़ंक्शन के रूप में कार्य करता है:y ( एक्स )
जहाँ रैखिक फ़ंक्शन को फ़ीचर स्पेस वैक्टर रूप में परिभाषित किया गया हैवी
यह फ़ंक्शन में रैखिक है क्योंकि यह फिक्स्ड वैक्टर के साथ आंतरिक उत्पादों का एक रैखिक संयोजन है। फ़ीचर स्पेस में, निर्णय सीमा सिर्फ , जो एक रैखिक फ़ंक्शन का स्तर सेट है। फ़ीचर स्पेस में हाइपरप्लेन की यही परिभाषा है।y ( एक्स ) = 0 एल ( v ) = 0
नोट: इस खंड में, नोटेशनएक मनमाना सेटबिंदुओंको दर्शाता हैन कि प्रशिक्षण डेटा को। यह शुद्ध गणित है; प्रशिक्षण डेटा इस खंड में बिल्कुल भी नहीं है! एन
कर्नेल विधियाँ वास्तव में फीचर स्पेस या मैपिंग स्पष्ट रूप से "खोज" या "कंप्यूट" नहीं करती हैं । कर्नेल सीखने के तरीकों जैसे कि एसवीएम को काम करने की आवश्यकता नहीं है; उन्हें केवल कर्नेल फ़ंक्शन आवश्यकता है ।के
उस ने कहा, लिए एक सूत्र नीचे लिखना संभव है । फ़ीचर स्पेस जिस पर मैप्स अमूर्त (और संभावित रूप से अनंत-आयामी) की तरह है, लेकिन अनिवार्य रूप से, मैपिंग बस कर्नेल का उपयोग कुछ सरल फीचर इंजीनियरिंग करने के लिए कर रहा है। अंतिम परिणाम के संदर्भ में, जिस मॉडल को आपने सीखना शुरू कर दिया है, कर्नेल का उपयोग करना पारंपरिक सुविधा इंजीनियरिंग से अलग नहीं है जो कि रेखीय प्रतिगमन और जीएलएम मॉडलिंग में लागू होता है, जैसे कि एक प्रतिगमन सूत्र में खिलाने से पहले एक सकारात्मक पूर्वसूचक चर का लॉग लेना। गणित ज्यादातर सिर्फ यह सुनिश्चित करने में मदद करता है कि कर्नेल एसवीएम एल्गोरिथ्म के साथ अच्छी तरह से खेलता है, जिसमें स्पार्सिटी के इसके निहित लाभ हैं और बड़े डेटासेट के लिए अच्छी तरह से स्केलिंग है।Φ
यदि आप अभी भी रुचि रखते हैं, तो यहां बताया गया है कि यह कैसे काम करता है। अनिवार्य रूप से हम वह पहचान लेते हैं जिसे हम पकड़ना चाहते हैं, , और एक अंतरिक्ष और आंतरिक उत्पाद का निर्माण करें जो इसे परिभाषा के अनुसार रखता है। ऐसा करने के लिए, हम एक सार सदिश स्थान को परिभाषित करते हैं जहाँ प्रत्येक सदिश उस स्थान से एक फ़ंक्शन होता है जहाँ डेटा वास्तविक संख्या लिए , में रहता है । में एक वेक्टर एक फ़ंक्शन है जो कर्नेल स्लाइस के एक परिमित रैखिक संयोजन से बनता है: अधिक कॉम्पैक्ट रूप में लिखना सुविधाजनक हैवी एक्स आर च वी च ( एक्स ) = n Σ मैं = 1 α मैं कश्मीर ( एक्स ( मैं ) , एक्स ) च च = n Σ मैं = 1 α i K x ( i )
अंतरिक्ष पर आंतरिक उत्पाद साधारण डॉट उत्पाद नहीं है, लेकिन कर्नेल के आधार पर एक सार आंतरिक उत्पाद है:
इस तरह परिभाषित फ़ीचर स्पेस के साथ, एक मैपिंग , उस बिंदु पर "कर्नेल स्लाइस" के लिए प्रत्येक बिंदु ले रहा है :एक्स → वी एक्स
आप यह साबित कर सकते हैं कि एक आंतरिक उत्पाद स्थान है जब एक सकारात्मक निश्चित कर्नेल है। विवरण के लिए यह पेपर देखें। (इसे इंगित करने के लिए कॉपोस टू एफ कॉप्सन!)के
यह उत्तर एक अच्छा रैखिक बीजगणित स्पष्टीकरण देता है, लेकिन यहाँ एक ज्यामितीय परिप्रेक्ष्य है, जिसमें अंतर्ज्ञान और प्रमाण दोनों हैं।
किसी भी निश्चित बिंदु , हमारे पास कर्नेल स्लाइस फ़ंक्शन । का ग्राफ सिर्फ Gaussian bump है जो पर केंद्रित है । अब, यदि सुविधा स्थान केवल परिमित आयामी था, तो इसका मतलब है कि हम बिंदुओं के एक निश्चित सेट पर समान सेट ले सकते हैं और किसी भी अन्य स्थान पर किसी भी गॉसियन टक्कर का निर्माण कर सकते हैं। लेकिन स्पष्ट रूप से कोई रास्ता नहीं है कि हम ऐसा कर सकें; आप पुराने धक्कों से बाहर एक नया टक्कर नहीं बना सकते, क्योंकि नया टक्कर वास्तव में पुराने लोगों से बहुत दूर हो सकता है। इसलिए, हमारे पास जितने भी फ़ीचर वैक्टर (धक्कों) हैं, हम हमेशा नए धक्कों को जोड़ सकते हैं, और फ़ीचर स्पेस में ये नए स्वतंत्र वैक्टर हैं। तो सुविधा स्थान परिमित आयामी नहीं हो सकता है; उसे अनंत होना है।K z ( x ) = K ( z , x ) K z z
हम इंडक्शन का इस्तेमाल करते हैं। मान लीजिए कि आपके पास अंकों का एक मनमाना सेट है कि वैक्टर फ़ीचर स्पेस में रैखिक रूप से स्वतंत्र हैं। अब एक बिंदु को इन बिंदुओं से अलग पाते हैं , वास्तव में उन सभी से एक बिलियन दूर। हम दावा करते हैं कि पहले फ़ीचर वैक्टर से रैखिक रूप से स्वतंत्र है ।
विरोधाभास से सबूत। इसके विपरीत मान लीजिए
अब आंतरिक उत्पाद को दोनों तरफ से एक मनमाना । पहचान , हम प्राप्त करते हैं
यहाँ एक निशुल्क चर है, इसलिए यह समीकरण एक पहचान है जो बताता है कि दो कार्य समान हैं। विशेष रूप से, यह कहता है कि एक गौसियन पर केंद्रित है जो अन्य बिंदुओं रैखिक संयोजन के रूप में दर्शाया जा सकता है । यह स्पष्ट रूप से ज्यामितीय रूप से है कि कोई एक गॉसियन बम्प को एक बिंदु पर केन्द्रित नहीं कर सकता है जो गॉसियन धक्कों के एक परिमित संयोजन से दूसरे बिंदुओं पर केंद्रित होता है, विशेषकर तब जब उन सभी अन्य गॉसियन धक्कों के एक अरब सैटमास दूर हों। तो हमारी रैखिक निर्भरता की धारणा ने विरोधाभास पैदा कर दिया है, जैसा कि हम दिखाने के लिए तैयार हैं।
गॉसियन कर्नेल के कर्नेल मैट्रिक्स में हमेशा विशिष्ट लिए पूर्ण रैंक होती है । । । , एक्स एम । इसका मतलब है कि हर बार जब आप एक नया उदाहरण जोड़ते हैं, तो रैंक 1 से बढ़ जाती है । सबसे आसान तरीका यह देखने के लिए कि आप सेट σ बहुत छोटा। फिर कर्नेल मैट्रिक्स लगभग विकर्ण है।
तथ्य यह है कि पद हमेशा एक तरह से बढ़ जाती है कि सभी अनुमानों सुविधा अंतरिक्ष में रैखिक स्वतंत्र (orthogonal नहीं है, लेकिन स्वतंत्र) कर रहे हैं। इसलिए, प्रत्येक उदाहरण के अनुमानों की अवधि को एक नया आयाम कहते हैं Φ ( एक्स 1 ) , । । । , Φ ( एक्स मीटर ) । चूंकि आप बेशुमार असीम रूप से कई उदाहरण जोड़ सकते हैं, इसलिए फ़ीचर स्पेस में अनंत आयाम होने चाहिए। दिलचस्प है, फीचर स्पेस में इनपुट स्पेस के सभी अनुमान एक क्षेत्र पर स्थित हैं, क्योंकि | | Φ ( एक्स ) | |। फिर भी, गोले की ज्यामिति समतल है। आप उस पर और अधिक पढ़ सकते हैं
बर्गेस, सीजेसी (1999)। ज्यामिति और Invariance कर्नेल आधारित विधियों में। बी। स्कोल्कोफ, सीजेसी बर्जेस, और एजे स्मोला (ईडीएस) में, कर्नेल मेथड्स सपोर्ट सदिश लर्निंग (पीपी। 89–116) में अग्रिम। एमआईटी प्रेस।
पृष्ठभूमि और संकेतन के लिए मैं उत्तर का उल्लेख करता हूं कि समर्थन वैक्टर से निर्णय सीमा की गणना कैसे करें? ।
तो 'मूल' अंतरिक्ष में विशेषताएं हैं वैक्टर , द्विआधारी परिणाम y मैं ∈ { - 1 , + 1 } और Lagrange मल्टीप्लायरों हैं α मैं ।
यह ज्ञात है कि कर्नेल के रूप में लिखा जा सकता है ( ' ⋅ ' आंतरिक उत्पाद का प्रतिनिधित्व करता है।) जहां Φ एक (अंतर्निहित और अज्ञात) एक नई सुविधा के लिए परिवर्तन है अंतरिक्ष।
मैं कुछ देने की कोशिश करेंगे 'सहज' स्पष्टीकरण यह है कि क्या की , लगता है तो यह जवाब नहीं औपचारिक प्रमाण है, यह सिर्फ करना चाहता है के कुछ भावना दे कैसे मुझे लगता है कि यह काम करता है लगता है। अगर मैं गलत हूं तो मुझे सुधारने में संकोच न करें। मेरे स्पष्टीकरण का आधार इस पीडीएफ की धारा 2.2.1 है
मुझे अपने फीचर स्पेस (इसलिए मेरे ) को कुछ 'नए' फीचर स्पेस में बदलना होगा, जिसमें रैखिक पृथक्करण को हल किया जाएगा।
प्रत्येक अवलोकन के लिए , मैं कार्यों को परिभाषित φ मैं ( एक्स ) = कश्मीर ( एक्स मैं , एक्स ) , तो मैं एक समारोह है φ मैं मेरी प्रशिक्षण नमूने के प्रत्येक तत्व के लिए। ये कार्य ϕ मैं एक वेक्टर स्थान फैलाते हैं। वेक्टर अंतरिक्ष से फैला φ मैं , यह नोट वी = रों पी एक n ( φ मैं , मैं = 1 , 2 , ... एन ) । ( एन प्रशिक्षण नमूने का आकार है)।
मैं यह तर्क देने की कोशिश करूंगा कि यह वेक्टर स्पेस वेक्टर स्पेस है जिसमें रैखिक पृथक्करण संभव होगा। काल की परिभाषा के अनुसार, वेक्टर अंतरिक्ष में प्रत्येक वेक्टर की एक रेखीय संयोजन के रूप में के रूप में लिखा जा सकता है φ मैं , अर्थात्: Σ एन मैं = 1 γ मैं φ मैं , जहां γ मैं वास्तविक संख्या है। तो, वास्तव में, वी = { v = Σ एन मैं = 1 γ मैं φ मैं | ( γ 1 , γ
ध्यान दें कि वेक्टर के निर्देशांक वी वेक्टर अंतरिक्ष में वी ।
प्रशिक्षण नमूने का आकार और इसलिए वेक्टर अंतरिक्ष के आयाम है वी तक जा सकता है एन , जो इस पर निर्भर φ मैं रैखिक स्वतंत्र हैं। के रूप में φ मैं ( एक्स ) = कश्मीर ( एक्स मैं , एक्स ) (सुप्रा देखते हैं, हम परिभाषित φ इस तरह से), इस का मतलब है किके आयाम वी इस्तेमाल किया गिरी पर निर्भर करता है और प्रशिक्षण के नमूने का आकार तक जा सकता है।
गिरी 'जटिल पर्याप्त' है तो सभी स्वतंत्र हो जाएगा और उसके बाद के आयाम वी हो जाएगा एन , प्रशिक्षण नमूने का आकार।
परिवर्तन, जो लिए मेरे मूल फीचर स्पेस को मैप करता है
।
यह नक्शा एक वेक्टर स्थान पर मेरे मूल फीचर स्पेस को मैप करता है जिसमें एक आयाम हो सकता है जो मेरे प्रशिक्षण नमूने के आकार तक जाता है। तो एक वेक्टर अंतरिक्ष जहां वैक्टर कार्य हैं में अपने प्रशिक्षण नमूने में प्रत्येक अवलोकन करें। वेक्टर x मैं मेरी प्रशिक्षण नमूना से है में एक सदिश करने के लिए 'मैप किया' वी , अर्थात् वेक्टर φ मैं निर्देशांक सब शून्य के बराबर के साथ, सिवाय मैं समन्वय मई 1 है।
जाहिर है, इस बदलाव (क) कर्नेल पर निर्भर करता है, (ख) मूल्यों पर निर्भर करता है प्रशिक्षण नमूना और (ग) में कर सकते हैं, मेरे गिरी के आधार पर, एक आयाम है कि मेरे प्रशिक्षण नमूने का आकार करने के लिए चला जाता है है और (घ) के वैक्टर वी की तरह लग रहे Σ एन मैं = 1 γ मैं φ मैं , जहां γ मैं वास्तविक संख्या है।
फंक्शन को देखते हुए सपोर्ट वैक्टर से निर्णय सीमा की गणना कैसे करें? यह देखा जा सकता है कि च ( एक्स ) = Σ मैं y मैं α मैं φ मैं ( एक्स ) + ख । एसवीएम द्वारा पाया गया निर्णय सीमा f ( x ) = 0 है ।
दूसरे शब्दों में, की एक रेखीय संयोजन है φ मैं और च ( एक्स ) = 0 एक रेखीय में hyperplane अलग है वी -अंतरिक्ष : इसके बारे में एक विशेष स्थान है γ मैं अर्थात् γ मैं = α मैं y मैं !
हमारी टिप्पणियों से जाना जाता है, α मैं Lagrange गुणकों हैं कि SVM पाया गया है। दूसरे शब्दों SVM खोज में, एक कर्नेल के प्रयोग के माध्यम और एक द्विघात प्रोग्रामिंग समस्या, में एक रेखीय जुदाई को हल करके वी -spave।
तो गुठली एक ऐसी तकनीक है जो एसवीएम को आपके फ़ीचर स्पेस को बदलने की अनुमति देती है, यह भी देखें कि गॉसियन कर्नेल को पीसीए के लिए कितना जादुई बनाता है, और सामान्य तौर पर भी?
दुर्भाग्य से, fcop की व्याख्या काफी गलत है। सबसे पहले वह कहता है "यह ज्ञात है कि कर्नेल को लिखा जा सकता है ... जहां ... एक नई सुविधा स्थान के लिए (अंतर्निहित और अज्ञात) परिवर्तन है।" यह अज्ञात नहीं है। यह वास्तव में वह स्थान है जहाँ सुविधाओं को मैप किया जाता है और यह वह स्थान है जो RBF मामले की तरह अनंत आयामी हो सकता है। सभी कर्नेल करता है कि एक ट्रांसफ़ॉर्म किए गए फ़ीचर वेक्टर के ट्रांसफ़ॉर्म किए गए फ़ीचर वेक्टर के आंतरिक उत्पाद को एक प्रशिक्षण उदाहरण के साथ लिया जाता है और परिणाम पर कुछ फ़ंक्शन लागू करता है। इस प्रकार यह अंतर्निहित रूप से इस उच्च आयामी विशेषता वेक्टर का प्रतिनिधित्व करता है। उदाहरण के लिए, x ^ 2 + 2xy + y ^ 2 के बजाय लेखन (x + y) ^ 2 पर विचार करें। अब विचार करें कि घातीय श्रृंखला को किस प्रकार घातीय फ़ंक्शन द्वारा दर्शाया गया है ... वहां आपके पास अपनी अनंत सुविधा स्थान है।
एसवीएम के बारे में सोचने का सही तरीका यह है कि आप अपनी सुविधाओं को संभवतः एक अनंत आयामी सुविधा वाले स्थान पर मैप करते हैं, जो कि एक अन्य परिमित आयामी "कर्नेल" फीचर स्पेस में स्पष्ट रूप से प्रतिनिधित्व करने योग्य होता है, जिसका आयाम प्रशिक्षण सेट आकार जितना बड़ा हो सकता है।