तंत्रिका नेटवर्क के लिए कर्नेलिकरण चाल


9

मैं तंत्रिका नेटवर्क और एसवीएम के बारे में सीख रहा हूं। मैंने जो ट्यूटोरियल पढ़ा है, उसमें जोर दिया गया है कि एसवीएम के लिए कर्नेलाइजेशन कितना महत्वपूर्ण है। कर्नेल फ़ंक्शन के बिना, SVM केवल एक रैखिक क्लासिफायरियर हैं। कर्नेलाइजेशन के साथ, एसवीएम गैर-रैखिक विशेषताओं को भी शामिल कर सकते हैं, जो उन्हें अधिक शक्तिशाली क्लासिफायरियर बनाता है।

यह मुझे ऐसा लगता है जैसे कोई तंत्रिका नेटवर्क पर कर्नेलाइजेशन लागू कर सकता है, लेकिन तंत्रिका नेटवर्क पर किसी भी ट्यूटोरियल को मैंने देखा नहीं है। क्या लोग आमतौर पर तंत्रिका नेटवर्क के साथ कर्नेल चाल का उपयोग करते हैं? मुझे लगता है कि किसी ने इसे प्रयोग करके देखा होगा कि क्या इससे कोई बड़ा फर्क पड़ता है। क्या कर्नेलीकरण तंत्रिका नेटवर्क की मदद करता है जितना कि यह SVMs की मदद करता है? क्यों या क्यों नहीं?

(मैं कर्नेल ट्रिक को न्यूरल नेटवर्क में शामिल करने के कई तरीकों की कल्पना कर सकता हूं। इनपुट को प्रीप्रोसेस करने के लिए एक उपयुक्त कर्नेल फ़ंक्शन का उपयोग करने का एक तरीका होगा, एक वेक्टर जिसमें , एक उच्च-आयामी इनपुट में, एक वेक्टर) मेंRnRm के लिये mn। बहु-परत तंत्रिका जाल के लिए, एक अन्य विकल्प तंत्रिका तंत्र के प्रत्येक स्तर पर कर्नेल फ़ंक्शन लागू करना होगा।)


2
कर्नेल चाल तब काम करती है जब आपके डेटा बिंदुओं तक आपके कम्प्यूटेशनल पहुंच में आंतरिक उत्पादों की गणना होती है। मुझे यकीन नहीं है कि यह तंत्रिका नेटवर्क के लिए मामला है।
युवल फिल्मस

जवाबों:


6

मुझे लगता है कि आप शब्दावली को एक तरह से भ्रमित कर रहे होंगे जो इस मुद्दे को भ्रमित कर रहा है। एसवीएम एक रैखिक निर्णय सीमा, यानी, एक हाइपरप्लेन को परिभाषित करके काम करते हैं। हम इस हाइपरप्लेन को बिंदुओं के बीच के आंतरिक उत्पादों के संदर्भ में परिभाषित कर सकते हैं। इसलिए, अगर हम इस आंतरिक उत्पाद को कुछ उच्च-आयामी, या यहां तक ​​कि अनंत आयामी स्थान में परिभाषित करते हैं, तो इस नए स्थान में एक हाइपरप्लेन जैसा दिखता है मूल विशेषता अंतरिक्ष में एक आवश्यक रैखिक नहीं है। तो सब कुछ अभी भी रैखिक है, केवल एक चीज जो हमने की है, वह है (नए आंतरिक-उत्पाद के माध्यम से) कुछ उच्च आयामी स्थान में अंक एम्बेड करना। शायद आप यह सब पहले से ही जानते हैं।

तंत्रिका नेटवर्क के संबंध में विचार करने के लिए 2 मुद्दे हैं। पहले @Yuval Filmus द्वारा लाया गया था, क्योंकि छिपी हुई परत तंत्रिका नेटवर्क बिंदुओं के बीच सिर्फ आंतरिक उत्पादों पर निर्भर करती है। यदि आप छिपी हुई परत को हटाते हैं, तो आपके पास लॉजिस्टिक रिग्रेशन जैसी कोई चीज है, जिसमें कर्नेलाइज्ड वर्जन हैं । हो सकता है कि इसके आसपास जाने का कोई रास्ता हो, लेकिन मैं इसे नहीं देखता।

दूसरे, आप एक उच्च, लेकिन अनन्त, आयामी स्थान में प्रोजेक्ट करके इनपुट को प्रीप्रोसेस करने का उल्लेख करते हैं। तंत्रिका नेटवर्क एक निर्णय सतह को परिभाषित करते हैं और यह सतह रैखिक होने के लिए विवश नहीं है। इसका मतलब है कि अंकों को एक उच्च आयामी स्थान में पेश करने से लाभ अलग होगा, अर्थात, इससे वजन का एक अच्छा सेट ढूंढना आसान हो सकता है, लेकिन हमने अपने मॉडल को और अधिक शक्तिशाली नहीं बनाया है। यह यूनिवर्सल सन्निकटन प्रमेय से निकला है, जो बताता है कि बड़ी संख्या में छिपी हुई इकाइयाँ हैं जो हम किसी भी फ़ंक्शन (कुछ प्रतिबंधों के तहत) को अनुमानित कर सकते हैं। यह अंतिम कथन बल्कि खाली है और इसका उल्लेख करने के लिए मुझे नफरत है। सही वेटेज कैसे पाएं इसके बारे में आपको कुछ भी नहीं बताने से यह एप्लिकेशन के नजरिए से बहुत कुछ नहीं ला सकता है।


धन्यवाद। हाँ। मुझे पता है कि हम एसवीएम के बारे में सोच सकते हैं कि मूल आदानों को कुछ उच्चतर (या यहां तक ​​कि अनंत) आयामी अंतरिक्ष में मैप किया जा सकता है, फिर उस उच्च आयामी अंतरिक्ष में एक रैखिक निर्णय सीमा कर रहे हैं। तो, क्या हम तंत्रिका नेटवर्क के साथ भी ऐसा कर सकते हैं? क्या हम इनपुट को एक उच्च आयामी स्थान पर मैप कर सकते हैं, फिर एक तंत्रिका नेटवर्क के लिए वास्तविक इनपुट के रूप में मान सकते हैं? मुझे लगता है कि हम कर सकते हैं (और मुझे लगता है कि हम यह भी प्रत्येक परत पर कर सकते हैं, अगर हम चाहते थे)। और, अगर हम कर सकते हैं, तो मेरा असली सवाल यह है: क्या यह नेटवर्क (व्यवहार में) तंत्रिका नेटवर्क के लिए एक बड़ा सुधार प्रदान करता है जैसा कि यह पीएमओ के लिए करता है? क्यों या क्यों नहीं?
DW

मैं यूनिवर्सल सन्निकटन प्रमेय के बारे में जानता हूं, लेकिन यह वास्तव में सवाल का जवाब नहीं देता है (जैसा आपने संकेत दिया था)। मुझे इस बात की परवाह है कि तंत्रिका संबंधी कार्य व्यवहार में कितनी अच्छी तरह काम करते हैं। मैं सोच रहा हूं कि क्या कर्नेलाइजेशन ट्रिक के जरिए इनपुट को प्रीप्रोसेस करना तंत्रिका नेटवर्क को व्यवहार में बेहतर काम करने के लिए प्रेरित कर सकता है। बेशक, कोई गारंटी नहीं है और हमेशा ऐसी परिस्थितियां होंगी जहां आप जो कुछ भी करते हैं वह चीजों को बदतर बना सकता है, लेकिन मैं सामान्य व्यवहार के बारे में सोच रहा हूं, व्यवहार में (उसी अर्थ में जो हम कहते हैं कि कर्नेलाइजेशन एसवीएम को काफी अधिक प्रभावी बनाता है, में अभ्यास)।
DW

2
@DW कारण कर्नेलिकरण SVM को अधिक प्रभावी बनाता है क्योंकि यह उन्हें गैर-रेखीय निर्णय सीमाओं को परिभाषित करने की अनुमति देता है। तंत्रिका नेटवर्क पहले से ही गैर-रैखिक निर्णय सीमाओं को परिभाषित कर सकते हैं, इसलिए आपके डेटा को एक उच्च आयामी स्थान में प्रोजेक्ट करने का एकमात्र लाभ अनुकूलन समस्या को आसान बनाना होगा।
ऑल्टो

1

SVM के लिए सीखने की प्रक्रिया की एक विशेष संपत्ति के कारण SVM के लिए कर्नेल चाल संभव है। तंत्रिका नेटवर्क के पास वह संपत्ति नहीं है (जहाँ तक मैं बता सकता हूँ)।

चलो x1,,xnRdप्रशिक्षण सेट में अंक हो। आम तौर पर, आप उम्मीद करेंगे कि एक मशीन लर्निंग एल्गोरिदम के मूल्यों को देखेगाxi'है। हालांकि, एसवीएम सीखने की प्रक्रिया में एक उल्लेखनीय संपत्ति है। इसके मूल्यों को जानने की जरूरत नहीं हैxi'है। यह गणना करने में सक्षम होने के लिए पर्याप्त हैxixjइनपुट बिंदुओं के किसी भी वांछित जोड़ी के लिए (यानी, अपनी पसंद के इनपुट वैक्टर के किसी भी जोड़े के लिए डॉट-उत्पाद की गणना करने के लिए); यह सभी एसवीएम सीखने की प्रक्रिया की जरूरत है।

एसवीएम सीखने की प्रक्रिया की यह विशेष संपत्ति हमें कर्नेल ट्रिक का उपयोग करने की अनुमति देती है। हम एक कर्नेल फ़ंक्शन को परिभाषित कर सकते हैंK ताकि K(xi,xj)आदानों के कुछ गैर-रैखिक परिवर्तन का डॉट-उत्पाद है। यदि हम इनपुट वैक्टर को एक अरेखीय परिवर्तन के माध्यम से बदल रहे हैंϕ:RdRm (कुछ के लिए m>d), तो हम परिभाषित करते हैं K(xi,xj)=ϕ(xi)ϕ(xj)। अगली ठंडी संपत्ति वह है, जो कुछ गैर-परिवर्तनकारी परिवर्तनों के लिए हैϕ, आप गणना कर सकते हैं K(xi,xj) कंप्यूटिंग की तुलना में अधिक कुशलता से ϕ(xi),ϕ(xj)स्पष्ट रूप से और फिर उनके डॉट-उत्पाद की गणना करना; आप गणना कर सकते हैंK(xi,xj) में O(d) समय (कहें) के बजाय O(m) समय।

दुर्भाग्य से, तंत्रिका नेटवर्क के पास इस शांत चाल का लाभ उठाने का कोई तरीका नहीं है, क्योंकि तंत्रिका नेटवर्क के लिए सीखने की प्रक्रिया सिर्फ मूल्यों से अधिक निर्भर करती है xixj (या K(xi,xj)); यह सभी के पूर्ण मूल्यों की आवश्यकता हैxi'है। इसलिए, जब हम वास्तव में इनपुट को गैर-रेखीय नेटवर्क में कुछ नॉनलाइनियर फ़ंक्शन के माध्यम से पूर्व-रूपांतरित कर सकते हैं, यदि हम चाहें, तो कर्नेल ट्रिक का उपयोग करने का कोई तरीका ऐसा प्रतीत नहीं होता है, जैसे कि हम एसवीएम के लिए कर सकते हैं।


1

मैं अपने द्वारा किए गए कुछ टिप्पणियों को साझा करना चाहूंगा। इनपुट आयाम: 144. मैंने एक तंत्रिका नेटवर्क को प्रशिक्षित किया है, और प्रशिक्षण के दौरान, छिपी हुई परतों के उत्पादन को लॉजिस्टिक प्रतिगमन के लिए इनपुट के रूप में दिया गया था, और मॉडल को फिटिंग करने के बाद नुकसान फ़ंक्शन का औसत मूल्य दिया गया था।यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

हम देख सकते हैं कि परत के आकार में वृद्धि के साथ, छिपी हुई परतों की विशेषताएं या आउटपुट रैखिक रूप से अलग होते जा रहे हैं। जबकि यह कर्नेल की विशेषता वेक्टर को सीखने का उद्देश्य है , तंत्रिका नेटवर्क आंतरिक रूप से ऐसा करता प्रतीत होता है। यहाँ छवि विवरण दर्ज करें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.