कृत्रिम तंत्रिका नेटवर्क बहुपद सुविधाओं के साथ रैखिक प्रतिगमन के लिए आवश्यक है?


11

मैं अन्य मशीन लर्निंग एल्गोरिदम की तुलना में तंत्रिका नेटवर्क की उनकी समझ और उनके लाभों में सुधार करना चाहता हूं। मेरी समझ नीचे है और मेरा प्रश्न है:

क्या आप मेरी समझ को सही और पूरक कर सकते हैं? :)

मेरी समझ:

(1) कृत्रिम तंत्रिका नेटवर्क = एक फ़ंक्शन, जो इनपुट मानों से आउटपुट मानों की भविष्यवाणी करता है। एक यूनिवर्सल अप्रूवल प्रमेय ( https://en.wikipedia.org/wiki/Universal_approximation_theorem ) के अनुसार, आप आमतौर पर किसी भी संभव न्यूरॉन्स को देखते हुए (संभव है कि यह अच्छी तरह से व्यवहार करना चाहिए) भविष्यवाणी कार्य कर सकते हैं।

(२) इनपुट मूल्यों के बहुपदों को अतिरिक्त इनपुट मानों के रूप में लेते हुए रैखिक रिग्रेशन के लिए भी यही सही है, क्योंकि आप पॉलीनॉमियल्स द्वारा प्रत्येक फ़ंक्शन को अनुमानित (तुलनात्मक रूप से टेलर विस्तार की तुलना) कर सकते हैं।

(३) इसका अर्थ है, एक अर्थ में (सर्वोत्तम संभव परिणामों के संबंध में), वे २ विधियाँ समतुल्य हैं।

(४) इसलिए, उनका मुख्य अंतर यह है कि किस पद्धति में बेहतर कम्प्यूटेशनल कार्यान्वयन के लिए ऋण दिया जाता है। दूसरे शब्दों में, प्रशिक्षण के उदाहरणों के आधार पर, आप किस पद्धति को खोज सकते हैं, मापदंडों के लिए तेजी से अच्छे मूल्य जो अंततः भविष्यवाणी समारोह को परिभाषित करते हैं।

मैं अपनी सोच को बेहतर बनाने के लिए अन्य लिंक या पुस्तकों के लिए किसी भी विचार, टिप्पणी और सिफारिशों का स्वागत करता हूं।


2
tanhndeπ|nx|2

@ user1952009 - क्या प्रमेय में सन्निकटन की एकरूपता के कारण स्टोन-वीयरस्ट्रास का अर्थ मनमाने ढंग से अच्छा वैश्विक सन्निकटन नहीं है?
जूलमैन

frϵfr,ϵsup|x|r|f(x)fr,ϵ(x)|ϵx0

1
यह संभावित रूप से डिटेल्स का एक डुप्लिकेट है ।stackexchange.com / questions / 41289 / मैं इस प्रश्न को फ़्लैग करूंगा , लेकिन इस पर इनाम के साथ, मुझे लगता है कि मैं सिर्फ यहाँ टिप्पणी करने जा रहा हूँ :)
ह्यूग पर्किन्स

1
+1 @HughPerkins एक असंवेदनशील संबंधित क्यू के लिंक के लिए। लेकिन, भले ही संबंधित प्रश्न के उत्तर यहां प्रश्न पर अंतर्दृष्टि प्रदान करते हैं (जैसे कि स्टीफ़न कोलासा बताते हैं कि ANN खाते में गैर-रैखिकता को डिफ़ॉल्ट के रूप में लेता है क्योंकि प्रतिगमन केवल ऐसा करता है। जब विशेष रूप से अतिरिक्त तकनीकों के माध्यम से मॉडलिंग की जाती है) मैं डुप्लिकेट के लिए ध्वजांकित नहीं करूंगा । आपने पूछा कि कौन से मॉडल प्रकार बेहतर परिणाम दे सकते हैं, जबकि यह सवाल विशेष रूप से यह बताने के लिए कहता है कि क्या दो तरीके उनके परिणामों और उनकी अस्थिरता के समान हैं या नहीं।
IWS

जवाबों:


7

यहाँ सौदा है:

तकनीकी रूप से आपने सही वाक्य लिखे (दोनों मॉडल किसी भी 'पागल भी नहीं हैं' समारोह को पर्याप्त पैरामीटर दिए गए हैं), लेकिन वे वाक्य आपको कहीं भी नहीं मिलते हैं!

ऐसा क्यों है? खैर, सार्वभौमिक सन्निकटन सिद्धांत, या किसी अन्य औपचारिक प्रमाण पर एक करीब से नज़र डालें जो कि एक तंत्रिका नेटवर्क किसी भी f (x) की गणना कर सकता है यदि ENOUGH न्यूरॉन्स हैं।

उन सभी प्रकार के प्रमाण जो मैंने देखे हैं, केवल एक छिपी हुई परत का उपयोग करते हैं।

कुछ इंट्रस्ट के लिए यहां देखें http://neuralnetworksanddeeplearning.com/chap5.html । वहाँ काम कर रहे हैं कि एक तरह से न्यूरॉन्स की संख्या तेजी से बढ़ने की जरूरत है अगर आप सिर्फ एक परत का उपयोग कर रहे हैं।

तो, जबकि सिद्धांत रूप में आप सही हैं, व्यवहार में, आपके पास स्मृति की अनंत मात्रा नहीं है, इसलिए आप वास्तव में 2 ^ 1000 न्यूरॉन्स नेट को प्रशिक्षित नहीं करना चाहते हैं, क्या आप? यहां तक ​​कि अगर आपके पास अनंत मात्रा में मेमोरी है, तो यह सुनिश्चित करने के लिए शुद्ध हो जाएगा।

मेरे दिमाग में, एमएल का सबसे महत्वपूर्ण बिंदु व्यावहारिक बिंदु है! चलो उस पर थोड़ा विस्तार करें। यहाँ असली बड़ा मुद्दा यह नहीं है कि प्रशिक्षण सेट के बाहर बहुपत्नी कैसे बहुत तेज़ी से बढ़ती / घटती है। हर्गिज नहीं। एक त्वरित उदाहरण के रूप में, किसी भी चित्र का पिक्सेल प्रत्येक आरजीबी रंग के लिए एक बहुत ही विशिष्ट सीमा ([0,255]) के भीतर होता है, ताकि आप निश्चिंत रहें कि कोई भी नया नमूना आपके प्रशिक्षण सेट मानों के भीतर होगा। नहीं। बड़ी बात यह है: यह तुलना (!) के साथ शुरू करने के लिए उपयोगी नहीं है।

मेरा सुझाव है कि आप एमएनआईएसटी के साथ थोड़ा सा प्रयोग करेंगे, और केवल एक ही परत का उपयोग करके वास्तविक परिणाम देख सकते हैं।

प्रैक्टिकल नेट्स एक से अधिक छिपी हुई परतों का उपयोग करते हैं, कभी-कभी दर्जनों (अच्छी तरह से, Resnet और भी अधिक ...) परतों का। किसी कारण से। वह कारण साबित नहीं हुआ है, और सामान्य तौर पर, तंत्रिका जाल के लिए एक वास्तुकला का चयन करना अनुसंधान का एक गर्म क्षेत्र है। दूसरे शब्दों में, जबकि हमें अभी भी अधिक जानने की जरूरत है, दोनों मॉडल जो आपने तुलना किए हैं (रैखिक प्रतिगमन और एनएन सिर्फ एक छिपी हुई परत के साथ), कई डेटासेट के लिए, जो भी उपयोगी नहीं है!

वैसे, यदि आप एमएल में पहुंचेंगे, तो एक और बेकार प्रमेय है जो वास्तव में 'शोध का क्षेत्र' है- पीएसी (शायद लगभग सही) / वीसी आयाम। मैं उस पर एक बोनस के रूप में विस्तार करूंगा:

यदि सार्वभौमिक सन्निकटन में मूल रूप से कहा गया है कि अनंत मात्रा में न्यूरॉन्स दिए गए हैं, तो हम किसी भी फ़ंक्शन का अनुमान लगा सकते हैं (बहुत-बहुत धन्यवाद!), व्यावहारिक रूप से पीएसी जो कहती है, वह (व्यावहारिक रूप से) लेबल किए गए उदाहरणों की अनंत राशि है जो हम करीब से प्राप्त कर सकते हैं! हमारे मॉडल के भीतर सबसे अच्छी परिकल्पना करना चाहते हैं। यह बिल्कुल प्रफुल्लित करने वाला था जब मैंने एक व्यावहारिक नेट के लिए आवश्यक कुछ उदाहरणों की वास्तविक मात्रा की गणना कुछ ओकीश संभावना के साथ व्यावहारिक वांछित त्रुटि दर के भीतर की थी :) यह ब्रह्मांड में इलेक्ट्रॉनों की संख्या से अधिक थी। इसे बढ़ावा देने के लिए PS यह भी मानता है कि नमूने IID हैं (यह कभी सच नहीं है!)।


तो, कृत्रिम तंत्रिका नेटवर्क बहुपद सुविधाओं के साथ रैखिक प्रतिगमन के बराबर हैं या नहीं? आपका जवाब परतों और आवश्यक न्यूरॉन्स की मात्रा पर ध्यान केंद्रित करने के लिए लगता है, लेकिन यह नहीं बताता है कि इन दो विश्लेषणों को क्यों / बराबर होना चाहिए। क्या अधिक (छिपी हुई) परतें जोड़ने से एक तंत्रिका नेटवर्क को बहुपद के साथ प्रतिगमन की तुलना में अधिक कार्य (यहां तक ​​कि) संभालने में सक्षम बनाता है? और, जैसा कि ओपी ने एक उत्तर दिया है कि वह अपने आप में, इन मॉडलों की बाहरी वैधता / आउट-ऑफ-सैंपल प्रदर्शन (और अधिक जटिल मॉडल विकल्पों और प्रदर्शन का उपयोग करने के बीच व्यापार बंद) के बारे में कैसे सोच रहा है?
IWS

मैं आपको अपने पहले वाक्य का उल्लेख करता हूं: "तकनीकी रूप से आपने सच्चे वाक्य लिखे थे"।
योनी केरेन

खैर, मैंने पूछा क्योंकि आपके कथन का तर्क यह था कि 'ओपी ने सच्चे वाक्य लिखे थे' आपके उत्तर के आधार पर मेरे लिए स्पष्ट नहीं थे। क्या आप इस बारे में विस्तार से बताना चाहेंगे?
IWS

पक्का। क्या यह बेहतर है, या क्या आप अभी भी अस्पष्ट कुछ और पाते हैं?
योनी केरन

8

यह सच है कि किसी भी फ़ंक्शन को मनमाने ढंग से दोनों द्वारा बंद किया जा सकता है जो एक तंत्रिका नेटवर्क के रूप में गिना जाता है और एक बहुपद के रूप में गिना जाता है।

सबसे पहले, ध्यान रखें कि यह बहुत सारे निर्माणों के लिए सच है। आप साइन और कॉज़नेस (फूरियर ट्रांसफॉर्म) के संयोजन से किसी भी फ़ंक्शन का अनुमान लगा सकते हैं, या बस बहुत सारे "आयतों" को जोड़कर (वास्तव में एक सटीक परिभाषा नहीं है, लेकिन मुझे उम्मीद है कि आप बिंदु प्राप्त करेंगे)।

दूसरा, योनी के जवाब की तरह, जब भी आप किसी नेटवर्क को प्रशिक्षित कर रहे हैं, या बहुत सारी शक्तियों के साथ एक प्रतिगमन फिटिंग कर रहे हैं, तो न्यूरॉन्स की संख्या, या शक्तियों की संख्या निर्धारित है। फिर आप कुछ एल्गोरिथ्म, शायद ढाल वंश या कुछ और लागू करते हैं, और उस के साथ सबसे अच्छा पैरामीटर पाते हैं। पैरामीटर एक नेटवर्क में भार हैं, और एक बड़े बहुपद के लिए गुणांक हैं। एक बहुपद, या उपयोग किए गए न्यूरॉन्स की अधिकतम शक्ति, जिसे हाइपरपरमेटर्स कहा जाता है। व्यवहार में, आप उन लोगों की एक जोड़ी की कोशिश करेंगे। आप एक मामला बना सकते हैं कि एक पैरामीटर एक पैरामीटर है, निश्चित है, लेकिन ऐसा नहीं है कि यह कैसे व्यवहार में किया जाता है।

हालांकि, मशीन सीखने के साथ, आप वास्तव में एक फ़ंक्शन नहीं चाहते हैं जो आपके डेटा के माध्यम से पूरी तरह से फिट बैठता है। यह वास्तव में प्राप्त करने के लिए बहुत मुश्किल नहीं होगा। आप ऐसा कुछ चाहते हैं जो अच्छी तरह से फिट हो, लेकिन संभवतः उन बिंदुओं के लिए भी काम करता है जिन्हें आपने अभी तक नहीं देखा है। उदाहरण के लिए यह चित्र देखें, के लिए प्रलेखन से लिया गया है scikit-learn

एक पंक्ति बहुत सरल है, लेकिन सबसे अच्छा सन्निकटन दाईं ओर नहीं है, यह बीच में है, हालांकि दाईं ओर फ़ंक्शन सबसे उपयुक्त है। दाईं ओर फ़ंक्शन नए डेटा बिंदुओं के लिए कुछ बहुत ही अजीब (और शायद सबॉप्टीमल) भविष्यवाणियां करेगा, खासकर यदि वे बाईं ओर विगली बिट्स के पास आते हैं।

तंत्रिका नेटवर्क के लिए अंतिम कारण कुछ मापदंडों के साथ इतनी अच्छी तरह से काम कर रहा है, कि वे कुछ फिट कर सकते हैं लेकिन वास्तव में इसे ओवरफिट नहीं करते हैं। स्टोचैस्टिक ग्रेडिएंट डिसेंट के कुछ रूप के साथ, उन्हें प्रशिक्षित करने के तरीके के साथ भी बहुत कुछ करना है।


2

चूँकि अभी तक कोई उत्तर उपलब्ध नहीं कराया गया है (हालाँकि मैं user1952009 की टिप्पणी को स्वीकार करता हूँ, क्या यह एक उत्तर के रूप में पोस्ट किया गया था), मुझे इस बीच में जो मैंने सीखा है उसे साझा करने दें:

(१) ऐसा लगता है कि मेरी समझ आम तौर पर सही है, लेकिन शैतान विवरण में है।

(२) एक चीज़ जो "मेरी समझ" में छूट गई: पैरामीरिज़ेड परिकल्पना प्रशिक्षण सेट के बाहर डेटा के लिए कैसे सामान्य होगी? तंत्रिका नेटवर्क की भविष्यवाणियों की गैर-बहुपद प्रकृति सरल रैखिक / बहुपद प्रतिगमन की तुलना में बेहतर हो सकती है (याद रखें कि प्रशिक्षण सेट के बाहर बहुत तेज़ी से बहुपद / वृद्धि कैसे घटती है)।

(३) एक कड़ी जो आगे मापदंडों की गणना करने में सक्षम होने के महत्व को शीघ्रता से समझाती है: http://www.heatonresearch.com/2017/06/01/hidden-layers.html


2

शायद यह कागज आपकी मदद कर सकता है:

तंत्रिका जाल के विकल्प के रूप में बहुपद प्रतिगमन

सार कहता है:

तंत्रिका नेटवर्क (एनएन) की सफलता के बावजूद, उनके "ब्लैक बॉक्स" प्रकृति पर अभी भी कई चिंताएं हैं। वे काम क्यों करते हैं? यहां हम एक सरल विश्लेषणात्मक तर्क प्रस्तुत करते हैं कि एनएन वास्तव में अनिवार्य रूप से बहुपद प्रतिगमन मॉडल हैं। इस दृश्य में एनएन के लिए विभिन्न निहितार्थ होंगे, उदाहरण के लिए, एनएन में अभिसरण समस्याएं क्यों उत्पन्न होती हैं, इसके लिए एक स्पष्टीकरण प्रदान करता है, और यह ओवरफिटिंग से बचने पर मोटे तौर पर मार्गदर्शन देता है। इसके अलावा, हम इस घटना का उपयोग एनएन की बहु-बहुसंख्यक संपत्ति की भविष्यवाणी करने और पुष्टि करने के लिए करते हैं जो पहले साहित्य में रिपोर्ट नहीं की गई थी। सबसे महत्वपूर्ण बात यह है कि इस ढीले पत्राचार को देखते हुए, कोई व्यक्ति NN के बजाय बहुपद मॉडल का नियमित रूप से उपयोग कर सकता है, इस प्रकार बाद की कुछ प्रमुख समस्याओं से बचता है, जैसे कई ट्यूनिंग पैरामीटर सेट करना और अभिसरण समस्याओं से निपटना। हम कई अनुभवजन्य परिणाम प्रस्तुत करते हैं; प्रत्येक मामले में, बहुपद दृष्टिकोण की सटीकता एनएन दृष्टिकोण से मेल खाती है या उससे अधिक है। कई-फ़ीचर्ड, ओपन-सोर्स सॉफ़्टवेयर पैकेज, पॉलीग्राम, उपलब्ध है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.