सार्वभौमिक स्वीकृति सिद्धांत - तंत्रिका नेटवर्क


23

मैंने इसे पहले एमएसई पर पोस्ट किया था , लेकिन यह सुझाव दिया गया था कि यहां पूछने के लिए बेहतर जगह हो सकती है।

सार्वभौमिक सन्निकटन प्रमेय में कहा गया है कि "मानक बहुपरत फीड-फॉरवर्ड नेटवर्क जिसमें एकल छिपी हुई परत होती है, जिसमें छिपे हुए न्यूरॉन्स की परिमित संख्या होती है, सक्रियण फ़ंक्शन पर हल्के मान्यताओं के तहत Rn के कॉम्पैक्ट सबसेट पर निरंतर कार्यों के बीच एक सार्वभौमिक सन्निकटन है।"

मैं समझता हूं कि इसका क्या अर्थ है, लेकिन संबंधित कागजात मेरे गणित की समझ के स्तर से बहुत दूर हैं कि यह क्यों सच है या कैसे एक छिपी हुई परत गैर-रैखिक कार्यों का अनुमान लगाती है।

तो, बुनियादी गणना और रैखिक बीजगणित की तुलना में थोड़ा अधिक उन्नत के संदर्भ में, एक छिपी हुई परत के साथ फ़ीड-फॉरवर्ड नेटवर्क लगभग गैर-रैखिक कार्यों को कैसे करता है? जवाब जरूरी नहीं कि पूरी तरह से ठोस हो।


यह भी देखें कि वैश्विक अनुकूलन में वैश्विक
विलुप्तता

मुझे माइकल
नील्सन

जवाबों:


26

साइबेंको का परिणाम काफी सहज है, जैसा कि मैं नीचे बता रहा हूं; चीजों को और अधिक मुश्किल बना देता है वह दोनों को सामान्यता के लिए लक्ष्य कर रहा था, साथ ही साथ छिपी हुई परतों की न्यूनतम संख्या भी। कोलमोगोरोव का परिणाम (vzn द्वारा उल्लिखित) वास्तव में एक मजबूत गारंटी प्राप्त करता है, लेकिन मशीन लर्निंग के लिए कुछ हद तक कम प्रासंगिक है (विशेष रूप से, यह एक मानक तंत्रिका जाल का निर्माण नहीं करता है, क्योंकि नोड्स विषम हैं); बदले में यह परिणाम कठिन है क्योंकि सतह पर यह केवल 3 पृष्ठ है जो कुछ सीमाओं और निरंतर कार्यों को रिकॉर्ड कर रहा है, लेकिन वास्तव में यह फ्रैक्टल्स के एक सेट का निर्माण कर रहा है। जबकि साइबेंको का परिणाम असामान्य और बहुत ही रोचक है, क्योंकि वह सटीक तकनीकों का उपयोग करता है, उस स्वाद के परिणाम मशीन सीखने में बहुत व्यापक रूप से उपयोग किए जाते हैं (और मैं आपको दूसरों को इंगित कर सकता हूं)।

यहाँ एक उच्च-स्तरीय सारांश है कि साइबेंको का परिणाम क्यों होना चाहिए।

  • एक कॉम्पैक्ट सेट पर एक सतत फ़ंक्शन को एक टुकड़े-टुकड़े निरंतर फ़ंक्शन द्वारा अनुमानित किया जा सकता है।
  • एक टुकड़ा करने योग्य निरंतर फ़ंक्शन को निम्न के रूप में एक तंत्रिका जाल के रूप में दर्शाया जा सकता है। प्रत्येक क्षेत्र के लिए जहां फ़ंक्शन स्थिर है, उस क्षेत्र के लिए संकेतक फ़ंक्शन के रूप में एक तंत्रिका जाल का उपयोग करें। फिर एक एकल नोड के साथ एक अंतिम परत का निर्माण करें, जिसका इनपुट रैखिक संयोजन सभी संकेतकों का योग है, मूल टुकड़ों के निरंतर फ़ंक्शन में संबंधित क्षेत्र के निरंतर मूल्य के बराबर वजन के साथ।

उपरोक्त पहले बिंदु के बारे में, यह कथन के रूप में लिया जा सकता है "एक कॉम्पैक्ट सेट पर एक सतत कार्य समान रूप से निरंतर है"। क्या यह हमारे लिए इसका मतलब है आप पर अपने निरंतर समारोह ले सकता है , और कुछ लक्ष्य त्रुटि ε > 0 है, तो आप कर सकते हैं ग्रिड [ 0 , 1 ] पैमाने पर τ > 0 (मोटे तौर पर साथ समाप्त ( 1 / τ ) subcubes) तो एक समारोह है जो प्रत्येक subcube पर स्थिर है के भीतर है कि ε लक्ष्य समारोह का।[0,1]dϵ>0[0,1]dτ>0(1/τ)dϵ

अब, एक तंत्रिका जाल ठीक एक संकेतक का प्रतिनिधित्व नहीं कर सकता है, लेकिन आप बहुत करीब हो सकते हैं। मान लीजिए कि "ट्रांसफर फ़ंक्शन" एक सिग्मोइड है। (ट्रांसफर फ़ंक्शन निरंतर फ़ंक्शन है जो आप तंत्रिका जाल के मूल्य को प्राप्त करने के लिए इनपुट के एक रैखिक संयोजन पर लागू करते हैं।) फिर भार को बड़ा करके, आप अधिक इनपुट के लिए 0 के करीब या 1 के करीब कुछ आउटपुट करते हैं। यह साइबेंको के विकास के अनुरूप है: ध्यान दें कि उसे सीमा में 0 या 1 के बराबर कार्य शामिल हैं: सीमा की परिभाषा से, आपको ठीक वही मिलता है जो मैं कह रहा हूं, जिसका अर्थ है कि आप मनमाने ढंग से 0 या 1 के करीब चीजों को धक्का देते हैं।

(मैं अंतिम परत में हस्तांतरण समारोह को नजरअंदाज कर दिया है, अगर यह वहाँ है, और यह निरंतर है, तो हम कुछ भी मानचित्रण फिट कर सकते हैं [0,1] स्थानांतरण के अनुसार उस स्थिरांक की उलटी छवि में कुछ के साथ निरंतर भार को बदलकर समारोह।)

ध्यान दें कि ऊपर से कुछ परतें लग सकती हैं: कहते हैं, 2 क्यूब्स पर संकेतक बनाने के लिए, और फिर एक अंतिम आउटपुट परत। साइबेंको सामान्यता के दो बिंदुओं के लिए कोशिश कर रहा था: छिपी हुई परतों की न्यूनतम संख्या, और हस्तांतरण समारोह की पसंद में लचीलापन। मैं पहले ही बता चुका हूं कि वह ट्रांसफर फंक्शन में लचीलेपन के साथ कैसे काम करता है।

परतों की न्यूनतम संख्या प्राप्त करने के लिए, वह ऊपर के निर्माण से बचता है, और इसके बजाय एक विरोधाभास विकसित करने के लिए कार्यात्मक विश्लेषण का उपयोग करता है। यहाँ तर्क का एक स्केच है।

  • अंतिम नोड इसके नीचे की परत के तत्वों के एक रैखिक संयोजन की गणना करता है, और इसके लिए एक स्थानांतरण फ़ंक्शन लागू करता है। यह रैखिक संयोजन कार्यों का एक रैखिक संयोजन है, और इस तरह, स्वयं एक फ़ंक्शन है, फ़ंक्शन के कुछ सबसेट के भीतर एक फ़ंक्शन, छिपी हुई परत में संभव नोड्स द्वारा फैलाया जाता है।

  • कार्यों का एक उप-समूह एक साधारण परिमित-आयामी उप-स्थान की तरह है, मुख्य अंतर के साथ कि यह संभवतः एक बंद सेट नहीं है; यही कारण है कि साइबरबैंक के तर्क सभी उस उप-केंद्र को बंद कर देते हैं। हम यह साबित करने की कोशिश कर रहे हैं कि इस बंद में सभी निरंतर कार्य शामिल हैं; इसका मतलब है कि हम मनमाने ढंग से सभी निरंतर कार्यों के करीब हैं।

  • यदि फ़ंक्शन स्थान सरल था (एक हिल्बर्ट स्थान), तो हम निम्नानुसार बहस कर सकते हैं। कुछ लक्ष्य निरंतर फ़ंक्शन को चुनें जो कि विरोधाभासी रूप से उप-झूठ में नहीं होने वाला है, और इसे उप-वर्ग के ओर्थोगोनल पूरक पर प्रोजेक्ट करता है। यह अवशिष्ट नॉनज़रो होना चाहिए। लेकिन जब से हमारा उप-स्थान ऊपर के छोटे क्यूब्स जैसी चीजों का प्रतिनिधित्व कर सकता है, हम इस अवशिष्ट के कुछ क्षेत्र को पा सकते हैं, इसके लिए थोड़ा क्यूब फिट कर सकते हैं (ऊपर के रूप में), और इस तरह हमारे लक्ष्य फ़ंक्शन के करीब चले जाते हैं। यह एक विरोधाभास है क्योंकि अनुमान न्यूनतम तत्व चुनते हैं। (ध्यान दें, मैं यहां कुछ छोड़ रहा हूं: साइबेंको का तर्क किसी छोटे से क्यूब का निर्माण नहीं करता है, वह इसे सामान्यता में भी संभालता है; यह वह जगह है जहां वह रिस्ज़ प्रतिनिधित्व प्रमेय के एक रूप का उपयोग करता है, और स्थानांतरण कार्यों के गुण (यदि मुझे याद है) सही ढंग से, इस चरण के लिए एक अलग लेम्मा है,

  • हम हिल्बर्ट स्पेस में नहीं हैं, लेकिन हम ऊपर दिए गए प्रोजेक्शन स्टेप को बदलने के लिए हैन-बानाच प्रमेय का उपयोग कर सकते हैं (ध्यान दें, यह साबित करते हुए कि हैन-बानाच ऑक्सोम का उपयोग करता है)।

अब मैं कोलमोगोरोव के परिणाम के बारे में कुछ बातें कहना चाहूंगा। हालांकि इस परिणाम को स्पष्ट रूप से साइबेंको की पृष्ठभूमि की तरह की आवश्यकता नहीं है, मुझे व्यक्तिगत रूप से लगता है कि यह बहुत अधिक डराने वाला है।

यहाँ क्यों है। साइबेंको का परिणाम एक सन्निकटन गारंटी है : यह नहीं कहता कि हम वास्तव में किसी भी चीज़ का प्रतिनिधित्व कर सकते हैं। दूसरी ओर, कोलमोगोरोव का परिणाम एक समानता प्रदान करता है । अधिक हास्यास्पद रूप से, यह नेट का आकार कहता है: आपको बस O(d2) नोड्स की आवश्यकता है। इस मजबूती को प्राप्त करने के लिए, निश्चित रूप से एक पकड़ है, जिसका मैंने ऊपर उल्लेख किया है: नेटवर्क विषम है, जिसके द्वारा मेरा मतलब है कि सभी हस्तांतरण कार्य समान नहीं हैं।

ठीक है, इतना सब के साथ, यह कैसे संभव काम कर सकता है ?!

चलो ऊपर हमारे क्यूब्स पर वापस जाएं। ध्यान दें कि हमें सटीक स्तर पर सेंकना था: प्रत्येक , हमें वापस जाना होगा और अधिक परिष्कृत ref > 0 को चुनना होगा । चूँकि हम संकेतक के (परिमित) रैखिक संयोजनों के साथ काम कर रहे हैं, हम कभी भी किसी चीज़ का प्रतिनिधित्व नहीं करते हैं। (यदि आप सिग्मोइड के सन्निकटन प्रभाव को शामिल करते हैं तो चीजें केवल बदतर हो जाती हैं।)ϵ>0τ>0

तो उपाय क्या है? खैर, कैसे के बारे में हम एक साथ सभी तराजू को संभालते हैं? मैं इसे नहीं बना रहा हूं: कोल्मोगोरोव का प्रमाण प्रभावी रूप से फ्रैक्टल के एक सेट के रूप में छिपी हुई परत का निर्माण कर रहा है। दूसरे तरीके से कहा, वे मूल रूप से अंतरिक्ष भरने वाले घटता हैं जो नक्शे से [ 0 , 1 ] d ; इस तरह, भले ही हमारे पास एकतरफा कार्यों का संयोजन है, हम किसी भी बहुभिन्नरूपी समारोह में फिट हो सकते हैं। वास्तव में, आप कर सकते हैं heuristically कारण यह है कि हे ( 2 ) एक हास्यास्पद गिनती तर्क के माध्यम से 'सही' है: हम से एक सतत समारोह लिख रहे हैं आर डी के लिए आर[0,1][0,1]dO(d2)RdRअविभाजित निरंतर कार्यों के माध्यम से, और इसलिए, सभी अंतर-समन्वित इंटरैक्शन को पकड़ने के लिए, हमें फ़ंक्शन की आवश्यकता है ...O(d2)

ध्यान दें कि केवल एक प्रकार के ट्रांसफर फ़ंक्शन का उपयोग करने के कारण साइबेंको का परिणाम, मशीन लर्निंग के लिए अधिक प्रासंगिक है। मशीन लर्निंग में इस प्रकार के सिद्धांत बहुत आम हैं (vzn ने अपने जवाब में यह सुझाव दिया है, हालांकि उन्होंने कोलमोगोरोव के परिणाम का उल्लेख किया है, जो कि कस्टम ट्रांसफ़र फ़ंक्शन के कारण कम लागू है; यह कोलारोगोरोव के परिणाम के कुछ और अधिक फैंसी संस्करणों में कमजोर है (द्वारा उत्पादित) अन्य लेखक), लेकिन वे अभी भी भग्न शामिल हैं, और कम से कम दो हस्तांतरण कार्य करते हैं)।

इन विषयों पर मेरी कुछ स्लाइड्स हैं, जिन्हें मैं पोस्ट कर सकता हूं यदि आप रुचि रखते हैं (उम्मीद है कि उपरोक्त से कम रंबी हैं, और कुछ चित्र हैं; मैंने उन्हें लिखा था इससे पहले कि मैं हन-बानाच के साथ निपुण था, हालांकि)। मुझे लगता है कि दोनों सबूत बहुत अच्छे हैं। (इसके अलावा, मेरे पास इन विषयों पर यहाँ एक और उत्तर है, लेकिन मैंने कोलमोगोरोव के परिणाम को टटोलने से पहले इसे लिखा था।)


1
ABϕfA:ϕ(f)1gB:ϕ(g)>1
साशो निकोलोव

3
SfSLL(g)=0gSL(f)=fL(f)कुछ हस्ताक्षरित माप के संबंध में एक अभिन्न के रूप में। लेकिन यह ट्रांसफर फ़ंक्शंस पर साइबेंको की शर्तों (अगली टिप्पणी में जारी) के कारण सबूत को समाप्त करता है।
Matus

3
@SashoNikolov, Cybenko की शर्त यह है कि किसी भी हस्ताक्षरित उपाय को बिल्कुल शून्य नहीं दिया गया है, कुछ शमन कार्य मौजूद है ताकि उस उपाय के साथ उस एफाइन समारोह से बना स्थानांतरण फ़ंक्शन का एकीकरण शून्य के बराबर न हो। उसके बाद उस लेम्मा को सिद्ध करना होता है जो सामान्यीकृत सिग्मोइड्स (जैसा कि मैंने ऊपर दिया है: 0 और 1 पर सीमाएं बाईं और दाईं ओर हैं) बिल को फिट करते हैं। (अगली टिप्पणी में जारी रखा।)
मैट

2
@ सशाओनिकोलोव ऊपर मैंने कहा "अवशिष्ट के साथ एक घन को गिराना"। यह हमारे काम को थोड़ा आसान बना देगा, क्योंकि हस्ताक्षरित उपाय बिल्कुल शून्य नहीं है, हम बस कुछ छोटे टुकड़े को बाहर निकालेंगे और वहां एक संकेतक लगा देंगे। उनके मामले में, उन्हें थोड़ा काम करना पड़ता है, लेकिन इसी तरह यह चक्कर समारोह के साथ सिग्मॉइड के चारों ओर घूमने के लिए उबलता है ताकि यह कुछ आसान क्षेत्र पाता है, इस प्रकार नॉनज़ेरो अभिन्न हो रहा है, हैन-बानाच (जो हमारे उप-स्थान पर शून्य है) के विपरीत है ; हिल्बर्ट अर्थ में, हम अपने अवशिष्ट, एक विरोधाभास को पी गए।
Matus

1
वाह, यह एक बहुत अच्छा जवाब है। स्वाभाविक रूप से, मेरे कुछ सवाल हैं अगर आपको उनका जवाब देने में कोई आपत्ति नहीं है। साइबेंको का परिणाम (जैसा कि आप कहते हैं) अनुप्रयोगों के लिए सबसे उपयोगी लगता है, लेकिन मैं कार्यों के सबसेट के साथ निपटने में थोड़ा खो जाता हूं। हम संभावित नोड्स के रैखिक संयोजनों के उप-समूह के ऑर्थोगोनल पूरक पर एक मनमाने ढंग से निरंतर कार्य कैसे करते हैं। उस मामले के लिए, हम उस उप-समूह की रूढ़िवादी प्रशंसा की अवधारणा कैसे करते हैं? क्या कार्य अंतरिक्ष में अधिक निकटता से एक दूसरे के करीब हैं? (जारी)।
मैट मुनसन

3

एक उन्नत परिणाम है, मशीन सीखने की कुंजी, जिसे कोलमोगोरोव की प्रमेय के रूप में जाना जाता है [1]; मैंने कभी नहीं देखा कि यह काम क्यों करता है। यह विभिन्न संस्कृतियों के साथ करना पड़ सकता है जो इसे दृष्टिकोण करते हैं। लागू सीखने की भीड़ कोलमोगोरोव की प्रमेय को एक अस्तित्व प्रमेय के रूप में मानती है जो केवल इंगित करती है कि एनएन मौजूद हो सकता है, इसलिए कम से कम संरचना अत्यधिक सीमित नहीं है, लेकिन प्रमेय इन एनएन को गारंटी नहीं दे सकता है। गणितज्ञ प्रमेय के निम्न-स्तरीय अनुप्रयोगों से इतने चिंतित नहीं हैं।

प्रमेय को ऐतिहासिक रूप से Perceptrons (Minsky / Papert) से एक आलोचना का मुकाबला करने के लिए बहुपरत एनएनएस के निहित परिष्कार का आह्वान / बचाव करने के लिए इस्तेमाल किया गया था कि बुनियादी कार्य [अर्थात गैर-रेखीय] थे जो वे सीख नहीं सकते थे।

सैद्धांतिक कंप्यूटर वैज्ञानिक एनएन को "सन्निकटन" के रूप में नहीं मानना ​​पसंद करते हैं , क्योंकि इस शब्द का एक विशेष / अलग अर्थ है। टुकड़ावार रैखिक प्रक्षेप के साथ शायद कुछ खुरदरा सादृश्य है , लेकिन फिर से, मैंने देखा कि इसे बाहर रखा गया था।

[१] कोलमोगोरोव, एएन (१ ९ ५og)। एक चर और जोड़ के निरंतर कार्यों के सुपरपोजिशन द्वारा कई चर के निरंतर कार्यों का प्रतिनिधित्व करने पर। डॉकलाडी एकेडमी Nauk SSSR, 144, 679-681; अमेरिकन मैथमैटिकल सोसाइटी ट्रांसलेशन, 28, 55-59 [1963]

[२] २.३ निरंतर कार्यों के लिए फीडफॉर्वर्ड न्यूरल नेटवर्क्स की स्वीकृति क्षमताएं

[३] कोलमोगोरोव की प्रमेय और बहुपरत तंत्रिका नेटवर्क कूर्कोवा



"इस उन्नत परिणाम [...] ने एक सहज स्केच नहीं देखा है कि यह क्यों काम करता है।" क्या इस तरह का स्केच उन्नत गणित की भीड़ में किसी के लिए काफी उपक्रम होगा? क्या उन्नत गणित के लोग भी सहज ज्ञान से समझ जाते हैं कि यह क्यों काम करता है? ऐसा लगता है कि इस प्रमेय की एक सहज समझ ऐसी चीज है जिसे लागू सीखने वाली भीड़ को दृढ़ता से इच्छा करनी चाहिए, अगर वे एएनएन के लिए बेहतर टोपोलॉजी और लर्निंग एल्गोरिदम तैयार करना चाहते हैं।
मैट मुनसन

7
व्याकरण, वर्तनी, विराम चिह्न और पूंजीकरण के लिए संपादित।
जेफ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.