सार्वभौमिक स्वीकृति सिद्धांत

मैंने इसे पहले एमएसई पर पोस्ट किया था , लेकिन यह सुझाव दिया गया था कि यहां पूछने के लिए बेहतर जगह हो सकती है।

सार्वभौमिक सन्निकटन प्रमेय में कहा गया है कि "मानक बहुपरत फीड-फॉरवर्ड नेटवर्क जिसमें एकल छिपी हुई परत होती है, जिसमें छिपे हुए न्यूरॉन्स की परिमित संख्या होती है, सक्रियण फ़ंक्शन पर हल्के मान्यताओं के तहत Rn के कॉम्पैक्ट सबसेट पर निरंतर कार्यों के बीच एक सार्वभौमिक सन्निकटन है।"

मैं समझता हूं कि इसका क्या अर्थ है, लेकिन संबंधित कागजात मेरे गणित की समझ के स्तर से बहुत दूर हैं कि यह क्यों सच है या कैसे एक छिपी हुई परत गैर-रैखिक कार्यों का अनुमान लगाती है।

तो, बुनियादी गणना और रैखिक बीजगणित की तुलना में थोड़ा अधिक उन्नत के संदर्भ में, एक छिपी हुई परत के साथ फ़ीड-फॉरवर्ड नेटवर्क लगभग गैर-रैखिक कार्यों को कैसे करता है? जवाब जरूरी नहीं कि पूरी तरह से ठोस हो।

approximation-algorithms ne.neural-evol na.numerical-analysis

— मैट मुनसन
स्रोत

यह भी देखें कि वैश्विक अनुकूलन में वैश्विक

— विलुप्तता

मुझे माइकल

— नील्सन

साइबेंको का परिणाम काफी सहज है, जैसा कि मैं नीचे बता रहा हूं; चीजों को और अधिक मुश्किल बना देता है वह दोनों को सामान्यता के लिए लक्ष्य कर रहा था, साथ ही साथ छिपी हुई परतों की न्यूनतम संख्या भी। कोलमोगोरोव का परिणाम (vzn द्वारा उल्लिखित) वास्तव में एक मजबूत गारंटी प्राप्त करता है, लेकिन मशीन लर्निंग के लिए कुछ हद तक कम प्रासंगिक है (विशेष रूप से, यह एक मानक तंत्रिका जाल का निर्माण नहीं करता है, क्योंकि नोड्स विषम हैं); बदले में यह परिणाम कठिन है क्योंकि सतह पर यह केवल 3 पृष्ठ है जो कुछ सीमाओं और निरंतर कार्यों को रिकॉर्ड कर रहा है, लेकिन वास्तव में यह फ्रैक्टल्स के एक सेट का निर्माण कर रहा है। जबकि साइबेंको का परिणाम असामान्य और बहुत ही रोचक है, क्योंकि वह सटीक तकनीकों का उपयोग करता है, उस स्वाद के परिणाम मशीन सीखने में बहुत व्यापक रूप से उपयोग किए जाते हैं (और मैं आपको दूसरों को इंगित कर सकता हूं)।

यहाँ एक उच्च-स्तरीय सारांश है कि साइबेंको का परिणाम क्यों होना चाहिए।

एक कॉम्पैक्ट सेट पर एक सतत फ़ंक्शन को एक टुकड़े-टुकड़े निरंतर फ़ंक्शन द्वारा अनुमानित किया जा सकता है।
एक टुकड़ा करने योग्य निरंतर फ़ंक्शन को निम्न के रूप में एक तंत्रिका जाल के रूप में दर्शाया जा सकता है। प्रत्येक क्षेत्र के लिए जहां फ़ंक्शन स्थिर है, उस क्षेत्र के लिए संकेतक फ़ंक्शन के रूप में एक तंत्रिका जाल का उपयोग करें। फिर एक एकल नोड के साथ एक अंतिम परत का निर्माण करें, जिसका इनपुट रैखिक संयोजन सभी संकेतकों का योग है, मूल टुकड़ों के निरंतर फ़ंक्शन में संबंधित क्षेत्र के निरंतर मूल्य के बराबर वजन के साथ।

उपरोक्त पहले बिंदु के बारे में, यह कथन के रूप में लिया जा सकता है "एक कॉम्पैक्ट सेट पर एक सतत कार्य समान रूप से निरंतर है"। क्या यह हमारे लिए इसका मतलब है आप पर अपने निरंतर समारोह ले सकता है , और कुछ लक्ष्य त्रुटि है, तो आप कर सकते हैं ग्रिड पैमाने पर (मोटे तौर पर साथ समाप्त subcubes) तो एक समारोह है जो प्रत्येक subcube पर स्थिर है के भीतर है कि लक्ष्य समारोह का। $[0,1]^d$ $\epsilon>0$ $[0,1]^d$ $\tau>0$ $(1/\tau)^d$ $\epsilon$

अब, एक तंत्रिका जाल ठीक एक संकेतक का प्रतिनिधित्व नहीं कर सकता है, लेकिन आप बहुत करीब हो सकते हैं। मान लीजिए कि "ट्रांसफर फ़ंक्शन" एक सिग्मोइड है। (ट्रांसफर फ़ंक्शन निरंतर फ़ंक्शन है जो आप तंत्रिका जाल के मूल्य को प्राप्त करने के लिए इनपुट के एक रैखिक संयोजन पर लागू करते हैं।) फिर भार को बड़ा करके, आप अधिक इनपुट के लिए 0 के करीब या 1 के करीब कुछ आउटपुट करते हैं। यह साइबेंको के विकास के अनुरूप है: ध्यान दें कि उसे सीमा में 0 या 1 के बराबर कार्य शामिल हैं: सीमा की परिभाषा से, आपको ठीक वही मिलता है जो मैं कह रहा हूं, जिसका अर्थ है कि आप मनमाने ढंग से 0 या 1 के करीब चीजों को धक्का देते हैं।

(मैं अंतिम परत में हस्तांतरण समारोह को नजरअंदाज कर दिया है, अगर यह वहाँ है, और यह निरंतर है, तो हम कुछ भी मानचित्रण फिट कर सकते हैं $[0,1]$ स्थानांतरण के अनुसार उस स्थिरांक की उलटी छवि में कुछ के साथ निरंतर भार को बदलकर समारोह।)

ध्यान दें कि ऊपर से कुछ परतें लग सकती हैं: कहते हैं, 2 क्यूब्स पर संकेतक बनाने के लिए, और फिर एक अंतिम आउटपुट परत। साइबेंको सामान्यता के दो बिंदुओं के लिए कोशिश कर रहा था: छिपी हुई परतों की न्यूनतम संख्या, और हस्तांतरण समारोह की पसंद में लचीलापन। मैं पहले ही बता चुका हूं कि वह ट्रांसफर फंक्शन में लचीलेपन के साथ कैसे काम करता है।

परतों की न्यूनतम संख्या प्राप्त करने के लिए, वह ऊपर के निर्माण से बचता है, और इसके बजाय एक विरोधाभास विकसित करने के लिए कार्यात्मक विश्लेषण का उपयोग करता है। यहाँ तर्क का एक स्केच है।

अंतिम नोड इसके नीचे की परत के तत्वों के एक रैखिक संयोजन की गणना करता है, और इसके लिए एक स्थानांतरण फ़ंक्शन लागू करता है। यह रैखिक संयोजन कार्यों का एक रैखिक संयोजन है, और इस तरह, स्वयं एक फ़ंक्शन है, फ़ंक्शन के कुछ सबसेट के भीतर एक फ़ंक्शन, छिपी हुई परत में संभव नोड्स द्वारा फैलाया जाता है।
कार्यों का एक उप-समूह एक साधारण परिमित-आयामी उप-स्थान की तरह है, मुख्य अंतर के साथ कि यह संभवतः एक बंद सेट नहीं है; यही कारण है कि साइबरबैंक के तर्क सभी उस उप-केंद्र को बंद कर देते हैं। हम यह साबित करने की कोशिश कर रहे हैं कि इस बंद में सभी निरंतर कार्य शामिल हैं; इसका मतलब है कि हम मनमाने ढंग से सभी निरंतर कार्यों के करीब हैं।
यदि फ़ंक्शन स्थान सरल था (एक हिल्बर्ट स्थान), तो हम निम्नानुसार बहस कर सकते हैं। कुछ लक्ष्य निरंतर फ़ंक्शन को चुनें जो कि विरोधाभासी रूप से उप-झूठ में नहीं होने वाला है, और इसे उप-वर्ग के ओर्थोगोनल पूरक पर प्रोजेक्ट करता है। यह अवशिष्ट नॉनज़रो होना चाहिए। लेकिन जब से हमारा उप-स्थान ऊपर के छोटे क्यूब्स जैसी चीजों का प्रतिनिधित्व कर सकता है, हम इस अवशिष्ट के कुछ क्षेत्र को पा सकते हैं, इसके लिए थोड़ा क्यूब फिट कर सकते हैं (ऊपर के रूप में), और इस तरह हमारे लक्ष्य फ़ंक्शन के करीब चले जाते हैं। यह एक विरोधाभास है क्योंकि अनुमान न्यूनतम तत्व चुनते हैं। (ध्यान दें, मैं यहां कुछ छोड़ रहा हूं: साइबेंको का तर्क किसी छोटे से क्यूब का निर्माण नहीं करता है, वह इसे सामान्यता में भी संभालता है; यह वह जगह है जहां वह रिस्ज़ प्रतिनिधित्व प्रमेय के एक रूप का उपयोग करता है, और स्थानांतरण कार्यों के गुण (यदि मुझे याद है) सही ढंग से, इस चरण के लिए एक अलग लेम्मा है,
हम हिल्बर्ट स्पेस में नहीं हैं, लेकिन हम ऊपर दिए गए प्रोजेक्शन स्टेप को बदलने के लिए हैन-बानाच प्रमेय का उपयोग कर सकते हैं (ध्यान दें, यह साबित करते हुए कि हैन-बानाच ऑक्सोम का उपयोग करता है)।

अब मैं कोलमोगोरोव के परिणाम के बारे में कुछ बातें कहना चाहूंगा। हालांकि इस परिणाम को स्पष्ट रूप से साइबेंको की पृष्ठभूमि की तरह की आवश्यकता नहीं है, मुझे व्यक्तिगत रूप से लगता है कि यह बहुत अधिक डराने वाला है।

यहाँ क्यों है। साइबेंको का परिणाम एक सन्निकटन गारंटी है : यह नहीं कहता कि हम वास्तव में किसी भी चीज़ का प्रतिनिधित्व कर सकते हैं। दूसरी ओर, कोलमोगोरोव का परिणाम एक समानता प्रदान करता है । अधिक हास्यास्पद रूप से, यह नेट का आकार कहता है: आपको बस $\mathcal O(d^2)$ नोड्स की आवश्यकता है। इस मजबूती को प्राप्त करने के लिए, निश्चित रूप से एक पकड़ है, जिसका मैंने ऊपर उल्लेख किया है: नेटवर्क विषम है, जिसके द्वारा मेरा मतलब है कि सभी हस्तांतरण कार्य समान नहीं हैं।

ठीक है, इतना सब के साथ, यह कैसे संभव काम कर सकता है ?!

चलो ऊपर हमारे क्यूब्स पर वापस जाएं। ध्यान दें कि हमें सटीक स्तर पर सेंकना था: प्रत्येक , हमें वापस जाना होगा और अधिक परिष्कृत चुनना होगा । चूँकि हम संकेतक के (परिमित) रैखिक संयोजनों के साथ काम कर रहे हैं, हम कभी भी किसी चीज़ का प्रतिनिधित्व नहीं करते हैं। (यदि आप सिग्मोइड के सन्निकटन प्रभाव को शामिल करते हैं तो चीजें केवल बदतर हो जाती हैं।) $\epsilon>0$ $\tau >0$

तो उपाय क्या है? खैर, कैसे के बारे में हम एक साथ सभी तराजू को संभालते हैं? मैं इसे नहीं बना रहा हूं: कोल्मोगोरोव का प्रमाण प्रभावी रूप से फ्रैक्टल के एक सेट के रूप में छिपी हुई परत का निर्माण कर रहा है। दूसरे तरीके से कहा, वे मूल रूप से अंतरिक्ष भरने वाले घटता हैं जो नक्शे से ; इस तरह, भले ही हमारे पास एकतरफा कार्यों का संयोजन है, हम किसी भी बहुभिन्नरूपी समारोह में फिट हो सकते हैं। वास्तव में, आप कर सकते हैं heuristically कारण यह है कि एक हास्यास्पद गिनती तर्क के माध्यम से 'सही' है: हम से एक सतत समारोह लिख रहे हैं के लिए $[0,1]$ $[0,1]^d$ $\mathcal O(d^2)$ $\mathbb{R}^d$ $\mathbb R$ अविभाजित निरंतर कार्यों के माध्यम से, और इसलिए, सभी अंतर-समन्वित इंटरैक्शन को पकड़ने के लिए, हमें फ़ंक्शन की आवश्यकता है ... $\mathcal O(d^2)$

ध्यान दें कि केवल एक प्रकार के ट्रांसफर फ़ंक्शन का उपयोग करने के कारण साइबेंको का परिणाम, मशीन लर्निंग के लिए अधिक प्रासंगिक है। मशीन लर्निंग में इस प्रकार के सिद्धांत बहुत आम हैं (vzn ने अपने जवाब में यह सुझाव दिया है, हालांकि उन्होंने कोलमोगोरोव के परिणाम का उल्लेख किया है, जो कि कस्टम ट्रांसफ़र फ़ंक्शन के कारण कम लागू है; यह कोलारोगोरोव के परिणाम के कुछ और अधिक फैंसी संस्करणों में कमजोर है (द्वारा उत्पादित) अन्य लेखक), लेकिन वे अभी भी भग्न शामिल हैं, और कम से कम दो हस्तांतरण कार्य करते हैं)।

इन विषयों पर मेरी कुछ स्लाइड्स हैं, जिन्हें मैं पोस्ट कर सकता हूं यदि आप रुचि रखते हैं (उम्मीद है कि उपरोक्त से कम रंबी हैं, और कुछ चित्र हैं; मैंने उन्हें लिखा था इससे पहले कि मैं हन-बानाच के साथ निपुण था, हालांकि)। मुझे लगता है कि दोनों सबूत बहुत अच्छे हैं। (इसके अलावा, मेरे पास इन विषयों पर यहाँ एक और उत्तर है, लेकिन मैंने कोलमोगोरोव के परिणाम को टटोलने से पहले इसे लिखा था।)

— Matus
स्रोत

A

$A$

B

$B$

ϕ

$\phi$

\forall f \in A : ϕ (f) \leq 1

$\forall f \in A: \phi(f) \leq 1$

\forall g \in B : ϕ (g) > 1

$\forall g \in B: \phi(g) > 1$

— साशो निकोलोव

S

$S$

f \notin S

$f\not\in S$

L

$L$

L (g) = 0

$L(g) = 0$

g \in S

$g \in S$

L (f) = ‖ f ‖

$L(f) = \|f\|$

L (f)

$L(f)$ कुछ हस्ताक्षरित माप के संबंध में एक अभिन्न के रूप में। लेकिन यह ट्रांसफर फ़ंक्शंस पर साइबेंको की शर्तों (अगली टिप्पणी में जारी) के कारण सबूत को समाप्त करता है।

— Matus

@SashoNikolov, Cybenko की शर्त यह है कि किसी भी हस्ताक्षरित उपाय को बिल्कुल शून्य नहीं दिया गया है, कुछ शमन कार्य मौजूद है ताकि उस उपाय के साथ उस एफाइन समारोह से बना स्थानांतरण फ़ंक्शन का एकीकरण शून्य के बराबर न हो। उसके बाद उस लेम्मा को सिद्ध करना होता है जो सामान्यीकृत सिग्मोइड्स (जैसा कि मैंने ऊपर दिया है: 0 और 1 पर सीमाएं बाईं और दाईं ओर हैं) बिल को फिट करते हैं। (अगली टिप्पणी में जारी रखा।)

— मैट

@ सशाओनिकोलोव ऊपर मैंने कहा "अवशिष्ट के साथ एक घन को गिराना"। यह हमारे काम को थोड़ा आसान बना देगा, क्योंकि हस्ताक्षरित उपाय बिल्कुल शून्य नहीं है, हम बस कुछ छोटे टुकड़े को बाहर निकालेंगे और वहां एक संकेतक लगा देंगे। उनके मामले में, उन्हें थोड़ा काम करना पड़ता है, लेकिन इसी तरह यह चक्कर समारोह के साथ सिग्मॉइड के चारों ओर घूमने के लिए उबलता है ताकि यह कुछ आसान क्षेत्र पाता है, इस प्रकार नॉनज़ेरो अभिन्न हो रहा है, हैन-बानाच (जो हमारे उप-स्थान पर शून्य है) के विपरीत है ; हिल्बर्ट अर्थ में, हम अपने अवशिष्ट, एक विरोधाभास को पी गए।

— Matus

वाह, यह एक बहुत अच्छा जवाब है। स्वाभाविक रूप से, मेरे कुछ सवाल हैं अगर आपको उनका जवाब देने में कोई आपत्ति नहीं है। साइबेंको का परिणाम (जैसा कि आप कहते हैं) अनुप्रयोगों के लिए सबसे उपयोगी लगता है, लेकिन मैं कार्यों के सबसेट के साथ निपटने में थोड़ा खो जाता हूं। हम संभावित नोड्स के रैखिक संयोजनों के उप-समूह के ऑर्थोगोनल पूरक पर एक मनमाने ढंग से निरंतर कार्य कैसे करते हैं। उस मामले के लिए, हम उस उप-समूह की रूढ़िवादी प्रशंसा की अवधारणा कैसे करते हैं? क्या कार्य अंतरिक्ष में अधिक निकटता से एक दूसरे के करीब हैं? (जारी)।

— मैट मुनसन

एक उन्नत परिणाम है, मशीन सीखने की कुंजी, जिसे कोलमोगोरोव की प्रमेय के रूप में जाना जाता है [1]; मैंने कभी नहीं देखा कि यह काम क्यों करता है। यह विभिन्न संस्कृतियों के साथ करना पड़ सकता है जो इसे दृष्टिकोण करते हैं। लागू सीखने की भीड़ कोलमोगोरोव की प्रमेय को एक अस्तित्व प्रमेय के रूप में मानती है जो केवल इंगित करती है कि एनएन मौजूद हो सकता है, इसलिए कम से कम संरचना अत्यधिक सीमित नहीं है, लेकिन प्रमेय इन एनएन को गारंटी नहीं दे सकता है। गणितज्ञ प्रमेय के निम्न-स्तरीय अनुप्रयोगों से इतने चिंतित नहीं हैं।

प्रमेय को ऐतिहासिक रूप से Perceptrons (Minsky / Papert) से एक आलोचना का मुकाबला करने के लिए बहुपरत एनएनएस के निहित परिष्कार का आह्वान / बचाव करने के लिए इस्तेमाल किया गया था कि बुनियादी कार्य [अर्थात गैर-रेखीय] थे जो वे सीख नहीं सकते थे।

सैद्धांतिक कंप्यूटर वैज्ञानिक एनएन को "सन्निकटन" के रूप में नहीं मानना पसंद करते हैं , क्योंकि इस शब्द का एक विशेष / अलग अर्थ है। टुकड़ावार रैखिक प्रक्षेप के साथ शायद कुछ खुरदरा सादृश्य है , लेकिन फिर से, मैंने देखा कि इसे बाहर रखा गया था।

[१] कोलमोगोरोव, एएन (१ ९ ५og)। एक चर और जोड़ के निरंतर कार्यों के सुपरपोजिशन द्वारा कई चर के निरंतर कार्यों का प्रतिनिधित्व करने पर। डॉकलाडी एकेडमी Nauk SSSR, 144, 679-681; अमेरिकन मैथमैटिकल सोसाइटी ट्रांसलेशन, 28, 55-59 [1963]

[२] २.३ निरंतर कार्यों के लिए फीडफॉर्वर्ड न्यूरल नेटवर्क्स की स्वीकृति क्षमताएं

[३] कोलमोगोरोव की प्रमेय और बहुपरत तंत्रिका नेटवर्क कूर्कोवा

— vzn
स्रोत

यह भी देखें मशीन लर्निंग तकनीक सन्निकटन एल्गोरिदम हैं? , सांख्यिकी.से

— vzn

"इस उन्नत परिणाम [...] ने एक सहज स्केच नहीं देखा है कि यह क्यों काम करता है।" क्या इस तरह का स्केच उन्नत गणित की भीड़ में किसी के लिए काफी उपक्रम होगा? क्या उन्नत गणित के लोग भी सहज ज्ञान से समझ जाते हैं कि यह क्यों काम करता है? ऐसा लगता है कि इस प्रमेय की एक सहज समझ ऐसी चीज है जिसे लागू सीखने वाली भीड़ को दृढ़ता से इच्छा करनी चाहिए, अगर वे एएनएन के लिए बेहतर टोपोलॉजी और लर्निंग एल्गोरिदम तैयार करना चाहते हैं।

— मैट मुनसन

व्याकरण, वर्तनी, विराम चिह्न और पूंजीकरण के लिए संपादित।

— जेफ

सार्वभौमिक स्वीकृति सिद्धांत - तंत्रिका नेटवर्क