साइबेंको का परिणाम काफी सहज है, जैसा कि मैं नीचे बता रहा हूं; चीजों को और अधिक मुश्किल बना देता है वह दोनों को सामान्यता के लिए लक्ष्य कर रहा था, साथ ही साथ छिपी हुई परतों की न्यूनतम संख्या भी। कोलमोगोरोव का परिणाम (vzn द्वारा उल्लिखित) वास्तव में एक मजबूत गारंटी प्राप्त करता है, लेकिन मशीन लर्निंग के लिए कुछ हद तक कम प्रासंगिक है (विशेष रूप से, यह एक मानक तंत्रिका जाल का निर्माण नहीं करता है, क्योंकि नोड्स विषम हैं); बदले में यह परिणाम कठिन है क्योंकि सतह पर यह केवल 3 पृष्ठ है जो कुछ सीमाओं और निरंतर कार्यों को रिकॉर्ड कर रहा है, लेकिन वास्तव में यह फ्रैक्टल्स के एक सेट का निर्माण कर रहा है। जबकि साइबेंको का परिणाम असामान्य और बहुत ही रोचक है, क्योंकि वह सटीक तकनीकों का उपयोग करता है, उस स्वाद के परिणाम मशीन सीखने में बहुत व्यापक रूप से उपयोग किए जाते हैं (और मैं आपको दूसरों को इंगित कर सकता हूं)।
यहाँ एक उच्च-स्तरीय सारांश है कि साइबेंको का परिणाम क्यों होना चाहिए।
- एक कॉम्पैक्ट सेट पर एक सतत फ़ंक्शन को एक टुकड़े-टुकड़े निरंतर फ़ंक्शन द्वारा अनुमानित किया जा सकता है।
- एक टुकड़ा करने योग्य निरंतर फ़ंक्शन को निम्न के रूप में एक तंत्रिका जाल के रूप में दर्शाया जा सकता है। प्रत्येक क्षेत्र के लिए जहां फ़ंक्शन स्थिर है, उस क्षेत्र के लिए संकेतक फ़ंक्शन के रूप में एक तंत्रिका जाल का उपयोग करें। फिर एक एकल नोड के साथ एक अंतिम परत का निर्माण करें, जिसका इनपुट रैखिक संयोजन सभी संकेतकों का योग है, मूल टुकड़ों के निरंतर फ़ंक्शन में संबंधित क्षेत्र के निरंतर मूल्य के बराबर वजन के साथ।
उपरोक्त पहले बिंदु के बारे में, यह कथन के रूप में लिया जा सकता है "एक कॉम्पैक्ट सेट पर एक सतत कार्य समान रूप से निरंतर है"। क्या यह हमारे लिए इसका मतलब है आप पर अपने निरंतर समारोह ले सकता है , और कुछ लक्ष्य त्रुटि ε > 0 है, तो आप कर सकते हैं ग्रिड [ 0 , 1 ] घ पैमाने पर τ > 0 (मोटे तौर पर साथ समाप्त ( 1 / τ ) घ subcubes) तो एक समारोह है जो प्रत्येक subcube पर स्थिर है के भीतर है कि ε लक्ष्य समारोह का।[0,1]dϵ>0[0,1]dτ>0(1/τ)dϵ
अब, एक तंत्रिका जाल ठीक एक संकेतक का प्रतिनिधित्व नहीं कर सकता है, लेकिन आप बहुत करीब हो सकते हैं। मान लीजिए कि "ट्रांसफर फ़ंक्शन" एक सिग्मोइड है। (ट्रांसफर फ़ंक्शन निरंतर फ़ंक्शन है जो आप तंत्रिका जाल के मूल्य को प्राप्त करने के लिए इनपुट के एक रैखिक संयोजन पर लागू करते हैं।) फिर भार को बड़ा करके, आप अधिक इनपुट के लिए 0 के करीब या 1 के करीब कुछ आउटपुट करते हैं। यह साइबेंको के विकास के अनुरूप है: ध्यान दें कि उसे सीमा में 0 या 1 के बराबर कार्य शामिल हैं: सीमा की परिभाषा से, आपको ठीक वही मिलता है जो मैं कह रहा हूं, जिसका अर्थ है कि आप मनमाने ढंग से 0 या 1 के करीब चीजों को धक्का देते हैं।
(मैं अंतिम परत में हस्तांतरण समारोह को नजरअंदाज कर दिया है, अगर यह वहाँ है, और यह निरंतर है, तो हम कुछ भी मानचित्रण फिट कर सकते हैं [0,1] स्थानांतरण के अनुसार उस स्थिरांक की उलटी छवि में कुछ के साथ निरंतर भार को बदलकर समारोह।)
ध्यान दें कि ऊपर से कुछ परतें लग सकती हैं: कहते हैं, 2 क्यूब्स पर संकेतक बनाने के लिए, और फिर एक अंतिम आउटपुट परत। साइबेंको सामान्यता के दो बिंदुओं के लिए कोशिश कर रहा था: छिपी हुई परतों की न्यूनतम संख्या, और हस्तांतरण समारोह की पसंद में लचीलापन। मैं पहले ही बता चुका हूं कि वह ट्रांसफर फंक्शन में लचीलेपन के साथ कैसे काम करता है।
परतों की न्यूनतम संख्या प्राप्त करने के लिए, वह ऊपर के निर्माण से बचता है, और इसके बजाय एक विरोधाभास विकसित करने के लिए कार्यात्मक विश्लेषण का उपयोग करता है। यहाँ तर्क का एक स्केच है।
अंतिम नोड इसके नीचे की परत के तत्वों के एक रैखिक संयोजन की गणना करता है, और इसके लिए एक स्थानांतरण फ़ंक्शन लागू करता है। यह रैखिक संयोजन कार्यों का एक रैखिक संयोजन है, और इस तरह, स्वयं एक फ़ंक्शन है, फ़ंक्शन के कुछ सबसेट के भीतर एक फ़ंक्शन, छिपी हुई परत में संभव नोड्स द्वारा फैलाया जाता है।
कार्यों का एक उप-समूह एक साधारण परिमित-आयामी उप-स्थान की तरह है, मुख्य अंतर के साथ कि यह संभवतः एक बंद सेट नहीं है; यही कारण है कि साइबरबैंक के तर्क सभी उस उप-केंद्र को बंद कर देते हैं। हम यह साबित करने की कोशिश कर रहे हैं कि इस बंद में सभी निरंतर कार्य शामिल हैं; इसका मतलब है कि हम मनमाने ढंग से सभी निरंतर कार्यों के करीब हैं।
यदि फ़ंक्शन स्थान सरल था (एक हिल्बर्ट स्थान), तो हम निम्नानुसार बहस कर सकते हैं। कुछ लक्ष्य निरंतर फ़ंक्शन को चुनें जो कि विरोधाभासी रूप से उप-झूठ में नहीं होने वाला है, और इसे उप-वर्ग के ओर्थोगोनल पूरक पर प्रोजेक्ट करता है। यह अवशिष्ट नॉनज़रो होना चाहिए। लेकिन जब से हमारा उप-स्थान ऊपर के छोटे क्यूब्स जैसी चीजों का प्रतिनिधित्व कर सकता है, हम इस अवशिष्ट के कुछ क्षेत्र को पा सकते हैं, इसके लिए थोड़ा क्यूब फिट कर सकते हैं (ऊपर के रूप में), और इस तरह हमारे लक्ष्य फ़ंक्शन के करीब चले जाते हैं। यह एक विरोधाभास है क्योंकि अनुमान न्यूनतम तत्व चुनते हैं। (ध्यान दें, मैं यहां कुछ छोड़ रहा हूं: साइबेंको का तर्क किसी छोटे से क्यूब का निर्माण नहीं करता है, वह इसे सामान्यता में भी संभालता है; यह वह जगह है जहां वह रिस्ज़ प्रतिनिधित्व प्रमेय के एक रूप का उपयोग करता है, और स्थानांतरण कार्यों के गुण (यदि मुझे याद है) सही ढंग से, इस चरण के लिए एक अलग लेम्मा है,
हम हिल्बर्ट स्पेस में नहीं हैं, लेकिन हम ऊपर दिए गए प्रोजेक्शन स्टेप को बदलने के लिए हैन-बानाच प्रमेय का उपयोग कर सकते हैं (ध्यान दें, यह साबित करते हुए कि हैन-बानाच ऑक्सोम का उपयोग करता है)।
अब मैं कोलमोगोरोव के परिणाम के बारे में कुछ बातें कहना चाहूंगा। हालांकि इस परिणाम को स्पष्ट रूप से साइबेंको की पृष्ठभूमि की तरह की आवश्यकता नहीं है, मुझे व्यक्तिगत रूप से लगता है कि यह बहुत अधिक डराने वाला है।
यहाँ क्यों है। साइबेंको का परिणाम एक सन्निकटन गारंटी है : यह नहीं कहता कि हम वास्तव में किसी भी चीज़ का प्रतिनिधित्व कर सकते हैं। दूसरी ओर, कोलमोगोरोव का परिणाम एक समानता प्रदान करता है । अधिक हास्यास्पद रूप से, यह नेट का आकार कहता है: आपको बस O(d2) नोड्स की आवश्यकता है। इस मजबूती को प्राप्त करने के लिए, निश्चित रूप से एक पकड़ है, जिसका मैंने ऊपर उल्लेख किया है: नेटवर्क विषम है, जिसके द्वारा मेरा मतलब है कि सभी हस्तांतरण कार्य समान नहीं हैं।
ठीक है, इतना सब के साथ, यह कैसे संभव काम कर सकता है ?!
चलो ऊपर हमारे क्यूब्स पर वापस जाएं। ध्यान दें कि हमें सटीक स्तर पर सेंकना था: प्रत्येक , हमें वापस जाना होगा और अधिक परिष्कृत ref > 0 को चुनना होगा । चूँकि हम संकेतक के (परिमित) रैखिक संयोजनों के साथ काम कर रहे हैं, हम कभी भी किसी चीज़ का प्रतिनिधित्व नहीं करते हैं। (यदि आप सिग्मोइड के सन्निकटन प्रभाव को शामिल करते हैं तो चीजें केवल बदतर हो जाती हैं।)ϵ>0τ>0
तो उपाय क्या है? खैर, कैसे के बारे में हम एक साथ सभी तराजू को संभालते हैं? मैं इसे नहीं बना रहा हूं: कोल्मोगोरोव का प्रमाण प्रभावी रूप से फ्रैक्टल के एक सेट के रूप में छिपी हुई परत का निर्माण कर रहा है। दूसरे तरीके से कहा, वे मूल रूप से अंतरिक्ष भरने वाले घटता हैं जो नक्शे से [ 0 , 1 ] d ; इस तरह, भले ही हमारे पास एकतरफा कार्यों का संयोजन है, हम किसी भी बहुभिन्नरूपी समारोह में फिट हो सकते हैं। वास्तव में, आप कर सकते हैं heuristically कारण यह है कि हे ( घ 2 ) एक हास्यास्पद गिनती तर्क के माध्यम से 'सही' है: हम से एक सतत समारोह लिख रहे हैं आर डी के लिए आर[0,1][0,1]dO(d2)RdRअविभाजित निरंतर कार्यों के माध्यम से, और इसलिए, सभी अंतर-समन्वित इंटरैक्शन को पकड़ने के लिए, हमें फ़ंक्शन की आवश्यकता है ...O(d2)
ध्यान दें कि केवल एक प्रकार के ट्रांसफर फ़ंक्शन का उपयोग करने के कारण साइबेंको का परिणाम, मशीन लर्निंग के लिए अधिक प्रासंगिक है। मशीन लर्निंग में इस प्रकार के सिद्धांत बहुत आम हैं (vzn ने अपने जवाब में यह सुझाव दिया है, हालांकि उन्होंने कोलमोगोरोव के परिणाम का उल्लेख किया है, जो कि कस्टम ट्रांसफ़र फ़ंक्शन के कारण कम लागू है; यह कोलारोगोरोव के परिणाम के कुछ और अधिक फैंसी संस्करणों में कमजोर है (द्वारा उत्पादित) अन्य लेखक), लेकिन वे अभी भी भग्न शामिल हैं, और कम से कम दो हस्तांतरण कार्य करते हैं)।
इन विषयों पर मेरी कुछ स्लाइड्स हैं, जिन्हें मैं पोस्ट कर सकता हूं यदि आप रुचि रखते हैं (उम्मीद है कि उपरोक्त से कम रंबी हैं, और कुछ चित्र हैं; मैंने उन्हें लिखा था इससे पहले कि मैं हन-बानाच के साथ निपुण था, हालांकि)। मुझे लगता है कि दोनों सबूत बहुत अच्छे हैं। (इसके अलावा, मेरे पास इन विषयों पर यहाँ एक और उत्तर है, लेकिन मैंने कोलमोगोरोव के परिणाम को टटोलने से पहले इसे लिखा था।)