क्या बैकप्रॉपैगैशन के बिना तंत्रिका नेटवर्क को प्रशिक्षित करना संभव है?


94

कई तंत्रिका नेटवर्क किताबें और ट्यूटोरियल बैकप्रॉपैगैशन एल्गोरिथ्म पर बहुत समय बिताते हैं, जो अनिवार्य रूप से ढाल की गणना करने के लिए एक उपकरण है।

मान लें कि हम ~ 10K पैरामीटर / वेट के साथ एक मॉडल बना रहे हैं। क्या कुछ ढाल मुक्त अनुकूलन एल्गोरिदम का उपयोग करके अनुकूलन को चलाना संभव है?

मुझे लगता है कि संख्यात्मक ढाल की गणना बहुत धीमी होगी, लेकिन अन्य तरीके जैसे कि नेल्डर-मीड, सिमुलेटेड एनालिंग या जेनेटिक एल्गोरिथम के बारे में कैसे?

सभी एल्गोरिदम स्थानीय मिनीमाता से पीड़ित होंगे, धीरे-धीरे क्यों प्रभावित हुए?



6
@FranckDernoncourt मैंने अन्य प्रश्न की व्याख्या की " तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए वैश्विक अनुकूलन तकनीकों का उपयोग क्यों नहीं किया ?", जबकि यह एक और " व्युत्पन्न-मुक्त ऑप्टिमर्स का उपयोग क्यों नहीं किया जाता है ..."।
जियोमैट

6
3 उत्कीर्ण उत्तरों के साथ, यह मेरे लिए जवाबदेह होने के लिए बहुत व्यापक नहीं है।
गंग

5
हाँ, आपको नेल्डर-मीड के बारे में ज्यादा चिंता करने की ज़रूरत नहीं है, क्योंकि यह कहीं भी उपयोगी हो जाता है, तो आप भाग्यशाली होंगे।
मार्क एल। स्टोन

1
BTW, अल्ट्रा एल- BFGS, कि एक चक्कर दे। यह अच्छा हो सकता है, लेकिन यह इतना अस्पष्ट है कि शायद किसी ने भी इसे तंत्रिका नेटवर्क पर आजमाया नहीं है। समीकरण 2.9 पी पर देखें। 12 (आपको सूत्र को समझने के लिए पूर्ववर्ती कुछ पृष्ठों को पढ़ना होगा, हालाँकि) maths.dundee.ac.uk/nasc/na-reports/NA149_RF.pdf (जिसे पेपर में अल्ट्रा BFGS नहीं कहा जाता है ) को पढ़ने की जरूरत है। अल्ट्रा बीएफजीएस के बजाय अल्ट्रा एल-बीएफजीएस होने के लिए "एल" (सीमित मेमोरी) संस्करण में प्राप्त करें। नॉन-एल संस्करण को पेपर में रखा गया है। अल्ट्रा बीएफजीएस मूल रूप से एक स्मोक्ड-अप ("हॉट रॉड") बीएफजीएस है - तेज हो सकता है, लेकिन थोड़ा कमजोर हो सकता है।
मार्क एल। स्टोन

जवाबों:


80

आपके द्वारा उल्लेखित पहले दो एल्गोरिदम (Nelder-Mead and Simulated Annealing) को आम तौर पर ऑप्टिमाइज़ेशन सर्कल में बहुत अधिक अप्रचलित माना जाता है, क्योंकि बहुत बेहतर विकल्प हैं जो अधिक विश्वसनीय और कम खर्चीली दोनों हैं। जेनेटिक एल्गोरिदम एक विस्तृत श्रृंखला को कवर करता है, और इनमें से कुछ उचित हो सकते हैं।

हालांकि, व्युत्पन्न-मुक्त अनुकूलन (DFO) एल्गोरिदम के व्यापक वर्ग में, कई ऐसे हैं जो इन "क्लासिक्स" से काफी बेहतर हैं, क्योंकि यह हाल के दशकों में अनुसंधान का एक सक्रिय क्षेत्र रहा है। तो, क्या इनमें से कुछ नए दृष्टिकोण गहरी शिक्षा के लिए उचित हो सकते हैं?

कला की स्थिति की तुलना करने वाला एक अपेक्षाकृत हालिया पेपर निम्नलिखित है:

रियोस, एलएम, और साहिनिडिस, एनवी (2013) व्युत्पन्न-मुक्त अनुकूलन: एल्गोरिदम की समीक्षा और सॉफ्टवेयर कार्यान्वयन की तुलना। ग्लोबल ऑप्टिमाइज़ेशन के जर्नल।

यह एक अच्छा पेपर है जिसमें हाल की तकनीकों में कई दिलचस्प अंतर्दृष्टि हैं। उदाहरण के लिए, परिणाम स्पष्ट रूप से दिखाते हैं कि क्रमिक द्विघात प्रोग्रामिंग (एसक्यूपी) के विभिन्न रूपों का उपयोग करते हुए सर्वश्रेष्ठ स्थानीय आशावादी सभी "मॉडल-आधारित" हैं ।

हालांकि, जैसा कि उनके सार में उल्लेख किया गया है "हम पाते हैं कि अच्छे समाधान प्राप्त करने के लिए इन सभी सॉल्वरों की क्षमता बढ़ती समस्या आकार के साथ कम हो जाती है।" संख्याओं का एक विचार देने के लिए, सभी समस्याओं के लिए सॉल्वरों को 2500 फ़ंक्शन मूल्यांकन का बजट दिया गया था, और समस्या का आकार अनुकूलन करने के लिए अधिकतम ~ 300 पैरामीटर थे। O [10] मापदंडों के अलावा, इनमें से बहुत से ऑप्टिमाइज़र ने बहुत अच्छा प्रदर्शन किया, और यहां तक ​​कि सबसे अच्छे लोगों ने प्रदर्शन में ध्यान देने योग्य क्षय दिखाया क्योंकि समस्या का आकार बढ़ा हुआ था।

बहुत उच्च आयामी समस्याओं के लिए, DFO एल्गोरिदम सिर्फ व्युत्पन्न आधारित लोगों के साथ प्रतिस्पर्धी नहीं हैं। कुछ परिप्रेक्ष्य देने के लिए, पीडीई (आंशिक अंतर समीकरण) आधारित अनुकूलन एक और क्षेत्र है जिसमें बहुत अधिक आयामी समस्याएं हैं (उदाहरण के लिए एक बड़े 3 डी परिमित तत्व ग्रिड के प्रत्येक सेल के लिए कई पैरामीटर)। इस दायरे में, " सहायक विधि " सबसे अधिक उपयोग की जाने वाली विधियों में से एक है। यह एक फॉरवर्ड-डिसेंट ऑप्टिमाइज़र भी है जो एक फॉरवर्ड मॉडल कोड के स्वचालित भेदभाव पर आधारित है।

एक उच्च-आयामी DFO ऑप्टिमाइज़र का निकटतम शायद एनसेंबल कलमन फ़िल्टर है , जिसका उपयोग जटिल पीडीई सिमुलेशन, जैसे मौसम के मॉडल में डेटा को आत्मसात करने के लिए किया जाता है। दिलचस्प है, यह अनिवार्य रूप से एक एसक्यूपी दृष्टिकोण है, लेकिन बायेसियन-गॉसियन व्याख्या के साथ (इसलिए द्विघात मॉडल सकारात्मक निश्चित है, अर्थात कोई काठी बिंदु नहीं)। लेकिन मुझे नहीं लगता है कि इन अनुप्रयोगों में मापदंडों या टिप्पणियों की संख्या गहरी सीखने में देखी गई तुलना के बराबर है।

साइड नोट (स्थानीय मिनीमा): छोटे से मैंने गहरे सीखने पर पढ़ा है, मुझे लगता है कि आम सहमति यह है कि यह स्थानीय मिनीमा के बजाय काठी अंक है , जो उच्च आयामी एनएन-पैरामीटर रिक्त स्थान के लिए सबसे अधिक समस्याग्रस्त हैं।

उदाहरण के लिए, नेचर में हाल की समीक्षा कहती है "हाल के सैद्धांतिक और अनुभवजन्य परिणाम दृढ़ता से सुझाव देते हैं कि स्थानीय मिनीमाता सामान्य रूप से गंभीर मुद्दा नहीं है। इसके बजाय, परिदृश्य एक बड़े पैमाने पर बड़ी संख्या में काठी बिंदुओं के साथ पैक किया जाता है जहां ढाल शून्य है, और। सतह ज्यादातर आयामों में घटती है और शेष में घटती है। "

एक संबंधित चिंता स्थानीय बनाम वैश्विक अनुकूलन के बारे में है (उदाहरण के लिए यह प्रश्न टिप्पणियों में बताया गया है)। जबकि मैं गहरी सीख नहीं देता, मेरे अनुभव में निश्चित रूप से एक वैध चिंता है। मेरी राय में, वैश्विक अनुकूलन विधियां इंजीनियरिंग डिजाइन समस्याओं के लिए सबसे अनुकूल हैं जो दृढ़ता से "प्राकृतिक" डेटा पर निर्भर नहीं करती हैं। डेटा आत्मसात समस्याओं में, किसी भी मौजूदा वैश्विक न्यूनतम आसानी से नए डेटा के अलावा पर बदल सकता है (चेतावनी: मेरा अनुभव है जियोसाइंस समस्याओं, जहां डाटा आम तौर पर मॉडल क्षमता के लिए "विरल" रिश्तेदार है में केंद्रित)।

एक दिलचस्प परिप्रेक्ष्य शायद है

O. Bousquet & L. Bottou (2008) बड़े पैमाने पर सीखने का व्यापार। NIPS।

जो व्यवहार में अनुमानित अनुकूलन कब और क्यों पर अर्ध-सैद्धांतिक तर्क प्रदान करता है।

अंतिम नोट (मेटा-ऑप्टिमाइज़ेशन): जबकि धीरे- धीरे आधारित तकनीकें प्रशिक्षण नेटवर्क के लिए प्रभावी हो सकती हैं, संबद्ध मेटा-ऑप्टिमाइज़ेशन कार्यों में DFO के लिए एक भूमिका हो सकती है।

एक उदाहरण हाइपर-पैरामीटर ट्यूनिंग होगा। (दिलचस्प बात यह है कि Rios & Sahinidis के सफल मॉडल-आधारित DFO ऑप्टिमाइज़र को आवश्यक रूप से डिज़ाइन-ऑफ़-प्रयोगों / प्रतिक्रिया-सतह की समस्याओं के अनुक्रम को हल करने के रूप में देखा जा सकता है।)

लेयर्स के सेट-अप (उदाहरण संख्या, प्रकार, अनुक्रम, नोड्स / लेयर) के संदर्भ में एक और उदाहरण आर्किटेक्चर डिज़ाइन करना हो सकता है। इस असतत-अनुकूलन संदर्भ में आनुवंशिक-शैली के एल्गोरिदम अधिक उपयुक्त हो सकते हैं। ध्यान दें कि यहाँ मैं उस मामले के बारे में सोच रहा हूँ जहाँ कनेक्टिविटी का निर्धारण इन कारकों द्वारा किया जाता है (जैसे कि पूरी तरह से जुड़ी हुई परतें, दृढ़ परतें, आदि)। दूसरे शब्दों में कनेक्टिविटी स्पष्ट रूप से मेटा-अनुकूलित । (कनेक्शन की शक्ति प्रशिक्षण के अंतर्गत आती है, जहाँ उदाहरण के लिए नियमितीकरण और / या ReLU सक्रियणों द्वारा बढ़ावा दिया जा सकता है ... इन विकल्पों को मेटा-अनुकूलित किया जा सकता है।O[N2]notL1


1
आपके द्वारा उद्धृत 'समीक्षा' तंत्रिका जाल के प्रमुख समर्थकों से है; मैं स्थानीय मिनीमा के बारे में दावे पर सवाल उठाता हूं - एनएन की एक प्रसिद्ध सैद्धांतिक आलोचना ठीक है कि किसी भी जटिल मॉडल को ढाल वंश द्वारा अनुकूलित नहीं किया जा सकता है क्योंकि यह स्थानीय मिनीमा में फंस जाएगा। यह स्पष्ट नहीं है कि क्या यह केवल nns की सफलता है जिसे पृष्ठभूमि के साथ हल किया जा सकता है और आप विफलताओं के बारे में नहीं सुनते हैं।
seanv507

2
@ GeoMatt22 गर्भनिरोधक विचलन एक विशेष वर्ग के मॉडल के ढाल के लिए एक विशेष सन्निकटन है, जो आरबीएम के तहत आता है। यह ध्यान दिया जाना चाहिए कि आरबीएम संभाव्य मॉडल हैं जो एक निश्चित प्रकार के वितरण का अर्थ है, जिसके लिए अधिकतम संभावना अनुमान की ढाल सहज है। तंत्रिका नेटवर्क कम्प्यूटेशनल मॉडल हैं, जिनका उपयोग किसी भी संभावित प्रारंभिक बिंदु के बिना किया जा सकता है, उदाहरण के लिए, एक काज हानि के अनुकूलन के माध्यम से। लंबी कहानी छोटी, तंत्रिका नेटवर्क का अनुकूलन करने के लिए सीडी एक सामान्य मतलब नहीं है।
बायरज

2
@ seanv507 हालांकि प्रमुख प्रस्तावकों द्वारा दावा किया गया है, मशीन लर्निंग के शीर्ष सम्मेलनों से सहकर्मी समीक्षा लेख हैं जो उन दावों का कठोरता से मूल्यांकन करते हैं, जैसे arxiv.org/abs/1406.2572 । अब तक, यह दावा व्यापक रूप से व्यापक एमएल समुदाय में स्वीकार किया जाता है, ज्यादातर अपने बेहतर सैद्धांतिक तर्क और अनुभवजन्य साक्ष्य के कारण। मुझे नहीं लगता कि एक विज्ञापन होमिनीम तर्क यहां पर्याप्त है।
बायरज

1
मैं मानता हूं कि डीएल सिद्धांत का अभाव है। फिर भी आपको यह स्वीकार करना होगा कि इस तरह के लेख आगे बढ़ रहे हैं। यदि आपको लगता है कि लेख गलत परिणाम बता रहा है और निष्कर्ष (जैसे कि "स्थानीय मिनीमा को काठी अंक की तुलना में एक समस्या कम है") अमान्य हैं, तो आपको एक और विज्ञापन होमिनम हमले के बारे में बताने से बेहतर करना होगा, इस बार इसका उद्देश्य है एक पूरे के रूप में एमएल समुदाय।
बायरज

1
हाल के काम से पता चलता है कि यादृच्छिक आरंभ के साथ, ढाल वंश एक स्थानीय न्यूनतम (एक काठी बिंदु के बजाय) में परिवर्तित हो जाता है। यहां पेपर: arxiv.org/abs/1602.04915 और ब्लॉग पोस्ट यहाँ: offconvex.org/2016/03/24/saddles-again दूसरी ओर, वहाँ एक (कम) हाल ही में परिकल्पना है कि बड़े तंत्रिका नेटवर्क में, स्थानीय न्यूनतम कर रहे हैं वैश्विक के रूप में के रूप में अच्छा के बारे में, यहाँ चर्चा की: आंकड़े ।stackexchange.com
questions

12

आपके द्वारा उपयोग किए जा सकने वाले सभी प्रकार के स्थानीय खोज एल्गोरिदम हैं, बैकप्रॉपैजेशन सामान्य रूप से अधिक जटिल कार्यों के लिए सबसे कुशल साबित हुआ है ; ऐसी परिस्थितियाँ हैं जहाँ अन्य स्थानीय खोजें बेहतर हैं।

आप एक तंत्रिका नेटवर्क पर यादृच्छिक-शुरुआत पहाड़ी चढ़ाई का उपयोग कर सकते हैं ताकि जल्दी से एक ठीक समाधान मिल सके, लेकिन यह इष्टतम इष्टतम समाधान खोजने के लिए संभव नहीं होगा।

विकिपीडिया (मुझे पता है, सबसे बड़ा स्रोत नहीं है, लेकिन फिर भी) कहता है

उन समस्याओं के लिए जहां एक निश्चित समय में एक स्वीकार्य स्थानीय इष्टतम खोजने की तुलना में सटीक वैश्विक इष्टतम कम महत्वपूर्ण है, क्रमिक वंश जैसे विकल्पों के लिए नकली annealing बेहतर हो सकता है।

स्रोत

आनुवंशिक एल्गोरिदम के रूप में, मैं तंत्रिका नेटवर्क प्रशिक्षण के लिए बैकप्रॉपैगैशन बनाम जेनेटिक एल्गोरिथम देखूंगा

बैकप्रॉप के लिए मैं जो मुख्य मामला बनाऊंगा, वह यह है कि इसका बहुत व्यापक रूप से उपयोग किया गया है और इसमें काफी सुधार हुआ हैये छवियां वास्तव में वेनिला बैकप्रोपैजेशन के लिए कुछ अविश्वसनीय उन्नति दिखाती हैं।

मैं एक एल्गोरिथ्म के रूप में बैकप्रॉप के बारे में नहीं सोचूंगा, लेकिन एल्गोरिदम का एक वर्ग।

मैं यह भी कहना चाहूंगा कि तंत्रिका नेटवर्क के लिए, 10k पैरामीटर छोटी फलियाँ हैं। एक और खोज महान काम करेगी, लेकिन लाखों मापदंडों के साथ एक गहरे नेटवर्क पर, यह शायद ही व्यावहारिक है।


12

खैर, मूल तंत्रिका नेटवर्क, 70 के दशक में बैकप्रोपेगेशन क्रांति से पहले, हाथ से "प्रशिक्षित" थे। :)

ऐसा कहे जाने के बाद:

मशीन लर्निंग का एक "स्कूल" है जिसे एक्सट्रीम लर्निंग मशीन कहा जाता है जो बैकप्रोपैजेशन का उपयोग नहीं करता है।

वे क्या करते हैं, कई, कई, कई नोड्स के साथ एक तंत्रिका नेटवर्क बनाने के लिए है - यादृच्छिक भार के साथ - और फिर न्यूनतम वर्गों (एक रैखिक प्रतिगमन की तरह) का उपयोग करके अंतिम परत को प्रशिक्षित करें। इसके बाद वे या तो तंत्रिका नेटवर्क को आगे बढ़ाते हैं या वे ओवरफिटिंग से बचने के लिए अंतिम चरण (जैसे लसो) में नियमितीकरण लागू करते हैं। मैंने इसे केवल एक छिपी हुई परत के साथ तंत्रिका नेटवर्क पर लागू किया है। कोई प्रशिक्षण नहीं है, इसलिए यह सुपर फास्ट है। मैंने कुछ परीक्षण किए और आश्चर्यजनक रूप से, ये तंत्रिका नेटवर्क "प्रशिक्षित" इस तरह से काफी सटीक हैं।

अधिकांश लोग, कम से कम जिनके साथ मैं काम करता हूं, इस मशीन को "स्कूल" सीखने के लिए उपहास के साथ मानते हैं और वे अपने स्वयं के सम्मेलनों और इसी तरह से एक निर्वासित समूह हैं, लेकिन मुझे वास्तव में लगता है कि यह एक प्रकार का सरल है।


एक अन्य बिंदु: बैकप्रोपैजेशन के भीतर, ऐसे विकल्प हैं जो शायद ही कभी लचीला बैकप्रगैशन की तरह उल्लिखित होते हैं neuralnet, जो पैकेज में आर में लागू होते हैं , जो केवल व्युत्पन्न के परिमाण का उपयोग करते हैं। एल्गोरिथ्म रैखिक बीजगणित के बजाय if-else स्थितियों से बना है। पारंपरिक बैकप्रॉपैगैशन पर उनके कुछ फायदे हैं, अर्थात् आपको अपने डेटा को सामान्य करने की आवश्यकता नहीं है क्योंकि वे गायब होने वाली ढाल समस्या से ग्रस्त नहीं हैं ।


कैब आप अपने 4 वें पैराग्राफ में (सबसे अधिक या सभी) स्पील करते हैं, और फिर परिणाम को "फाइन ट्यून" के लिए व्युत्पन्न आधारित अनुकूलन के लिए शुरुआती बिंदु के रूप में उपयोग करते हैं।
मार्क एल। स्टोन

1
@ MarkL.Stone मैं किसी को भी नहीं जानता, जिसने पहली बार बाद की परत को एक रेखीय प्रतिगमन लागू करके बैकप्रोपैजेशन किया है। हालांकि यह दिलचस्प लगता है।
रिकार्डो क्रूज़

1
जहां तक ​​मुझे पता है, ईएलएम के आसपास का विवाद ज्यादातर नैतिक पहलुओं के कारण है, कार्यान्वयन नहीं। श्मिट एट अल ने पहले ही 1992 में इस विषय को छुआ था, उनके फीडफॉवर्ड नेटवर्क के साथ यादृच्छिक भार के साथ।
Firebug

3

आप एक तंत्रिका नेटवर्क के वजन का अनुकूलन करने के लिए बहुत अधिक किसी भी संख्यात्मक अनुकूलन एल्गोरिथ्म का उपयोग कर सकते हैं। आप न केवल वज़न का अनुकूलन करने के लिए मिश्रित निरंतर-असतत ऑप्टिमाइज़ेशन एल्गोरिदम का उपयोग कर सकते हैं, लेकिन स्वयं लेआउट (परतों की संख्या, प्रत्येक परत में न्यूरॉन्स की संख्या, यहां तक ​​कि न्यूरॉन का प्रकार)। हालांकि कोई अनुकूलन एल्गोरिथ्म नहीं है जो "आयामीता के अभिशाप" और स्थानीय आशावाद से किसी भी तरह से ग्रस्त नहीं है


3

मापदंडों को कैसे अद्यतन किया जाना चाहिए, यह सलाह देने के लिए आप किसी अन्य नेटवर्क का भी उपयोग कर सकते हैं।

नहीं है decoupled तंत्रिका इंटरफ़ेस (DNI) गूगल Deepmind से। बैकप्रॉपैगैशन का उपयोग करने के बजाय, यह मानकों का अद्यतन करने के लिए तंत्रिका नेटवर्क का एक और सेट का उपयोग करता है, जो समानांतर और अतुल्यकालिक पैरामीटर अपडेट की अनुमति देता है।

कागज से पता चलता है कि DNI RNN की प्रशिक्षण गति और मॉडल क्षमता को बढ़ाता है, और विभिन्न कार्यों पर RNN और FFNN दोनों के लिए तुलनीय परिणाम देता है।


कागज भी सूचीबद्ध और कई अन्य गैर backpropagation तरीकों की तुलना में

हमारा सिंथेटिक ग्रेडिएंट मॉडल एक वैल्यू फंक्शन के लिए सबसे अधिक अनुरूप है, जिसका उपयोग ग्रेडिएंट एसेंट [2] या बूटस्ट्रैपिंग के लिए उपयोग किए जाने वाले वैल्यू फंक्शन के लिए किया जाता है। अधिकांश अन्य कार्य जो बैकप्रॉपैगैशन को हटाने का लक्ष्य रखते हैं, जैविक रूप से प्रशंसनीय क्रेडिट असाइनमेंट के लक्ष्य के साथ करते हैं, लेकिन यह परतों के बीच अपडेट लॉकिंग को समाप्त नहीं करता है। उदाहरण के लिए लक्ष्य प्रचार [3, 15] परतों के बीच गुजरने वाले ग्रेडिएंट्स पर निर्भरता को हटाता है, इसके बजाय लक्षित सक्रियण पैदा करता है जिसे फिट किया जाना चाहिए। हालाँकि इन लक्ष्यों को अभी भी क्रमिक रूप से उत्पन्न किया जाना चाहिए, नेटवर्क के माध्यम से पीछे की ओर प्रचारित किया जा रहा है और परतें अभी भी अपडेट हैं- और पीछे की ओर। अन्य एल्गोरिदम नुकसान या पुरस्कारों को प्रत्येक परत पर सीधे प्रसारित करने की अनुमति देकर बैकवर्ड लॉकिंग को हटा देते हैं - उदाहरण के लिए REINFORCE [21] (सभी सक्रियताएं कार्रवाई हैं),1, और पॉलिसी ग्रैडिएंट कोएजेंट नेटवर्क्स [20] - लेकिन फिर भी अपडेट लॉक रहता है क्योंकि उन्हें आउटपुट (या एक वैश्विक आलोचक) द्वारा उत्पन्न किए जाने वाले पुरस्कारों की आवश्यकता होती है। हालांकि रियल-टाइम रिकरंट लर्निंग [22] या सन्निकटन जैसे [17] अपडेट लॉकिंग को हटाने का एक आशाजनक तरीका लग सकता है, इन विधियों को मापदंडों के संबंध में वर्तमान स्थिति के पूर्ण (या अनुमानित) ढाल को बनाए रखने की आवश्यकता होती है। यह स्वाभाविक रूप से स्केलेबल नहीं है और इसके लिए अनुकूलनकर्ता को नेटवर्क स्थिति का वैश्विक ज्ञान होना आवश्यक है। इसके विपरीत, DNI के साथ स्थानीय संचार समस्या के रूप में परतों के बीच बातचीत को तैयार करके, हम सीखने की प्रणाली के वैश्विक ज्ञान की आवश्यकता को दूर करते हैं। अन्य कार्य जैसे कि [4, 19] बैकप्रोपेगेशन के बिना परतों के प्रशिक्षण की अनुमति देते हैं,


2

जब तक यह एक सामुदायिक प्रश्न है, मैंने सोचा कि मैं एक और प्रतिक्रिया दूंगा। "बैक प्रोपगेशन" केवल ढाल वंशज एल्गोरिथ्म है। इसमें फ़ंक्शन के केवल पहले व्युत्पन्न का उपयोग करना शामिल है, जिसके लिए कोई स्थानीय मिनीमा या मैक्सिमा खोजने की कोशिश कर रहा है। न्यूटन की विधि या न्यूटन-रफसन नामक एक अन्य विधि है जिसमें हेस्सियन की गणना करना शामिल है और इसलिए दूसरे डेरिवेटिव का उपयोग करता है। यह ऐसे उदाहरणों में सफल हो सकता है जिसमें ढाल वंश विफल हो जाता है। मुझे दूसरों से अधिक जानकार बताया गया है, और हाँ यह प्राधिकरण के लिए एक सेकंड हैंड अपील है, कि इसका उपयोग तंत्रिका जाल में नहीं किया जाता है क्योंकि गणना के संदर्भ में सभी दूसरे डेरिवेटिव की गणना बहुत महंगा है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.