एक तंत्रिका नेटवर्क और एक गहरे तंत्रिका नेटवर्क के बीच अंतर क्या है, और गहरे लोग बेहतर काम क्यों करते हैं?


113

मैंने इन शब्दों में स्पष्ट रूप से उल्लिखित प्रश्न नहीं देखा है, और यही कारण है कि मैं एक नया प्रश्न बनाता हूं।

मुझे जो जानने में दिलचस्पी है, वह तंत्रिका नेटवर्क की परिभाषा नहीं है, बल्कि एक गहरे तंत्रिका नेटवर्क के साथ वास्तविक अंतर को समझना है।

अधिक संदर्भ के लिए: मुझे पता है कि एक तंत्रिका नेटवर्क क्या है और बैकप्रोपैजेशन कैसे काम करता है। मुझे पता है कि एक DNN में कई छिपी हुई परतें होनी चाहिए। हालाँकि, कक्षा में 10 साल पहले मुझे पता चला कि कई परतें या एक परत (इनपुट और आउटपुट परतों की गिनती नहीं करना) फ़ंक्शन के संदर्भ में एक समान था, एक तंत्रिका नेटवर्क का प्रतिनिधित्व करने में सक्षम है (साइबेंको के यूनिवर्सल सन्निकटन प्रमेय देखें ), और वह है अधिक परतों ने प्रदर्शन में लाभ के बिना विश्लेषण करना अधिक जटिल बना दिया। जाहिर है, अब ऐसा नहीं है।

मुझे लगता है, शायद गलत तरीके से, कि मतभेद संरचना के बजाय प्रशिक्षण एल्गोरिथ्म और गुणों के संदर्भ में हैं, और इसलिए मैं वास्तव में सराहना करूंगा यदि उत्तर उन कारणों को रेखांकित कर सकता है जो DNN को संभव बनाते हैं (जैसे गणितीय प्रमाण या बेतरतीब ढंग से नेटवर्क के साथ खेलना ?) और वांछनीय (जैसे अभिसरण की गति?)



यदि आप जिस फ़ंक्शन को अनुमानित करना चाहते हैं, वह एक रचनात्मक फ़ंक्शन (छवि प्रसंस्करण में सामान्य और भौतिकी के नियम के कारण कई प्राकृतिक डोमेन) है। यह साबित किया जा सकता है कि गहरे नेटवर्क इस संरचना का शोषण कर सकते हैं और एक ही स्तर के न्यूरॉन्स की तेजी से कम संख्या (एकल-छिपे-परत नेटवर्क की तुलना में) के साथ अनुमानित त्रुटि प्राप्त कर सकते हैं। रेफरी: पोगियो, टॉमासो, एट अल। "क्यों और कब गहरे-लेकिन नहीं उथले-नेटवर्क आयामीता के अभिशाप से बचते हैं: एक समीक्षा।" इंटरनेशनल जर्नल ऑफ़ ऑटोमेशन एंड कंप्यूटिंग (2017)
डाटाहंग्री

जवाबों:


151

आइए एक ट्रिविलीटी से शुरू करें: डीप न्यूरल नेटवर्क केवल एक फीडफॉर्वर्ड नेटवर्क है जिसमें कई छिपी हुई परतें होती हैं।

यह कमोबेश सभी परिभाषा के बारे में कहना है। तंत्रिका नेटवर्क आवर्तक या फीडफोर्वर्ड हो सकते हैं; फीडफ़वर्ड लोगों के पास उनके ग्राफ़ में कोई लूप नहीं होता है और उन्हें परतों में व्यवस्थित किया जा सकता है। यदि "कई" परतें हैं, तो हम कहते हैं कि नेटवर्क गहरा है

कैसे कई परतों नेटवर्क आदेश के रूप में गहरी योग्य बनने के लिए है करने के लिए है? इसका कोई निश्चित उत्तर नहीं है (यह थोड़ा पूछना है कि कितने अनाज ढेर बनाते हैं ), लेकिन आमतौर पर दो या अधिक छिपी हुई परतें गहरी होती हैं। इसके विपरीत, केवल एक छिपी हुई परत वाले नेटवर्क को पारंपरिक रूप से "उथला" कहा जाता है। मुझे संदेह है कि यहां कुछ मुद्रास्फीति चल रही होगी, और दस वर्षों में लोग सोच सकते हैं कि कम से कम कुछ भी, कहते हैं, दस परतें उथली हैं और केवल बालवाड़ी अभ्यास के लिए उपयुक्त हैं। अनौपचारिक रूप से, "गहरा" बताता है कि नेटवर्क को संभालना मुश्किल है।

यहाँ एक उदाहरण दिया गया है, यहाँ से अनुकूलित किया गया है :

गहरा बनाम गैर-गहरा तंत्रिका नेटवर्क

लेकिन आप जो वास्तविक सवाल पूछ रहे हैं, वह निश्चित रूप से, कई परतें फायदेमंद क्यों होंगी?

मुझे लगता है कि कुछ आश्चर्यजनक जवाब यह है कि कोई भी वास्तव में नहीं जानता है। कुछ सामान्य स्पष्टीकरण है कि मैं संक्षेप में नीचे की समीक्षा करेंगे रहे हैं, लेकिन उनमें से कोई भी आसानी से सच होना प्रदर्शित किया गया है, और एक भी यकीन है कि कई परतों होने नहीं किया जा सकता है वास्तव में फायदेमंद है।

मैं कहता हूं कि यह आश्चर्यजनक है, क्योंकि गहन शिक्षण व्यापक रूप से लोकप्रिय है, हर साल सभी रिकॉर्ड तोड़ रहा है (छवि मान्यता से, गो खेलने के लिए, स्वचालित अनुवाद आदि), हर साल उद्योग द्वारा उपयोग किया जा रहा है, आदि और। हम अभी भी नहीं कर रहे हैं काफी यकीन है कि क्यों यह इतनी अच्छी तरह से काम करता है।

मैं पर मेरी चर्चा का आधार दीप लर्निंग गुडफेलो, Bengio, और Courville से पुस्तक है जिसमें 2017 में बाहर गया और व्यापक रूप से माना जाता है गहरी सीखने पर किताब। (यह स्वतंत्र रूप से ऑनलाइन उपलब्ध है।) संबंधित खंड 6.4.1 सार्वभौमिक अनुमोदन गुण और गहराई है

आपने वो लिखा

कक्षा में 10 साल पहले मुझे पता चला कि कई परतें या एक परत (इनपुट और आउटपुट परतों की गिनती नहीं करना) उन कार्यों के संदर्भ में बराबर थी जो एक तंत्रिका नेटवर्क का प्रतिनिधित्व करने में सक्षम है [...]

आप तथाकथित सन्निकटन प्रमेय का उल्लेख कर रहे होंगे, जिसे 1989 में साइबेंको ने साबित किया और 1990 के दशक में विभिन्न लोगों द्वारा सामान्यीकृत किया गया। यह मूल रूप से कहता है कि एक उथला तंत्रिका नेटवर्क (1 छिपी परत के साथ) किसी भी फ़ंक्शन को अनुमानित कर सकता है , अर्थात सिद्धांत रूप में कुछ भी सीख सकता है । यह विभिन्न nonlinear सक्रियण कार्यों के लिए सही है, जिसमें सुधारा हुआ रैखिक इकाइयाँ शामिल हैं जो कि अधिकांश तंत्रिका नेटवर्क आज उपयोग कर रहे हैं ( इस परिणाम के लिए पाठ्यपुस्तक Leshno et al। 1993 का संदर्भ देते हैं )।

यदि ऐसा है, तो हर कोई गहरे जाल का उपयोग क्यों कर रहा है?

ठीक है, एक भोला जवाब है क्योंकि वे बेहतर काम करते हैं। यहां दीप लर्निंग पुस्तक से एक आंकड़ा दिखाया गया है कि यह एक विशेष कार्य में अधिक परतें बनाने में मदद करता है, लेकिन एक ही घटना अक्सर विभिन्न कार्यों और डोमेन में देखी जाती है:

अधिक परतें अच्छी हैं

हम जानते हैं कि उथला नेटवर्क उतना ही अच्छा प्रदर्शन कर सकता है जितना गहरा। लेकिन ऐसा नहीं है; और वे आम तौर पर नहीं करते हैं। सवाल है --- क्यों? संभावित जवाब:

  1. शायद एक उथले नेटवर्क को और अधिक न्यूरॉन्स की आवश्यकता होगी फिर गहरी एक?
  2. शायद एक उथला नेटवर्क हमारे वर्तमान एल्गोरिदम के साथ प्रशिक्षित करना अधिक कठिन है (जैसे कि इसमें अधिक गंदा स्थानीय मिनीमा है, या अभिसरण दर धीमी है, या जो भी है)?
  3. हो सकता है कि एक उथली वास्तुकला उस तरह की समस्याओं के लिए उपयुक्त नहीं है जिसे हम आमतौर पर हल करने की कोशिश कर रहे हैं (जैसे वस्तु मान्यता एक सर्वोत्कृष्ट "गहरी", श्रेणीबद्ध प्रक्रिया है)?
  4. कुछ और?

दीप लर्निंग पुस्तक बुलेट बिंदुओं # 1 और # 3 के लिए तर्क है। सबसे पहले, यह तर्क देता है कि उथले नेटवर्क में इकाइयों की संख्या कार्य जटिलता के साथ तेजी से बढ़ती है। तो एक उथले नेटवर्क उपयोगी होने के लिए बहुत बड़ा होने की आवश्यकता हो सकती है; संभवतः एक गहरे नेटवर्क की तुलना में बहुत बड़ा है। यह कई कागजात पर आधारित है जो साबित करता है कि उथले नेटवर्क कुछ मामलों में तेजी से कई न्यूरॉन्स की आवश्यकता होगी; लेकिन क्या उदाहरण के लिए MNIST वर्गीकरण या गो खेलना ऐसे मामले हैं जो वास्तव में स्पष्ट नहीं हैं। दूसरा, पुस्तक यह कहती है:

एक गहरे मॉडल को चुनना एक बहुत ही आम धारणा है कि जिस फ़ंक्शन को हम सीखना चाहते हैं, उसमें कई सरल कार्यों की संरचना शामिल होनी चाहिए। यह एक प्रतिनिधित्व सीखने के दृष्टिकोण से कहा जा सकता है कि हम मानते हैं कि सीखने की समस्या में भिन्नता के अंतर्निहित कारकों के एक समूह की खोज शामिल है जो बदले में भिन्नता के अन्य, सरल अंतर्निहित कारकों के रूप में वर्णित किया जा सकता है।

मुझे लगता है कि वर्तमान "आम सहमति" यह है कि यह बुलेट पॉइंट # 1 और # 3 का संयोजन है: वास्तविक दुनिया के कार्यों के लिए गहरी वास्तुकला अक्सर फायदेमंद होती है और उथले वास्तुकला अक्षम होती है और एक ही प्रदर्शन के लिए बहुत अधिक न्यूरॉन्स की आवश्यकता होती है।

लेकिन यह सिद्ध से बहुत दूर है। उदाहरण के लिए, ज़ागोरयुको और कोमोडाकिस, 2016, वाइड अवशिष्ट नेटवर्क पर विचार करें । अवशिष्ट नेटवर्क 150+ परतों के साथ 2015 में दिखाई दिया और विभिन्न छवि पहचान प्रतियोगिता जीती। यह एक बड़ी सफलता थी और गहरेपन के पक्ष में एक सम्मोहक तर्क की तरह लग रही थी; यहां अवशिष्ट नेटवर्क पेपर पर पहले लेखक द्वारा एक प्रस्तुति से एक आंकड़ा है (ध्यान दें कि भ्रमित समय यहां बाईं ओर जाता है):

गहरे अवशिष्ट नेटवर्क

लेकिन ऊपर दिए गए कागज से पता चलता है कि "केवल" 16 परतों के साथ एक "विस्तृत" अवशिष्ट नेटवर्क 150 + परतों के साथ "गहरी" को बेहतर बना सकता है। यदि यह सच है, तो उपरोक्त आंकड़ा का पूरा बिंदु टूट जाता है।

या बा और कारुआना पर विचार करें , 2014, क्या डीप नेट्स वास्तव में डीप होने की आवश्यकता है? :

इस पत्र में हम अनुभवजन्य साक्ष्य प्रदान करते हैं कि उथले जाल गहरे जाल के समान कार्य को सीखने में सक्षम हैं, और कुछ मामलों में गहरे जाल के समान मापदंडों के साथ। हम पहले एक अत्याधुनिक डीप मॉडल का प्रशिक्षण लेते हैं, और फिर गहरे मॉडल की नकल करने के लिए उथले मॉडल का प्रशिक्षण लेते हैं। नकल मॉडल अगले अनुभाग में वर्णित मॉडल संपीड़न योजना का उपयोग करके प्रशिक्षित किया गया है। उल्लेखनीय रूप से, मॉडल संपीड़न के साथ हम उथले जाल को प्रशिक्षित करने में सक्षम होते हैं कुछ गहरे मॉडल के रूप में सटीक होते हैं, भले ही हम इन उथले जालों को प्रशिक्षित करने में सक्षम नहीं होते हैं जब उथले जाल सीधे मूल जाल पर प्रशिक्षित होते हैं। लेबल प्रशिक्षण डेटा। यदि एक गहरी शुद्ध के रूप में मापदंडों की एक ही संख्या के साथ एक उथले जाल उच्च निष्ठा के साथ एक गहरे जाल की नकल करने के लिए सीख सकते हैं,

अगर सच है, तो इसका मतलब यह होगा कि सही स्पष्टीकरण मेरी बुलेट # 2 है, न कि # 1 या # 3।

जैसा कि मैंने कहा --- कोई भी वास्तव में अभी तक निश्चित रूप से नहीं जानता है।


समापन टिप्पणी

पिछले ~ 10 वर्षों में गहन सीखने में हासिल की गई प्रगति की मात्रा वास्तव में आश्चर्यजनक है, लेकिन इस प्रगति में से अधिकांश परीक्षण और त्रुटि द्वारा प्राप्त की गई थी, और हम अभी भी बहुत बुनियादी समझ की कमी है कि वास्तव में गहरी जाल इतनी अच्छी तरह से काम करने के लिए क्या बनाती है। यहां तक ​​कि उन चीजों की सूची, जिन्हें लोग एक प्रभावी गहरे नेटवर्क की स्थापना के लिए महत्वपूर्ण मानते हैं, हर दो साल में बदलने लगता है।

2006 में गहन शिक्षण पुनर्जागरण तब शुरू हुआ जब जेफ्री हिंटन (जो किसी से बहुत अधिक ब्याज के बिना 20+ वर्षों से तंत्रिका नेटवर्क पर काम कर रहे थे) ने गहरे नेटवर्क को प्रशिक्षित करने के लिए एक प्रभावी तरीके की पेशकश करते हुए दो कागजात प्रकाशित किए ( साइंस पेपर , न्यूरल कंप्रेशन पेपर ) । चाल ढाल वंश शुरू करने से पहले अप्रकाशित पूर्व प्रशिक्षण का उपयोग करना था । इन पत्रों ने क्षेत्र में क्रांति ला दी, और कुछ वर्षों के लिए लोगों ने सोचा कि बिना पूर्व-प्रशिक्षित प्रशिक्षण प्रमुख था।

फिर 2010 में मार्टेंस ने दिखाया कि गहरे तंत्रिका नेटवर्क को दूसरे क्रम के तरीकों (तथाकथित हेसियन-मुक्त तरीकों) के साथ प्रशिक्षित किया जा सकता है और पूर्व प्रशिक्षण के साथ प्रशिक्षित नेटवर्क को बेहतर बना सकता है: हेसियन-मुक्त अनुकूलन के माध्यम से गहन सीखने । फिर 2013 में Sutskever एट अल। दिखाया कि कुछ बहुत ही चालाक चाल के साथ स्टोकेस्टिक ढाल वंश Hessian मुक्त तरीकों से बेहतर प्रदर्शन कर सकते हैं: गहन शिक्षा में आरंभीकरण और गति के महत्व पर । इसके अलावा, 2010 के आसपास लोगों को एहसास हुआ कि सिग्मॉइड इकाइयों के बजाय रेक्टिफाइड रैखिक इकाइयों का उपयोग करने से ढाल वंश के लिए बहुत बड़ा अंतर पड़ता है। ड्रॉपआउट 2014 में दिखाई दिया। अवशिष्ट नेटवर्क 2015 में दिखाई दिए। लोग गहरे नेटवर्क को प्रशिक्षित करने के लिए अधिक से अधिक प्रभावी तरीकों के साथ आते रहते हैं और10 साल पहले एक प्रमुख अंतर्दृष्टि की तरह लग रहा था कि आज अक्सर एक उपद्रव माना जाता है। यह सब काफी हद तक परीक्षण और त्रुटि से प्रेरित है और इस बात की बहुत कम समझ है कि कुछ चीजें इतनी अच्छी तरह से काम करती हैं और कुछ अन्य चीजें नहीं। डीप नेटवर्क का प्रशिक्षण ट्रिक्स के एक बड़े बैग की तरह है। सफल ट्रिक आमतौर पर तर्कसंगत रूप से पोस्ट फैक्टम होते हैं।

हम यह भी नहीं जानते हैं कि गहरे नेटवर्क एक प्रदर्शन पठार तक क्यों पहुँचते हैं; सिर्फ 10 साल में लोग स्थानीय मिनीमा को दोष देते थे, लेकिन वर्तमान सोच यह है कि यह वह बिंदु नहीं है (जब पूर्णता के पठार, ग्रेडिएंट बड़े बने रहते हैं)। यह गहरी नेटवर्क के बारे में इस तरह के एक बुनियादी सवाल है, और हम यह भी नहीं जानते यह

अद्यतन: यह कमोबेश अली रहिमी के एनआईपीएस 2017 के विषय पर चर्चा कर रहा है जो कि मशीन लर्निंग पर कीमिया: https://www.youtube.com/watch?v=Qi1Yry33TQE है


[यह जवाब पूरी तरह से अप्रैल 2017 में लिखा गया था, इसलिए नीचे दी गई कुछ टिप्पणियां अब लागू नहीं होती हैं।]


2
अच्छी प्रतिक्रिया! 1) जैसा कि @Nicolas द्वारा भी उल्लेख किया गया है, यह पता चलता है कि एक प्रमेय ( en.wikipedia.org/wiki/Universal_approximation_theorem ) है जो दावा करता है कि एक एकल छिपे हुए परत के साथ एक फीड-फॉरवर्ड न्यूरल नेटवर्क और न्यूरॉन्स की एक सीमित संख्या अनुमानित कर सकती है। यूनिट हाइपरक्यूब पर कोई निरंतर कार्य (एक DNN सहित)। इस परिणाम को सक्रियण समारोह की पसंद से स्वतंत्र होने का दावा किया जाता है। 2) मुझे यकीन नहीं है कि आपकी अंतिम टिप्पणी (यानी कि Hinton Google में शामिल हो गई) DNN की हालिया सफलता के लिए प्रासंगिक है; DNN के महामारी बनने के काफी समय बाद Hinton Google में शामिल हुआ!
सोबी

4
n1n

2
रैखिकता की बात दो मुद्दों के संयोजन की तरह लगती है। Perceptrons केवल रैखिक निर्णय सीमाओं की गणना कर सकते हैं - यह केवल दो वर्गों को विभाजित करने के लिए सीधी रेखा खींच सकता है। बहुपरत नेटवर्क अधिक जटिल सीमाओं को "आकर्षित" कर सकते हैं। लेकिन एक बहुपरत नेटवर्क की आउटपुट लेयर को छोड़कर न तो परसेप्ट्रॉन और न ही मल्टीलेयर नेटवर्क रैखिक सक्रियण क्रियाओं का उपयोग करते हैं। परसेप्ट्रॉन एक्टिवेशन फंक्शन एक हैवीसाइड है (1 अगर x> 0, 0 अन्यथा); बहुपरत नेटवर्क अक्सर सिग्मोइड का उपयोग करते हैं, लेकिन सार्वभौमिक लगभग के लिए बाधाएं। बहुत हल्के होते हैं: गैर-स्थिर, बाध्य, और नीरस रूप से बढ़ते हुए।
मैट क्रॉज

2
@amoeba शानदार जवाब, शुरुआत में तस्वीर ने मुझे बाकी लोगों को पढ़ने के लिए प्रेरित किया, लेकिन यह सबसे अच्छा था। परसेप्ट्रॉन वर्गीकरण के लिए रेखीय प्रतिगमन का प्रतिरूप है, यही कारण है कि जब लोग ऑनलाइन (sgd) विधियों के बजाय समस्या को हल करने के लिए बंद फॉर्म समाधान (pseudoinverse) का उपयोग करते हैं, तो इसे लॉजिस्टिक प्रतिगमन (सिग्मोइड फ़ंक्शन) के कारण लॉजिस्टिक रिग्रेशन कहा जाता है = परसेप्ट्रॉन। एक परसेप्ट्रॉन / लॉजिस्टिक रिग्रेशन केवल रैखिक निर्णय सीमाओं को 'आकर्षित' कर सकता है और इसीलिए इसे रैखिक कहा जाता है।
शूरिकेन x नीला

2
हालाँकि, मल्टी-लेयर परसेप्ट्रॉन (जो आपने बाईं ओर अपनी पहली तस्वीर में खींचा है) ऐसे कई रैखिक निर्णय सीमाओं को जोड़ सकते हैं और इस प्रकार @Matt उल्लेखित (गैर-रेखीय) XOR समस्या को हल करने के लिए स्थान का विभाजन कर सकते हैं। तो, कई संयुक्त रेखीय निर्णय सीमाएं उदाहरण के लिए एक चक्र बना सकती हैं यदि आप अपनी आँखें निचोड़ते हैं। यह इस बात पर निर्भर करता है कि आप इसके बारे में कैसे सोचते हैं - निर्णय अभी भी एक उच्च स्थान में रैखिक है, यदि आप गुठली से परिचित हैं, तो यह एक ही तरह का है।
शूरिकेन x नीला

8

अब तक का अच्छा जवाब, हालाँकि यहाँ पर कोई भी ऐसी चीज़ नहीं है जिसका उल्लेख यहाँ पर किया गया है, यहाँ मेरा 0.02 $ है

मैं सिर्फ कहानी के रूप में उत्तर दूंगा, चीजों को और अधिक मजेदार और स्पष्ट करना चाहिए। यहां कोई तल्लर नहीं। इस प्रक्रिया में आपको यह समझने में सक्षम होना चाहिए कि अंतर क्या है।

DNNs के स्पार्क करने के कई कारण हैं (जब सितारों को संरेखित करना पड़ा, जैसे सभी चीजें समान हैं, यह सिर्फ सही जगह, सही समय आदि की बात है)।

एक कारण डेटा की उपलब्धता, बहुत सारा डेटा (लेबल डेटा) है। यदि आप सामान्य जेनेरिक या 'जेनेरिक पादरी' या 'यूनिवर्सल पादरी' (उर्फ बेसिक बिल्डिंग ब्लॉक्स जैसे कार्यों / अनुप्रयोगों के बीच फिर से इस्तेमाल किए जा सकते हैं) को सीखना चाहते हैं, तो आपको बहुत सारे डेटा की आवश्यकता होती है। और जंगली डेटा, मैं जोड़ सकता हूं, न कि बाँझ डेटा-सेटों को नियंत्रित प्रकाश व्यवस्था और सावधानी से लैब में दर्ज किया गया है। मैकेनिकल तुर्क ने (लेबलिंग) संभव बनाया।

दूसरा, GPU के उपयोग से बड़े नेटवर्क को तेज़ी से प्रशिक्षित करने की संभावना ने प्रयोग को और तेज़ कर दिया है। ReLU इकाइयों ने चीजों को कम्प्यूटेशनल रूप से तेजी से और साथ ही उनका नियमितीकरण प्रदान किया क्योंकि आपको एक परत में अधिक इकाइयों का उपयोग करने की आवश्यकता थी, वही जानकारी को संपीड़ित करने में सक्षम होने के बाद से परतें अब अधिक विरल थीं, इसलिए यह ड्रॉपआउट के साथ भी अच्छा चला गया। इसके अलावा, उन्होंने एक महत्वपूर्ण समस्या के साथ मदद की जो तब होती है जब आप कई परतों को ढेर करते हैं। उस बारे में बाद में। विभिन्न कई चालें जो प्रदर्शन में सुधार करती हैं। जैसे मिनी-बैचों का उपयोग करना (जो वास्तव में अंतिम त्रुटि के लिए हानिकारक है) या दृढ़ संकल्प (जो वास्तव में स्थानीय ग्रहणशील क्षेत्रों के रूप में अधिक विचरण पर कब्जा नहीं करते हैं) लेकिन कम्प्यूटेशनल रूप से तेज हैं।

इस बीच लोग बहस कर रहे थे कि क्या उन्हें अधिक स्किनी पसंद है या अधिक गोल-मटोल, छोटी या लम्बी, बिना फ्रॉक के, इत्यादि के साथ अनुकूलन पसंद है। और न्यूटन विधि, आखिरकार उन्हें एहसास हुआ कि कोई मुफ्त भोजन नहीं है। नेटवर्क फट रहे थे।

क्या धीमा चीजें गायब हो गई ढाल समस्या थी। लोग ऐसे गए: वाह, यह बहुत दूर है, यार! संक्षेप में इसका अर्थ है कि इनपुट के करीब परतों पर त्रुटि को समायोजित करना कठिन था। जैसा कि आप केक पर अधिक परतें जोड़ते हैं, बहुत ज्यादा लड़खड़ा जाता है। आप पहली परतों पर वापस सार्थक त्रुटि का प्रचार नहीं कर सकते। जितनी परतें उतनी ही खराब। ओह।

कुछ लोगों ने यह पता लगाया कि क्रॉस-एन्ट्रोपी को नुकसान फ़ंक्शन (अच्छी तरह से, फिर से, वर्गीकरण और छवि मान्यता) के रूप में उपयोग करना कुछ प्रकार के नियमितीकरण प्रदान करता है और नेटवर्क के खिलाफ संतृप्त होने में मदद करता है और बदले में ढाल उस कुएं को छिपाने में सक्षम नहीं था।

जो कुछ भी संभव हो सका वह प्रति-पूर्व-प्रशिक्षण था जिसमें अनुपयोगी तरीकों का उपयोग किया गया था। मूल रूप से, आप ऑटो-एनकोडर का एक गुच्छा लेते हैं और कम से कम अमूर्त निरूपण सीखते हैं क्योंकि आप संपीड़न अनुपात को बढ़ाते हैं। इन नेटवर्क से वजन का उपयोग पर्यवेक्षित संस्करण को आरंभ करने के लिए किया गया था। इसने एक और तरीके से गायब होने वाली ढाल समस्या को हल किया: आप पहले से ही बहुत बेहतर शुरुआत की स्थिति से पर्यवेक्षित प्रशिक्षण शुरू कर रहे हैं। इसलिए अन्य सभी नेटवर्क उठ गए और विद्रोह करने लगे। लेकिन नेटवर्क को वैसे भी पर्यवेक्षण की आवश्यकता थी, अन्यथा बड़े डेटा को अभी भी रखना असंभव था।

अब, अंतिम भाग के लिए जो अंत में आपके उत्तर की ओर जाता है जो कि संक्षेप में रखना बहुत जटिल है: अधिक परतें और सिर्फ एक ही क्यों नहीं। क्यूंकि हम कर सकते हैं! और क्योंकि संदर्भ और अपरिवर्तनीय विशेषता विवरणक। और पूल।

यहां एक उदाहरण है: आपके पास छवियों का एक डेटा सेट है, आप उस डेटा का उपयोग करके एनएन को एक योजना कैसे प्रशिक्षित करने जा रहे हैं? खैर, भोलेपन से, आप कहते हैं कि प्रत्येक पंक्ति को कहते हैं और आप इसे एक लंबे वेक्टर में बदलते हैं और यह आपका इनपुट है। आप क्या सीखते हैं? खैर, कुछ फजी बकवास कार्य जो कि कुछ भी नहीं दिख सकते हैं, क्योंकि कई प्रकार के विभिन्न प्रकारों में छवि में ऑब्जेक्ट शामिल हैं और आप प्रासंगिक और अप्रासंगिक चीजों के बीच अंतर करने में सक्षम नहीं हैं। और कुछ बिंदु पर नेटवर्क को नए सामान को फिर से सीखने में सक्षम होने के लिए भूलना चाहिए। इसलिए क्षमता की समस्या है। यह अधिक गैर-रैखिक गतिशीलता है, लेकिन अंतर्ज्ञान यह है कि आपको अपने नेटवर्क में अधिक जानकारी शामिल करने में सक्षम होने के लिए न्यूरॉन्स की संख्या बढ़ाने की आवश्यकता है।

तो मुद्दा यह है कि यदि आप छवि को केवल एक टुकड़े के रूप में इनपुट करते हैं, तो अतिरिक्त परतें जोड़ना आपके लिए बहुत अधिक नहीं है क्योंकि आप सार जानने में सक्षम नहीं हैं , जो बहुत महत्वपूर्ण है। चीजों को समग्र रूप से करना इस तरह से काम नहीं करता है, जब तक कि आप नेटवर्क के साथ सरल चीजों को नहीं कर रहे हैं जैसे कि एक विशिष्ट प्रकार की वस्तु पर ध्यान केंद्रित करना, इसलिए आप अपने आप को एक वर्ग तक सीमित करते हैं और आप वर्गीकरण लक्ष्य के रूप में कुछ वैश्विक गुणों को चुनते हैं।

तो वहाँ क्या करना है? अपनी स्क्रीन के किनारे को देखें और इस पाठ को पढ़ने का प्रयास करें। मुसीबत? जैसा कि बेवकूफ लगता है, आपको यह देखना होगा कि आप क्या पढ़ रहे हैं। अन्यथा यह बहुत अधिक फजी है / पर्याप्त संकल्प / दानेदारता नहीं है। चलो फोकस क्षेत्र को ग्रहणशील क्षेत्र कहते हैं। नेटवर्क को भी ध्यान केंद्रित करने में सक्षम होना चाहिए। मूल रूप से इनपुट के रूप में पूरी छवि का उपयोग करने के बजाय, आप छवि के साथ एक स्लाइडिंग विंडो को स्थानांतरित करते हैं और फिर आप उस इनपुट को नेटवर्क के रूप में उपयोग करते हैं (जो मनुष्य करते हैं, उससे थोड़ा कम स्टोचस्टिक)। अब आपके पास पिक्सल्स और इसलिए ऑब्जेक्ट्स के बीच सहसंबंधों को पकड़ने का भी मौका है और आप सोफा पर बैठे बिल्ली और उलटे-सीधे बिल्ली बंजी जंपिंग में अंतर कर सकते हैं। नीट, मानवता में विश्वास बहाल। नेटवर्क कई स्तरों पर एक छवि में स्थानीय अमूर्तताएं सीख सकता है। नेटवर्क फ़िल्टर सीखता है,

तो, चीजों को योग करने के लिए: ग्रहणशील क्षेत्र / दृढ़ संकल्प, अनियंत्रित आरंभीकरण, सुधारा हुआ रैखिक इकाइयाँ, ड्रॉपआउट या अन्य नियमितीकरण विधियाँ। यदि आप इसके बारे में बहुत गंभीर हैं, तो मैं आपको न्यूरल नेटवर्क्स में श्मिटुबेर के डीप लर्निंग पर एक नज़र डालने की सलाह देता हूं : यहाँ एक अवलोकन है जो कि प्रीपेयर के लिए यूआरएल है http://arxiv.org/abs/1404.7828

और याद रखें: बड़ा सीखना, गहरा डेटा। शब्द।


हाय फ्लोरिन, अच्छा जवाब के लिए धन्यवाद! मुझे लेखन शैली पसंद है। जब आप स्लाइडिंग विंडो के बारे में बात करते हैं, तो क्या आप यह उल्लेख कर रहे हैं कि कैसे एक चित्र के विभिन्न भागों में एनएलओ की संकेंद्रित परतें कम आयाम के स्थान पर अपनी सक्रियता को दर्शाती हैं?
निकोलस

बहुत अधिक हाँ, संकल्प आवश्यक नहीं हैं, लेकिन वे तेजी से कम्प्यूटेशनल हैं, क्योंकि भार विवश हैं। इस पत्र की जाँच करें जहाँ वे दृढ़ संकल्प का उपयोग नहीं करते हैं और स्थानीय ग्रहणशील क्षेत्रों का उपयोग करते हैं। महत्वपूर्ण कीवर्ड स्थानीय / श्रेणीबद्ध हैं: arxiv.org/pdf/1112.6209.pdf
shuriken x नीला

मुझे भी लगता है कि निकटतम व्यवस्थित उत्तर सोबी का है। वह मेरे ऊपर चढ़ गया। मैंने अभी कुछ और चीजें यहाँ नमक और काली मिर्च के साथ मिलाई हैं।
शूरिकेन x नीला

6

आम शब्दों में, क्लासिक न्यूरल नेटवर्क्स के साथ मुख्य अंतर यह है कि उनमें बहुत अधिक छिपी हुई परतें हैं।

अमूर्तता की कई परतों को बनाने के लिए परतों में लेबल जोड़ने का विचार है:

उदाहरण के लिए, वस्तु मान्यता के लिए एक गहरा तंत्रिका नेटवर्क :

  • परत 1: एकल पिक्सेल
  • परत 2: किनारों
  • परत 3: रूप (मंडलियां, वर्ग)
  • परत n: संपूर्ण वस्तु

आप Quora में इस प्रश्न पर एक अच्छी व्याख्या पा सकते हैं ।

और, यदि आप इस विषय में रुचि रखते हैं, तो मैं इस पुस्तक पर एक नज़र डालूंगा ।


1
धन्यवाद डेविड, लेकिन मैं वास्तव में नहीं देखता कि कैसे सिर्फ लेबल जोड़ने के लिए इसे अलग बनाते हैं। मुझे यह भी याद है कि यह समझना और समझना कठिन था कि एक फ़ंक्शन तंत्रिका नेटवर्क को कैसे इनकोड किया गया था। सिर्फ कुछ और परतें होने से कुछ और होना चाहिए। आपके द्वारा दी गई छूट के अनुसार, मेरा मानना ​​है कि आप प्रत्येक कार्य को करने के लिए व्यक्तिगत (पुराने स्कूल) तंत्रिका नेटवर्क को प्रशिक्षित कर सकते हैं।
निकोलस

बिजली तब आती है जब आप इसे एक पाइपलाइन की तरह उपयोग करते हैं, इसलिए हर परत पर परत के ढेर से इनपुट और आउटपुट होते हैं।
डेविड गेसकज़

मैं आपका पहला लिंक पढ़ रहा हूं, जो एक अच्छा स्रोत है, और अन्य संबंधित प्रश्न quora और se पर हैं, हालांकि आपने जो उदाहरण दिया है वह मेरे द्वारा पढ़ी गई बातों के साथ सटीक नहीं लगता है। मैं अपने स्वयं के प्रश्न का उत्तर देने की कोशिश करूंगा, जो कि रीडिंग को सारांशित करता है।
निकोलस

2
इंगित संसाधन के दिलचस्प होने के बावजूद, उत्तर की स्थिति प्रश्न का उत्तर नहीं देती है।
निकोलस

क्या आप एक ऐसे उदाहरण की ओर संकेत कर सकते हैं, जहां परतों को लेबल किया गया है (विशुद्ध रूप से वर्णनात्मक तरीके से अन्य)? यह निश्चित रूप से सच है कि छिपी हुई परतें प्रत्येक छिपी हुई परत में क्रमिक रूप से अधिक जटिल विशेषताओं के लिए दिखाई देती हैं, लेकिन "लेबल जोड़ना" का अर्थ है कि वे विशेष रूप से ऐसा करने के लिए प्रशिक्षित हो रहे हैं।
मैट क्राउज

2

मुझे शुरुआत में तंत्रिका नेटवर्क (एनएन) और गहरे तंत्रिका नेटवर्क (डीएनएन) के बीच के अंतर से थोड़ी उलझन हुई है, हालांकि 'गहराई' केवल मापदंडों और परतों की संख्या को संदर्भित करता है, दुर्भाग्य से। आप इसे तथाकथित 'कनाडाई माफिया' के तहत किसी तरह की री-ब्रांडिंग के रूप में ले सकते हैं।

कई साल पहले, मेरे पास एक वर्ग के हिस्से के रूप में न्यूरल नेटवर्क भी थे और हमने एनएन का उपयोग करके अंकों की मान्यता, तरंग सन्निकटन और इसी तरह के अनुप्रयोगों को किया था, जिसमें कई छिपी हुई परतें और आउटपुट थे और जो कि डीएनएन के सभी जाज थे। हालाँकि, जो हमारे पास नहीं था, वह था कंप्यूटिंग शक्ति।

कारण कि DNN के लिए कदम संभव और वांछनीय हैं हार्डवेयर विकास में प्रगति। सीधे शब्दों में कहें, तो अब हम GPU के अधिक, अधिक और अधिक समानांतर (DNN पर) गणना कर सकते हैं, जबकि पहले, समय NN के लिए अड़चन था।

डीप लर्निंग के लिए विकिपीडिया के पृष्ठ पर संदर्भित के रूप में , 'गहरी' भाग में ज्यादातर परतों पर एक गैर-रैखिक फैशन में बातचीत करने की विशेषताएं हैं, इसलिए फीचर निष्कर्षण और परिवर्तन का प्रदर्शन किया जाता है। यह भी मानक एनएन में किया गया था, हालांकि छोटे स्तर पर।

एक ही पृष्ठ पर, यहां आपके पास परिभाषा है 'एक गहरा तंत्रिका नेटवर्क (DNN) एक कृत्रिम तंत्रिका नेटवर्क (ANN) है जिसमें इनपुट और आउटपुट परतों के बीच इकाइयों की कई छिपी हुई परतें हैं।'


हाय Mttk, आपके उत्तर के लिए धन्यवाद, इसने इस प्रश्न पर अधिक प्रकाश डाला। आपके अंतिम बिंदु के बारे में, हां संरचनात्मकता अंतर को समझाने के लिए बहुत आसान है (1 बनाम कई परतें), लेकिन इन एकाधिक परतों का उपयोग करने के तरीके में अंतर क्या मायने रखता है और यह बहुत कम स्पष्ट है। यही कारण है कि मैंने सवाल को संरचना पर केंद्रित नहीं किया है ..
निकोलस

ईमानदारी से, मैं संदर्भित अंतिम परिभाषा से सहमत नहीं हूँ - चूंकि ANN / NN एक छिपी हुई परत के साथ वास्तव में कुशल नहीं है, और आपको किसी भी प्रकार की अधिक जटिल भविष्यवाणी के लिए एकाधिक की आवश्यकता है (मैं यह इसलिए कह रहा हूं क्योंकि मुझे लगता है कि DNN एक था बेकार buzzword पहले से ही अच्छी अवधि में जोड़ा गया, NN)। मुझे लगता है कि आप एनएन और डीएनएन का उपयोग कर सकते हैं। और DNN का विचार ही नहीं है।
mttk

2

जहां तक ​​मुझे पता है, जिसे डीप न्यूरल नेटवर्क (डीएनएन) कहा जाता है, आज पुराने मानक न्यूरल नेटवर्क (एनएन) से मौलिक या दार्शनिक रूप से भिन्न नहीं है। यद्यपि, सिद्धांत रूप में, कोई भी केवल एक छिपी हुई परत के साथ उथले एनएन का उपयोग करके एक मनमानी एनएन को अनुमानित कर सकता है , हालांकि, इसका मतलब यह नहीं है कि एक ही एल्गोरिदम और प्रशिक्षण डेटा का उपयोग करके प्रशिक्षित किए जाने पर दोनों नेटवर्क समान प्रदर्शन करेंगे। वास्तव में उथले नेटवर्क के प्रशिक्षण में रुचि बढ़ रही है जो गहरे नेटवर्क के समान है। हालाँकि यह जिस तरह से किया जाता है, वह पहले एक गहरे नेटवर्क को प्रशिक्षित करने के लिए होता है, और फिर उथले नेटवर्क को नकल करने के लिए प्रशिक्षित किया जाता हैअंतिम आउटपुट (यानी पेन्टाल्ट लेयर का आउटपुट) गहरे नेटवर्क का। देखिए, जो चीज़ गहरे वास्तुशिल्प को अनुकूल बनाती है, वह यह है कि आज की प्रशिक्षण तकनीकें (वापस प्रचार) तब बेहतर काम करती हैं जब न्यूरॉन्स को एक पदानुक्रमित संरचना में रखा जाता है।

एक और सवाल जो पूछा जा सकता है, वह यह है: न्यूरल नेटवर्क (विशेष रूप से DNN) अचानक इतना लोकप्रिय क्यों हो गया। मेरी समझ से, जादू सामग्री जिसने DNNs को हाल ही में इतना लोकप्रिय बनाया है, वे निम्नलिखित हैं:

A. बेहतर डेटासेट और डेटा प्रोसेसिंग क्षमता

1. लाखों विविध छवियों के साथ बड़े पैमाने पर डेटासेट उपलब्ध हुए

2. फास्ट जीपीयू कार्यान्वयन जनता के लिए उपलब्ध कराया गया था

B. बेहतर प्रशिक्षण एल्गोरिदम और नेटवर्क आर्किटेक्चर

1. सिग्मायॉइड या टैन्ह के बजाय रेक्टिफाइड लीनियर यूनिट्स (ReLU)

2. डीप नेटवर्क आर्किटेक्चर वर्षों में विकसित हुए


ए -1) बहुत हाल तक, कम से कम कंप्यूटर विज़न में, हम लाखों लेबल की गई छवियों पर मॉडल को प्रशिक्षित नहीं कर सकते थे; सिर्फ इसलिए कि उस आकार के लेबल वाले डेटासेट मौजूद नहीं थे। यह पता चला है कि, छवियों की संख्या के साथ, लेबल सेट की ग्रेन्युलिटी भी DNNs की सफलता में एक बहुत ही महत्वपूर्ण कारक है ( इस पेपर में चित्र 8 देखें , अज़ीज़पौर एट अल।)।

ए -2) इंजीनियरिंग का बहुत सा प्रयास डीएनएन को प्रशिक्षित करने के लिए संभव हो गया है जो व्यवहार में अच्छी तरह से काम करते हैं, सबसे विशेष रूप से, GPU कार्यान्वयन का आगमन। DNNs के पहले सफल GPU कार्यान्वयन में से एक, दो समानांतर GPU पर चलता है; फिर भी, उच्च-स्तरीय GPU का उपयोग करके 1000 श्रेणियों की 1.2 मिलियन छवियों पर DNN को प्रशिक्षित करने में लगभग एक सप्ताह का समय लगता है ( इस पेपर को क्रिज़ेव्स्की एट अल द्वारा देखें।)।

B-1) सिग्मॉइड और टैन फ़ंक्शन के बजाय सरल रेक्टिफाइड रैखिक इकाइयों (ReLU) का उपयोग संभवतः DNNs के प्रशिक्षण को संभव बनाने में सबसे बड़ा बिल्डिंग ब्लॉक है। ध्यान दें कि दोनों अवग्रह और tanh कार्य लगभग शून्य ढाल लगभग हर जगह, पर निर्भर करता है कितनी तेजी से वे निम्न से उच्च सक्रियण स्तर से पारगमन; चरम मामले में, जब संक्रमण अचानक होता है, तो हमें एक ऐसा चरण कार्य मिलता है जिसमें एक बिंदु को छोड़कर हर जगह ढलान शून्य होता है जहां संक्रमण होता है।

बी -2) वर्षों में विकसित तंत्रिका नेटवर्क आर्किटेक्चर की कहानी मुझे याद दिलाती है कि कैसे विकास प्रकृति में जीव की संरचना को बदलता है। पैरामीटर साझाकरण (उदाहरण के लिए परतों में), ड्रॉपआउट नियमितीकरण, आरंभीकरण, सीखने की दर अनुसूची, स्थानिक पूलिंग, गहरी परतों में उप-नमूनाकरण, और कई अन्य चालें जिन्हें अब प्रशिक्षण में मानक माना जाता है DNN विकसित किए गए थे, विकसित किए गए थे, अंत में सिलवाया गया था। आज जिस तरह से आज गहरे नेटवर्क के प्रशिक्षण को संभव बनाने के लिए सालों लगे हैं।


3
+1। इस सूत्र में पहला उत्तर जो ओपी के प्रश्नों का पर्याप्त उत्तर प्रदान करता है। कई अच्छे अंक यहां। मेरी एकमात्र बड़ी टिप्पणी यह ​​होगी कि आपके ए और बी के अलावा, सी भी है: उपलब्ध प्रशिक्षण डेटासेट के आकार में भारी वृद्धि। यह कम से कम ए और बी के रूप में महत्वपूर्ण लगता है
अमीबा

1
मुझे नहीं लगता कि रिले इतना महत्वपूर्ण है: एलेक्स krizhevsky कागज ने दावा किया कि यह nn को 6 गुना तेजी से सीख रहा है। आपके द्वारा
उल्लिखित

1
@amoeba: डेटासेट का आकार A के अंतर्गत है। मैंने इसे हाइलाइट करने के लिए टेक्स्ट अपडेट किया है।
सोबी

@ seanv507: वास्तव में, मेरे पास उत्तर लिखते समय दृढ़ नेटवर्क (ConvNets) था। यदि अन्य महत्वपूर्ण कारक हैं (कन्वर्नेट के लिए असंबंधित), जो मैंने याद किया है तो अगर आप उनका उल्लेख करते हैं तो मैं इसकी सराहना करूंगा। मुझे अपने उत्तर को तदनुसार अपडेट करने में खुशी होगी। ReLUs के बारे में, tanh और sigmoid के साथ nns का प्रशिक्षण काफी हद तक गायब हो जाने वाले ग्रेडिएंट्स के मुद्दे के कारण ReLUs के साथ काफी कठिन है: इकाइयाँ आसानी से संतृप्त हो जाती हैं और, एक बार ऐसा होने पर, उन्हें फिर से असंतृप्त होने में लंबा समय लगता है (इकाई होने पर ग्रेडिएटर्स बहुत छोटे होते हैं संतृप्त है)
सोबी

2

"डीप" एनएन और एक मानक एनएन के बीच का अंतर विशुद्ध रूप से गुणात्मक है: इस बात की कोई परिभाषा नहीं है कि "डीप" का क्या अर्थ है। "डीप" का अर्थ Google, फेसबुक और सह द्वारा उपयोग किए जाने वाले अत्यंत परिष्कृत आर्किटेक्चर से कुछ भी हो सकता है, जिसमें 50-80 या उससे अधिक परतें हैं, 2 छिपे हुए परतों (4 परत कुल) आर्किटेक्चर के लिए। मुझे आश्चर्य नहीं होगा यदि आप एक छिपी हुई परत के साथ गहन सीखने का दावा करने वाले लेख भी पा सकते हैं, क्योंकि "गहरा" का अर्थ बहुत अधिक नहीं है।

"न्यूरल नेटवर्क" भी एक ऐसा शब्द है जिसका कोई बहुत सटीक अर्थ नहीं है। यह विभिन्न सक्रियकरण कार्यों के साथ फीडफोवर्ड आर्किटेक्चर के लिए यादृच्छिक बोल्ट्जमैन मशीनों (जो अप्रत्यक्ष रेखांकन) से मॉडल का एक बहुत बड़ा पहनावा कवर करता है। अधिकांश एनएनपी को बैकप्रॉप का उपयोग करके प्रशिक्षित किया जाएगा, लेकिन ऐसा नहीं होना चाहिए, यहां तक ​​कि प्रशिक्षण एल्गोरिदम बहुत समरूप नहीं हैं।

कुल मिलाकर, गहरी शिक्षा, गहरे एनएन और एनएन सभी कैच-वे शब्द बन गए हैं, जो दृष्टिकोणों की भीड़ को पकड़ते हैं।

"क्या बदल गया" में अच्छे परिचयात्मक संदर्भों के लिए: प्रतिनिधियों का गहन सीखना: आगे की खोज , बेंगियो, 2013 भविष्य के लिए एक अच्छी समीक्षा + परिप्रेक्ष्य है। यह भी देखें कि क्या डीप नेट्स वास्तव में डीप होना चाहिए? बीए एंड कारूआना, 2013 जो बताता है कि गहरी होना प्रतिनिधित्व के लिए नहीं बल्कि सीखने के लिए उपयोगी हो सकता है।


आपके द्वारा दिए गए संदर्भ बहुत सहायक होते हैं, लेकिन शेष उत्तर वर्तमान रूप में (जो "एनएन का मतलब नहीं है, डीएनएन का मतलब कुछ भी नहीं है, एनएन और डीएनएन बहुत कुछ कर सकते हैं") बहुत ज्यादा नहीं है, आप इसे संशोधित करने पर विचार करते हैं?
निकोलस

1

डेविड गैस्केज़ के उत्तर पर विस्तार करने के लिए, गहरे तंत्रिका नेटवर्क और पारंपरिक तंत्रिका नेटवर्क के बीच मुख्य अंतर यह है कि हम केवल गहरे तंत्रिका जाल के लिए बैकप्रोपैजेशन का उपयोग नहीं करते हैं।

क्यों? क्योंकि बैकप्रॉपैगैशन ट्रेनें बाद में परतों की तुलना में अधिक कुशलता से लेट जाती हैं - जैसा कि आप नेटवर्क में पहले और पहले जाते हैं, त्रुटियां छोटी और अधिक फैल जाती हैं। तो एक दस-परत नेटवर्क मूल रूप से यादृच्छिक भार की सात परतें होंगी, जिसके बाद फिट किए गए भार की तीन परतें होंगी, और साथ ही साथ तीन परत नेटवर्क भी होंगे। अधिक के लिए यहाँ देखें ।

इसलिए वैचारिक सफलता अलग-अलग समस्याओं (लेबल वाली परतों) को अलग-अलग समस्याओं के रूप में मान रही है - अगर हम पहली बार एक अच्छी तरह से एक अच्छी इमारत बनाने की समस्या को हल करने की कोशिश करते हैं, और फिर एक दूसरी अच्छी तरह से दूसरी परत के निर्माण की समस्या को हल करने की कोशिश करते हैं, आखिरकार हमारे पास एक गहरी सुविधा होगी जिसे हम अपनी वास्तविक समस्या को खिला सकते हैं।


1

एनएन:

  • एक छिपी हुई परत पर्याप्त है, लेकिन कई परतें हो सकती हैं, फिर भी दाएं क्रम से बाएं (मॉडल: आगे एनएन फ़ीड)
  • केवल पर्यवेक्षित तरीके से प्रशिक्षण (बैकप्रॉपैजेशन)
  • जब एक से अधिक परतों का उपयोग किया जाता है, तो एक ही समय में सभी परतों को प्रशिक्षित करें (एक ही एल्गोरिथ्म: बैकप्रोपेगेशन), अधिक परतें उपयोग करने में मुश्किल बनाती हैं क्योंकि त्रुटियां बहुत छोटी हो जाती हैं।
  • यह समझना कठिन है कि प्रत्येक परत पर क्या सीखा जाता है

DNN:

  • कई परतों की आवश्यकता होती है, अप्रत्यक्ष किनारों (मॉडल: प्रतिबंधित बोल्ट्जमैन मशीन)
  • पहले एक असुरक्षित तरीके से प्रशिक्षित किया जाता है, जहां नेटवर्क इसके इनपुट को पुन: पेश करने के लिए सीखकर प्रासंगिक सुविधाओं को सीखता है, फिर एक पर्यवेक्षित तरीके से प्रशिक्षित किया जाता है जो वर्गीकृत करने के लिए सुविधाओं को ठीक करता है
  • आउटपुट लेयर से आउटपुट लेयर एक-एक करके ट्रेन करें (एल्गोरिथम: कंट्रासेप्टिव डाइवर्जेंस)
  • प्रत्येक परत स्पष्ट रूप से बढ़ती अमूर्तता की विशेषताएं समाहित करती है

DNN के लिए कदम तीन स्वतंत्र सफलताओं के कारण है जो 2006 में हुआ था।

एनएन पर प्रमेयों के बारे में, एक प्रश्न है:

  • सार्वभौमिक सन्निकटन प्रमेय या साइबेंको प्रमेय: एक फीड-फॉरवर्ड न्यूरल नेटवर्क जिसमें एक छिपी हुई परत है, किसी भी निरंतर कार्य को अनुमानित कर सकती है। हालांकि व्यवहार में इसे और अधिक न्यूरॉन्स की आवश्यकता हो सकती है यदि एक छिपी हुई परत का उपयोग किया जाता है।

2
-1? वास्तव में? मैंने साहित्य में यह सब पढ़ा और दोनों दृष्टिकोणों की तुलना करके एक बिंदु बनाया! कृपया कम से कम यह बताएं कि क्या सही नहीं है ...
निकोलस

3
मैंने डाउनवोट नहीं किया (शायद एक डाउनवॉटर को यह पसंद नहीं था कि आप अपने प्रश्न का उत्तर दें; लेकिन यह बिल्कुल यहां ठीक है), लेकिन यहां एक बात है जो पूरी तरह से सही नहीं है। आप DNN के गुणों के रूप में जो सूची देते हैं: वह किनारा अप्रत्यक्ष है, कि यह पहले एक असुरक्षित तरीके से प्रशिक्षित है, कि परतों को एक-एक करके प्रशिक्षित किया जाता है - यह सब केवल 2006 में Hinton द्वारा सुझाए गए गहन विश्वास नेटवर्क को संदर्भित करता है । यह नहीं है सामान्य रूप से गहरे तंत्रिका नेटवर्क के लिए जरूरी सच है और वास्तव में उन सभी के बिना एक गहरे नेटवर्क को प्रशिक्षित करने के कई तरीके हैं। मेरा जवाब देखिए।
अमीबा

1

O(n) सांख्यिकीय अनुमानक हैं, जो उच्च आयामी बड़े डेटासेट (जैसे कल्पना) के लिए अच्छी तरह से काम कर रहे हैं।

मुझे लगता है कि आपको पीछे हटना चाहिए और देखना चाहिए कि इसने उथले एआई में पुनरुत्थान पैदा किया है - उदाहरण के लिए भाव विश्लेषण और अन्य भाषा अनुप्रयोगों के लिए शब्दों का बैग और शब्दों का दृश्य बैग डीएनएन से पहले छवि मान्यता के लिए अग्रणी था। कोई नहीं कह रहा है कि शब्दों का बैग भाषा का एक सच्चा मॉडल है, लेकिन यह एक प्रभावी इंजीनियरिंग समाधान है। तो मैं कहूंगा कि DNN एक बेहतर 'शब्दों का दृश्य बैग' है - उदाहरण के लिए सजेगी एट अल। 2013 तंत्रिका नेटवर्क और गुयेन एट अल। डीप न्यूरल नेटवर्क्स आसानी से Fooled: हाई कॉन्फिडेंस प्रेडिक्शन्स फॉर अनकॉन्स्क्राइबल इमेजेज जहाँ यह स्पष्ट है कि कोई उच्च ऑर्डर स्ट्रक्चर्स आदि नहीं सीखा जा रहा है (या DNN के लिए जो भी दावा किया गया है)।


@ यामोइबा यह अन्य पेपर लगभग पहले (फिर से बहुत सारी छवियों के साथ) एक साथी पेपर है
seanv507

0

डीप लर्निंग मशीन लर्निंग में एल्गोरिदम का एक सेट है जो कई गैर-रेखीय परिवर्तनों से बना आर्किटेक्चर का उपयोग करके डेटा में उच्च-स्तरीय अमूर्त मॉडल बनाने का प्रयास करता है ।

स्रोत: अर्नो कैंडल

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.