आइए एक ट्रिविलीटी से शुरू करें: डीप न्यूरल नेटवर्क केवल एक फीडफॉर्वर्ड नेटवर्क है जिसमें कई छिपी हुई परतें होती हैं।
यह कमोबेश सभी परिभाषा के बारे में कहना है। तंत्रिका नेटवर्क आवर्तक या फीडफोर्वर्ड हो सकते हैं; फीडफ़वर्ड लोगों के पास उनके ग्राफ़ में कोई लूप नहीं होता है और उन्हें परतों में व्यवस्थित किया जा सकता है। यदि "कई" परतें हैं, तो हम कहते हैं कि नेटवर्क गहरा है ।
कैसे कई परतों नेटवर्क आदेश के रूप में गहरी योग्य बनने के लिए है करने के लिए है? इसका कोई निश्चित उत्तर नहीं है (यह थोड़ा पूछना है कि कितने अनाज ढेर बनाते हैं ), लेकिन आमतौर पर दो या अधिक छिपी हुई परतें गहरी होती हैं। इसके विपरीत, केवल एक छिपी हुई परत वाले नेटवर्क को पारंपरिक रूप से "उथला" कहा जाता है। मुझे संदेह है कि यहां कुछ मुद्रास्फीति चल रही होगी, और दस वर्षों में लोग सोच सकते हैं कि कम से कम कुछ भी, कहते हैं, दस परतें उथली हैं और केवल बालवाड़ी अभ्यास के लिए उपयुक्त हैं। अनौपचारिक रूप से, "गहरा" बताता है कि नेटवर्क को संभालना मुश्किल है।
यहाँ एक उदाहरण दिया गया है, यहाँ से अनुकूलित किया गया है :
लेकिन आप जो वास्तविक सवाल पूछ रहे हैं, वह निश्चित रूप से, कई परतें फायदेमंद क्यों होंगी?
मुझे लगता है कि कुछ आश्चर्यजनक जवाब यह है कि कोई भी वास्तव में नहीं जानता है। कुछ सामान्य स्पष्टीकरण है कि मैं संक्षेप में नीचे की समीक्षा करेंगे रहे हैं, लेकिन उनमें से कोई भी आसानी से सच होना प्रदर्शित किया गया है, और एक भी यकीन है कि कई परतों होने नहीं किया जा सकता है वास्तव में फायदेमंद है।
मैं कहता हूं कि यह आश्चर्यजनक है, क्योंकि गहन शिक्षण व्यापक रूप से लोकप्रिय है, हर साल सभी रिकॉर्ड तोड़ रहा है (छवि मान्यता से, गो खेलने के लिए, स्वचालित अनुवाद आदि), हर साल उद्योग द्वारा उपयोग किया जा रहा है, आदि और। हम अभी भी नहीं कर रहे हैं काफी यकीन है कि क्यों यह इतनी अच्छी तरह से काम करता है।
मैं पर मेरी चर्चा का आधार दीप लर्निंग गुडफेलो, Bengio, और Courville से पुस्तक है जिसमें 2017 में बाहर गया और व्यापक रूप से माना जाता है गहरी सीखने पर किताब। (यह स्वतंत्र रूप से ऑनलाइन उपलब्ध है।) संबंधित खंड 6.4.1 सार्वभौमिक अनुमोदन गुण और गहराई है ।
आपने वो लिखा
कक्षा में 10 साल पहले मुझे पता चला कि कई परतें या एक परत (इनपुट और आउटपुट परतों की गिनती नहीं करना) उन कार्यों के संदर्भ में बराबर थी जो एक तंत्रिका नेटवर्क का प्रतिनिधित्व करने में सक्षम है [...]
आप तथाकथित सन्निकटन प्रमेय का उल्लेख कर रहे होंगे, जिसे 1989 में साइबेंको ने साबित किया और 1990 के दशक में विभिन्न लोगों द्वारा सामान्यीकृत किया गया। यह मूल रूप से कहता है कि एक उथला तंत्रिका नेटवर्क (1 छिपी परत के साथ) किसी भी फ़ंक्शन को अनुमानित कर सकता है , अर्थात सिद्धांत रूप में कुछ भी सीख सकता है । यह विभिन्न nonlinear सक्रियण कार्यों के लिए सही है, जिसमें सुधारा हुआ रैखिक इकाइयाँ शामिल हैं जो कि अधिकांश तंत्रिका नेटवर्क आज उपयोग कर रहे हैं ( इस परिणाम के लिए पाठ्यपुस्तक Leshno et al। 1993 का संदर्भ देते हैं )।
यदि ऐसा है, तो हर कोई गहरे जाल का उपयोग क्यों कर रहा है?
ठीक है, एक भोला जवाब है क्योंकि वे बेहतर काम करते हैं। यहां दीप लर्निंग पुस्तक से एक आंकड़ा दिखाया गया है कि यह एक विशेष कार्य में अधिक परतें बनाने में मदद करता है, लेकिन एक ही घटना अक्सर विभिन्न कार्यों और डोमेन में देखी जाती है:
हम जानते हैं कि उथला नेटवर्क उतना ही अच्छा प्रदर्शन कर सकता है जितना गहरा। लेकिन ऐसा नहीं है; और वे आम तौर पर नहीं करते हैं। सवाल है --- क्यों? संभावित जवाब:
- शायद एक उथले नेटवर्क को और अधिक न्यूरॉन्स की आवश्यकता होगी फिर गहरी एक?
- शायद एक उथला नेटवर्क हमारे वर्तमान एल्गोरिदम के साथ प्रशिक्षित करना अधिक कठिन है (जैसे कि इसमें अधिक गंदा स्थानीय मिनीमा है, या अभिसरण दर धीमी है, या जो भी है)?
- हो सकता है कि एक उथली वास्तुकला उस तरह की समस्याओं के लिए उपयुक्त नहीं है जिसे हम आमतौर पर हल करने की कोशिश कर रहे हैं (जैसे वस्तु मान्यता एक सर्वोत्कृष्ट "गहरी", श्रेणीबद्ध प्रक्रिया है)?
- कुछ और?
दीप लर्निंग पुस्तक बुलेट बिंदुओं # 1 और # 3 के लिए तर्क है। सबसे पहले, यह तर्क देता है कि उथले नेटवर्क में इकाइयों की संख्या कार्य जटिलता के साथ तेजी से बढ़ती है। तो एक उथले नेटवर्क उपयोगी होने के लिए बहुत बड़ा होने की आवश्यकता हो सकती है; संभवतः एक गहरे नेटवर्क की तुलना में बहुत बड़ा है। यह कई कागजात पर आधारित है जो साबित करता है कि उथले नेटवर्क कुछ मामलों में तेजी से कई न्यूरॉन्स की आवश्यकता होगी; लेकिन क्या उदाहरण के लिए MNIST वर्गीकरण या गो खेलना ऐसे मामले हैं जो वास्तव में स्पष्ट नहीं हैं। दूसरा, पुस्तक यह कहती है:
एक गहरे मॉडल को चुनना एक बहुत ही आम धारणा है कि जिस फ़ंक्शन को हम सीखना चाहते हैं, उसमें कई सरल कार्यों की संरचना शामिल होनी चाहिए। यह एक प्रतिनिधित्व सीखने के दृष्टिकोण से कहा जा सकता है कि हम मानते हैं कि सीखने की समस्या में भिन्नता के अंतर्निहित कारकों के एक समूह की खोज शामिल है जो बदले में भिन्नता के अन्य, सरल अंतर्निहित कारकों के रूप में वर्णित किया जा सकता है।
मुझे लगता है कि वर्तमान "आम सहमति" यह है कि यह बुलेट पॉइंट # 1 और # 3 का संयोजन है: वास्तविक दुनिया के कार्यों के लिए गहरी वास्तुकला अक्सर फायदेमंद होती है और उथले वास्तुकला अक्षम होती है और एक ही प्रदर्शन के लिए बहुत अधिक न्यूरॉन्स की आवश्यकता होती है।
लेकिन यह सिद्ध से बहुत दूर है। उदाहरण के लिए, ज़ागोरयुको और कोमोडाकिस, 2016, वाइड अवशिष्ट नेटवर्क पर विचार करें । अवशिष्ट नेटवर्क 150+ परतों के साथ 2015 में दिखाई दिया और विभिन्न छवि पहचान प्रतियोगिता जीती। यह एक बड़ी सफलता थी और गहरेपन के पक्ष में एक सम्मोहक तर्क की तरह लग रही थी; यहां अवशिष्ट नेटवर्क पेपर पर पहले लेखक द्वारा एक प्रस्तुति से एक आंकड़ा है (ध्यान दें कि भ्रमित समय यहां बाईं ओर जाता है):
लेकिन ऊपर दिए गए कागज से पता चलता है कि "केवल" 16 परतों के साथ एक "विस्तृत" अवशिष्ट नेटवर्क 150 + परतों के साथ "गहरी" को बेहतर बना सकता है। यदि यह सच है, तो उपरोक्त आंकड़ा का पूरा बिंदु टूट जाता है।
या बा और कारुआना पर विचार करें , 2014, क्या डीप नेट्स वास्तव में डीप होने की आवश्यकता है? :
इस पत्र में हम अनुभवजन्य साक्ष्य प्रदान करते हैं कि उथले जाल गहरे जाल के समान कार्य को सीखने में सक्षम हैं, और कुछ मामलों में गहरे जाल के समान मापदंडों के साथ। हम पहले एक अत्याधुनिक डीप मॉडल का प्रशिक्षण लेते हैं, और फिर गहरे मॉडल की नकल करने के लिए उथले मॉडल का प्रशिक्षण लेते हैं। नकल मॉडल अगले अनुभाग में वर्णित मॉडल संपीड़न योजना का उपयोग करके प्रशिक्षित किया गया है। उल्लेखनीय रूप से, मॉडल संपीड़न के साथ हम उथले जाल को प्रशिक्षित करने में सक्षम होते हैं कुछ गहरे मॉडल के रूप में सटीक होते हैं, भले ही हम इन उथले जालों को प्रशिक्षित करने में सक्षम नहीं होते हैं जब उथले जाल सीधे मूल जाल पर प्रशिक्षित होते हैं। लेबल प्रशिक्षण डेटा। यदि एक गहरी शुद्ध के रूप में मापदंडों की एक ही संख्या के साथ एक उथले जाल उच्च निष्ठा के साथ एक गहरे जाल की नकल करने के लिए सीख सकते हैं,
अगर सच है, तो इसका मतलब यह होगा कि सही स्पष्टीकरण मेरी बुलेट # 2 है, न कि # 1 या # 3।
जैसा कि मैंने कहा --- कोई भी वास्तव में अभी तक निश्चित रूप से नहीं जानता है।
समापन टिप्पणी
पिछले ~ 10 वर्षों में गहन सीखने में हासिल की गई प्रगति की मात्रा वास्तव में आश्चर्यजनक है, लेकिन इस प्रगति में से अधिकांश परीक्षण और त्रुटि द्वारा प्राप्त की गई थी, और हम अभी भी बहुत बुनियादी समझ की कमी है कि वास्तव में गहरी जाल इतनी अच्छी तरह से काम करने के लिए क्या बनाती है। यहां तक कि उन चीजों की सूची, जिन्हें लोग एक प्रभावी गहरे नेटवर्क की स्थापना के लिए महत्वपूर्ण मानते हैं, हर दो साल में बदलने लगता है।
2006 में गहन शिक्षण पुनर्जागरण तब शुरू हुआ जब जेफ्री हिंटन (जो किसी से बहुत अधिक ब्याज के बिना 20+ वर्षों से तंत्रिका नेटवर्क पर काम कर रहे थे) ने गहरे नेटवर्क को प्रशिक्षित करने के लिए एक प्रभावी तरीके की पेशकश करते हुए दो कागजात प्रकाशित किए ( साइंस पेपर , न्यूरल कंप्रेशन पेपर ) । चाल ढाल वंश शुरू करने से पहले अप्रकाशित पूर्व प्रशिक्षण का उपयोग करना था । इन पत्रों ने क्षेत्र में क्रांति ला दी, और कुछ वर्षों के लिए लोगों ने सोचा कि बिना पूर्व-प्रशिक्षित प्रशिक्षण प्रमुख था।
फिर 2010 में मार्टेंस ने दिखाया कि गहरे तंत्रिका नेटवर्क को दूसरे क्रम के तरीकों (तथाकथित हेसियन-मुक्त तरीकों) के साथ प्रशिक्षित किया जा सकता है और पूर्व प्रशिक्षण के साथ प्रशिक्षित नेटवर्क को बेहतर बना सकता है: हेसियन-मुक्त अनुकूलन के माध्यम से गहन सीखने । फिर 2013 में Sutskever एट अल। दिखाया कि कुछ बहुत ही चालाक चाल के साथ स्टोकेस्टिक ढाल वंश Hessian मुक्त तरीकों से बेहतर प्रदर्शन कर सकते हैं: गहन शिक्षा में आरंभीकरण और गति के महत्व पर । इसके अलावा, 2010 के आसपास लोगों को एहसास हुआ कि सिग्मॉइड इकाइयों के बजाय रेक्टिफाइड रैखिक इकाइयों का उपयोग करने से ढाल वंश के लिए बहुत बड़ा अंतर पड़ता है। ड्रॉपआउट 2014 में दिखाई दिया। अवशिष्ट नेटवर्क 2015 में दिखाई दिए। लोग गहरे नेटवर्क को प्रशिक्षित करने के लिए अधिक से अधिक प्रभावी तरीकों के साथ आते रहते हैं और10 साल पहले एक प्रमुख अंतर्दृष्टि की तरह लग रहा था कि आज अक्सर एक उपद्रव माना जाता है। यह सब काफी हद तक परीक्षण और त्रुटि से प्रेरित है और इस बात की बहुत कम समझ है कि कुछ चीजें इतनी अच्छी तरह से काम करती हैं और कुछ अन्य चीजें नहीं। डीप नेटवर्क का प्रशिक्षण ट्रिक्स के एक बड़े बैग की तरह है। सफल ट्रिक आमतौर पर तर्कसंगत रूप से पोस्ट फैक्टम होते हैं।
हम यह भी नहीं जानते हैं कि गहरे नेटवर्क एक प्रदर्शन पठार तक क्यों पहुँचते हैं; सिर्फ 10 साल में लोग स्थानीय मिनीमा को दोष देते थे, लेकिन वर्तमान सोच यह है कि यह वह बिंदु नहीं है (जब पूर्णता के पठार, ग्रेडिएंट बड़े बने रहते हैं)। यह गहरी नेटवर्क के बारे में इस तरह के एक बुनियादी सवाल है, और हम यह भी नहीं जानते यह ।
अद्यतन: यह कमोबेश अली रहिमी के एनआईपीएस 2017 के विषय पर चर्चा कर रहा है जो कि मशीन लर्निंग पर कीमिया: https://www.youtube.com/watch?v=Qi1Yry33TQE है ।
[यह जवाब पूरी तरह से अप्रैल 2017 में लिखा गया था, इसलिए नीचे दी गई कुछ टिप्पणियां अब लागू नहीं होती हैं।]