क्या गहरे अवशिष्ट नेटवर्क को नेटवर्क के एक समूह के रूप में देखा जाना चाहिए?


12

यह प्रश्न डीप रेजिडेंशियल नेटवर्क्स ( रेसनेट्स ) की वास्तुकला के बारे में है । वह मॉडल जिसने सभी पाँच मुख्य ट्रैक्स में "लार्ज स्केल विजुअल रिकॉग्निशन चैलेंज 2015" (ILSVRC2015) में 1-स्थान जीता है :

यह काम निम्नलिखित लेख में वर्णित है:

छवि पहचान के लिए गहन अवशिष्ट शिक्षण (2015, पीडीएफ)


Microsoft अनुसंधान दल (ResNets के डेवलपर्स: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun) अपने लेख में:

" डीप रेजिडेंशियल नेटवर्क्स में पहचान की मैपिंग (2016) "

यह बताएं कि गहराई एक महत्वपूर्ण भूमिका निभाती है:

" हम एक सरल लेकिन आवश्यक अवधारणा के माध्यम से इन परिणामों को प्राप्त करते हैं - गहरा जा रहा है। ये परिणाम गहराई की सीमाओं को आगे बढ़ाने की क्षमता प्रदर्शित करते हैं। "

यह उनकी प्रस्तुति में भी जोर दिया गया है (गहरा - बेहतर):

- "एक गहरे मॉडल में उच्च प्रशिक्षण त्रुटि नहीं होनी चाहिए।"
- "डीपर रेसनेट्स में प्रशिक्षण त्रुटि कम होती है, और परीक्षण त्रुटि भी कम होती है।"
- "डीपर रेसनेट्स में त्रुटि कम होती है।"
- "सभी को गहरी सुविधाओं से अधिक लाभ होता है - संचयी लाभ!"
- "डीपर अभी भी बेहतर है।"

यहाँ 34-परत अवशिष्ट (संदर्भ के लिए) का संकरण है: यहाँ छवि विवरण दर्ज करें


लेकिन हाल ही में मुझे एक सिद्धांत मिला है जिसमें अवशिष्ट नेटवर्क की एक उपन्यास व्याख्या का परिचय दिया गया है जिसमें दिखाया गया है कि वे घातांक हैं:

अवशिष्ट नेटवर्क अपेक्षाकृत शोलो नेटवर्क (2016) के घातांक हैं

डीप रेसनेट को कई उथले नेटवर्क के रूप में वर्णित किया जाता है, जिनके आउटपुट विभिन्न गहराई पर रखे जाते हैं। लेख में एक तस्वीर है। मैं इसे स्पष्टीकरण के साथ संलग्न करता हूं:

यहाँ छवि विवरण दर्ज करेंअवशिष्ट नेटवर्क पारंपरिक रूप से (ए) के रूप में दिखाए जाते हैं, जो समीकरण (1) का एक प्राकृतिक प्रतिनिधित्व है। जब हम समीकरण (6) के लिए इस सूत्रीकरण का विस्तार करते हैं, तो हम 3-ब्लॉक अवशिष्ट नेटवर्क (बी) का एक अप्रकाशित दृश्य प्राप्त करते हैं। इस दृष्टिकोण से, यह स्पष्ट है कि अवशिष्ट नेटवर्क में इनपुट और आउटपुट को जोड़ने वाले O (2 ^ n) निहित पथ हैं और ब्लॉक को जोड़ने से पथों की संख्या दोगुनी हो जाती है।

लेख के निष्कर्ष में कहा गया है:

यह गहराई नहीं है, लेकिन पहनावा जो अवशिष्ट नेटवर्क को मजबूत बनाता है । अवशिष्ट नेटवर्क नेटवर्क की बहुलता की सीमाओं को धक्का देते हैं, नेटवर्क की गहराई को नहीं। हमारे प्रस्तावित अप्रकाशित दृश्य और घाव अध्ययन से पता चलता है कि अवशिष्ट नेटवर्क तेजी से कई नेटवर्क का एक अंतर्निहित पहनावा है। यदि अधिकांश पथ जो ढाल में योगदान करते हैं, नेटवर्क की समग्र गहराई की तुलना में बहुत कम हैं, तो बढ़ी हुई गहराई अकेले अवशिष्ट नेटवर्क की प्रमुख विशेषता नहीं हो सकती है। अब हम मानते हैं कि गुणन , पथ की संख्या के संदर्भ में नेटवर्क की अभिव्यक्ति, एक महत्वपूर्ण भूमिका निभाता है

लेकिन यह केवल एक हालिया सिद्धांत है जिसकी पुष्टि या खंडन किया जा सकता है। ऐसा कभी-कभी होता है कि कुछ सिद्धांतों का खंडन किया जाता है और लेख वापस ले लिए जाते हैं।


क्या हमें सभी के बाद एक गहरी समानता के रूप में सोचना चाहिए? पहनावा या गहराई अवशिष्ट नेटवर्क को इतना मजबूत बनाती है? क्या यह संभव है कि यहां तक ​​कि स्वयं डेवलपर्स भी यह महसूस नहीं करते हैं कि उनका अपना मॉडल क्या दर्शाता है और इसमें महत्वपूर्ण अवधारणा क्या है?

जवाबों:


4

एक जिन्न की कल्पना करें कि आप तीन इच्छाओं को पूरा करते हैं। क्योंकि आप एक महत्वाकांक्षी गहरी शिक्षा शोधकर्ता हैं, आपकी पहली इच्छा छवि नेट के लिए 1000-परत एनएन के लिए एक सही समाधान है, जो तुरंत आपके लैपटॉप पर दिखाई देती है।

अब एक जिन्न प्रेरित समाधान आपको कोई अंतर्ज्ञान नहीं देता है कि इसे एक पहनावा के रूप में कैसे समझा जा सकता है, लेकिन क्या आप वास्तव में मानते हैं कि कुत्ते से बिल्ली को अलग करने के लिए आपको अमूर्त की 1000 परतों की आवश्यकता है? जैसा कि "पहनावा कागज" के लेखक खुद का उल्लेख करते हैं, यह निश्चित रूप से जैविक प्रणालियों के लिए सच नहीं है।

बेशक आप नेटवर्क की एक टुकड़ी में समाधान के अपघटन पर अपनी दूसरी इच्छा को बर्बाद कर सकते हैं, और मुझे पूरा यकीन है कि जिन्न उपकृत करने में सक्षम होगा। कारण यह है कि एक गहरे नेटवर्क की शक्ति का हिस्सा हमेशा पहनावा प्रभाव से आएगा।

इसलिए यह आश्चर्य की बात नहीं है कि गहरे नेटवर्क, ड्रॉपआउट और अवशिष्ट नेटवर्क को प्रशिक्षित करने के लिए दो बहुत ही सफल ट्रिक, निहित अनुमान के रूप में एक तत्काल व्याख्या है। इसलिए "यह गहराई नहीं है, लेकिन पहनावा" मुझे झूठे द्वंद्ववाद के रूप में मारता है। आप वास्तव में केवल यह कहेंगे कि यदि आप ईमानदारी से मानते हैं कि आपको मानवीय सटीकता के साथ छवियों को वर्गीकृत करने के लिए सैकड़ों या हजारों स्तरों के अमूर्त की आवश्यकता है।

मेरा सुझाव है कि आप किसी और चीज़ के लिए अंतिम इच्छा का उपयोग करें, शायद एक पिनकोलडा।


0

कई गैर-रैखिकताओं के लिए यादृच्छिक अवशिष्ट नेटवर्क जैसे कि तनह अराजकता के किनारे पर रहते हैं, जिसमें दो इनपुट वैक्टर की कोसिन दूरी एक बहुपद दर पर एक निश्चित बिंदु पर परिवर्तित हो जाएगी, न कि एक घातीय दर की तुलना में, जैसे वेनिला तन नेटवर्क के साथ। इस प्रकार एक ठेठ अवशिष्ट नेटवर्क धीरे-धीरे गहराई के साथ स्थिर-अराजक सीमा को पार करेगा, कई परतों के लिए इस सीमा के आसपास मँडराएगा। मूल रूप से यह इनपुट स्पेस की ज्यामिति "बहुत जल्दी" नहीं भूलता है। इसलिए भले ही हम उन्हें काफी गहरा बना दें, लेकिन वे बेहतर तरीके से काम करते हैं।

अवशिष्ट नेटवर्क में जानकारी के प्रसार के बारे में अधिक जानकारी के लिए - मीन फील्ड अवशिष्ट नेटवर्क: अराजकता के किनारे पर

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.