न्यूरल नेटवर्क स्किप-लेयर कनेक्शन के साथ


26

मैं तंत्रिका नेटवर्क के साथ प्रतिगमन में दिलचस्पी रखता हूं।

शून्य छिपे हुए नोड्स + स्किप-लेयर कनेक्शन वाले तंत्रिका नेटवर्क रैखिक मॉडल हैं।

एक ही तंत्रिका जाल के बारे में क्या लेकिन छिपे हुए नोड्स के साथ? मैं सोच रहा हूं कि स्किप-लेयर कनेक्शन की भूमिका क्या होगी?

सहज रूप से, मैं कहूंगा कि यदि आप स्किप-लेयर कनेक्शन शामिल करते हैं, तो अंतिम मॉडल में रैखिक मॉडल + कुछ गैर-रैखिक भागों का योग होगा।

क्या तंत्रिका जाल में स्किप-लेयर कनेक्शन को जोड़ने का कोई फायदा या नुकसान है?

जवाबों:


38

मुझे खेल के लिए बहुत देर हो चुकी है, लेकिन मैं कनेक्शन छोड़ने के लिए सम्मानजनक तंत्रिका नेटवर्क में कुछ मौजूदा विकास को प्रतिबिंबित करने के लिए पोस्ट करना चाहता था ।

Microsoft रिसर्च टीम ने हाल ही में ImageNet 2015 प्रतियोगिता जीती और अपने कुछ मुख्य विचारों का वर्णन करते हुए एक तकनीकी रिपोर्ट दीप रेजिडेंशियल लर्निंग फॉर इमेज रिकॉग्निशन जारी की ।

उनके मुख्य योगदानों में से एक यह गहरी अवशिष्ट परतों की अवधारणा है । ये गहरी अवशिष्ट परतें स्किप कनेक्शन का उपयोग करती हैं । इन गहरी अवशिष्ट परतों का उपयोग करते हुए, वे इमेजनेट 2015 के लिए 152 लेयर कन्टेन नेट को प्रशिक्षित करने में सक्षम थे। उन्होंने CIFAR-10 के लिए 1000+ लेयर का कॉन्ट नेट भी प्रशिक्षित किया।

जो समस्या उन्हें प्रेरित करती है वह निम्नलिखित है:

जब गहरे नेटवर्क अभिसरण शुरू करने में सक्षम होते हैं, तो एक गिरावट की समस्या सामने आ जाती है: नेटवर्क की गहराई बढ़ने के साथ, सटीकता संतृप्त हो जाती है (जो कि अनिश्चित हो सकती है) और फिर तेजी से गिरावट आती है। अप्रत्याशित रूप से, इस तरह की गिरावट ओवरफिटिंग के कारण नहीं होती है , और अधिक गहरी मॉडल में अधिक परतों को जोड़ने से उच्च प्रशिक्षण प्राप्त होता है ...

विचार यह है कि यदि आप एक "उथले" नेटवर्क को लेते हैं और एक गहरी नेटवर्क बनाने के लिए अधिक परतों पर बस स्टैक करते हैं, तो गहरे नेटवर्क का प्रदर्शन कम से कम उतना ही अच्छा होना चाहिए जितना कि उथले नेटवर्क उतना ही अच्छा हो जितना कि सटीक उथला सीख सके नए स्टैक्ड लेयर्स को पहचान लेयर्स पर सेट करके नेटवर्क (वास्तव में हम जानते हैं कि यह संभवत: बिना वास्तुशिल्प पुजारी या वर्तमान अनुकूलन विधियों का उपयोग किए होने की संभावना बहुत अधिक है)। उन्होंने देखा कि यह मामला नहीं था और प्रशिक्षण की त्रुटि कभी-कभी खराब हो जाती है जब वे एक shallower मॉडल के शीर्ष पर अधिक परतों को ढेर कर देते हैं।

तो इसने उन्हें प्रेरित कनेक्शन का उपयोग करने के लिए प्रेरित किया और तथाकथित गहरी अवशिष्ट परतों का उपयोग करने के लिए उनके नेटवर्क को पहचान परत से विचलन सीखने की अनुमति दी, इसलिए अवशिष्ट , अवशिष्ट शब्द यहां पहचान से अंतर का उल्लेख करते हैं।

वे निम्नलिखित तरीके से स्किप कनेक्शन लागू करते हैं: यहाँ छवि विवरण दर्ज करें

इसलिए वे का नक्शा देखते हैंएफ(एक्स): =एच(एक्स)-एक्सएफ(एक्स)+एक्स=एच(एक्स)एफ(एक्स)एच(एक्स)

इस तरीके से स्किप कनेक्शन के माध्यम से गहरी अवशिष्ट परतों का उपयोग उनके गहरे जाल को अनुमानित पहचान परतों को सीखने की अनुमति देता है, अगर यह वास्तव में इष्टतम है, या स्थानीय रूप से इष्टतम है। वास्तव में वे दावा करते हैं कि उनकी अवशिष्ट परतें:

हम प्रयोगों (चित्र 7) द्वारा दिखाते हैं कि सामान्य रूप से सीखे गए अवशिष्ट कार्यों में छोटी प्रतिक्रियाएं होती हैं

जैसा कि वास्तव में यह काम करता है उनके पास सटीक उत्तर नहीं है। यह अत्यधिक संभावना नहीं है कि पहचान परतें इष्टतम हैं, लेकिन उनका मानना ​​है कि इन अवशिष्ट परतों का उपयोग समस्या को सुलझाने में मदद करता है और पहचान को मैप करने की तुलना में पहचान मानचित्रण की तुलना में एक नया फ़ंक्शन सीखना आसान है। पहचान आधार का उपयोग किए बिना। कौन जाने। लेकिन मुझे लगा कि यह आपके सवाल का एक अच्छा जवाब होगा।

वैसे, hindsight में: sashkello का जवाब और भी बेहतर है ना?


पूर्वनिर्धारण से आपका क्या अभिप्राय है? (यह भी आपका जवाब sashkello की एक बहुत imho से बेहतर है)। इसके अलावा, समस्या यह है कि स्किप कनेक्शन के बिना आगे की परतें जोड़ने से गहरे नेटवर्क के लिए भी पहचान मानचित्रण ढूंढना मुश्किल हो जाता है? (किसी कारण के लिए?)
चार्ली पार्कर

20

सिद्धांत रूप में, नेटवर्क प्रदर्शन पर स्किप-लेयर कनेक्शन में सुधार नहीं होना चाहिए। लेकिन, चूंकि जटिल नेटवर्क को प्रशिक्षित करना कठिन है और इसे ओवरफिट करना आसान है, इसलिए यह स्पष्ट रूप से एक रेखीय प्रतिगमन शब्द के रूप में जोड़ना उपयोगी हो सकता है, जब आप जानते हैं कि आपके डेटा में एक मजबूत रैखिक घटक है। यह मॉडल को एक सही दिशा में संकेत देता है ... इसके अलावा, यह अधिक व्याख्या योग्य है क्योंकि यह आपके मॉडल को रैखिक + गड़बड़ी के रूप में प्रस्तुत करता है, नेटवर्क के पीछे एक संरचना को थोड़ा उघाड़ता है, जिसे आमतौर पर केवल एक ब्लैक बॉक्स के रूप में देखा जाता है।


@sashkello आप सैद्धांतिक तरीके से 'स्किप-लेयर कनेक्शन नेटवर्क प्रदर्शन में सुधार नहीं करना चाहिए' पर विस्तार से बता सकते हैं। यह समझना बहुत अच्छा होगा।
कूबड़

@ हंक यह इसलिए है क्योंकि आप इसे स्किप-लेयर की आवश्यकता के बिना मॉडल कर सकते हैं। स्किप-लेयर सिर्फ एक रैखिक शब्द है। सिग्मोइड फ़ंक्शन ~ रैखिक लगभग 0. है। इसलिए, एक स्किप-लेयर कनेक्शन एक छिपे हुए नोड की तरह व्यवहार करेगा जिसमें बहुत छोटा इनपुट वज़न होता है।
साशकेलो

5

मेरे पुराने तंत्रिका नेटवर्क टूलबॉक्स (मैं इन दिनों कर्नेल मशीनों का उपयोग करता हूं) ने निरर्थक भार और छिपी इकाइयों को दूर करने के लिए एल 1 नियमितीकरण का उपयोग किया, और इसमें स्किप-लेयर कनेक्शन भी थे। इसका यह लाभ है कि यदि समस्या अनिवार्य रूप से रैखिक है, तो छिपी हुई इकाइयां छंट जाती हैं और आपको एक रेखीय मॉडल के साथ छोड़ दिया जाता है, जो आपको स्पष्ट रूप से बताता है कि समस्या रैखिक है।

जैसा कि sashkello (+1) से पता चलता है, MLPs सार्वभौमिक सन्निकटनक हैं, इसलिए स्किप लेयर कनेक्शन अनंत डेटा और छिपी इकाइयों की अनंत संख्या की सीमा में परिणाम में सुधार नहीं करेंगे (लेकिन जब हम कभी भी उस सीमा तक पहुंचते हैं?)। वास्तविक लाभ यह है कि यह वजन के लिए अच्छे मूल्यों का अनुमान लगाना आसान बनाता है यदि नेटवर्क वास्तुकला समस्या से अच्छी तरह से मेल खाता है, और आप एक छोटे नेटवर्क का उपयोग करने और बेहतर सामान्यीकरण प्रदर्शन प्राप्त करने में सक्षम हो सकते हैं।

हालांकि, अधिकांश न्यूरल नेटवर्क प्रश्नों के साथ, आमतौर पर यह पता लगाने का एकमात्र तरीका है कि क्या यह किसी विशेष डेटासेट के लिए सहायक या हानिकारक होगा, इसे आज़माएं और देखें (विश्वसनीय प्रदर्शन मूल्यांकन प्रक्रिया का उपयोग करके)।


3
"इसे आज़माएं और देखें" - सुनहरे शब्द :)
शशेलो

0

बिशप 5.1 पर आधारित फ़ीड-फ़ॉर्वर्ड नेटवर्क फ़ंक्शंस: नेटवर्क आर्किटेक्चर के सामान्यीकरण का एक तरीका स्किप-लेयर कनेक्शन शामिल करना है, जिनमें से प्रत्येक एक संबंधित अनुकूली पैरामीटर के साथ जुड़ा हुआ है। उदाहरण के लिए, एक दो-परत (दो छिपी-परत) नेटवर्क में ये सीधे इनपुट से आउटपुट तक जाएंगे। सिद्धांत रूप में, सिग्मोइडल छिपी हुई इकाइयों वाला एक नेटवर्क पर्याप्त रूप से छोटे प्रथम-परत वजन का उपयोग करके परत कनेक्शन (बाध्य इनपुट मानों के लिए) की नकल कर सकता है, जो छिपी हुई इकाई प्रभावी रूप से रैखिक है, और फिर एक बड़े के साथ क्षतिपूर्ति करता है। छिपी हुई इकाई से आउटपुट तक वजन का मान।

व्यवहार में, हालांकि, स्किप-लेयर कनेक्शन को स्पष्ट रूप से शामिल करना फायदेमंद हो सकता है।यहाँ छवि विवरण दर्ज करें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.