मुझे खेल के लिए बहुत देर हो चुकी है, लेकिन मैं कनेक्शन छोड़ने के लिए सम्मानजनक तंत्रिका नेटवर्क में कुछ मौजूदा विकास को प्रतिबिंबित करने के लिए पोस्ट करना चाहता था ।
Microsoft रिसर्च टीम ने हाल ही में ImageNet 2015 प्रतियोगिता जीती और अपने कुछ मुख्य विचारों का वर्णन करते हुए एक तकनीकी रिपोर्ट दीप रेजिडेंशियल लर्निंग फॉर इमेज रिकॉग्निशन जारी की ।
उनके मुख्य योगदानों में से एक यह गहरी अवशिष्ट परतों की अवधारणा है । ये गहरी अवशिष्ट परतें स्किप कनेक्शन का उपयोग करती हैं । इन गहरी अवशिष्ट परतों का उपयोग करते हुए, वे इमेजनेट 2015 के लिए 152 लेयर कन्टेन नेट को प्रशिक्षित करने में सक्षम थे। उन्होंने CIFAR-10 के लिए 1000+ लेयर का कॉन्ट नेट भी प्रशिक्षित किया।
जो समस्या उन्हें प्रेरित करती है वह निम्नलिखित है:
जब गहरे नेटवर्क अभिसरण शुरू करने में सक्षम होते हैं, तो एक गिरावट की समस्या सामने आ जाती है: नेटवर्क की गहराई बढ़ने के साथ, सटीकता संतृप्त हो जाती है (जो कि अनिश्चित हो सकती है) और फिर तेजी से गिरावट आती है। अप्रत्याशित रूप से, इस तरह की गिरावट ओवरफिटिंग के कारण नहीं होती है , और अधिक गहरी मॉडल में अधिक परतों को जोड़ने से उच्च प्रशिक्षण प्राप्त होता है ...
विचार यह है कि यदि आप एक "उथले" नेटवर्क को लेते हैं और एक गहरी नेटवर्क बनाने के लिए अधिक परतों पर बस स्टैक करते हैं, तो गहरे नेटवर्क का प्रदर्शन कम से कम उतना ही अच्छा होना चाहिए जितना कि उथले नेटवर्क उतना ही अच्छा हो जितना कि सटीक उथला सीख सके नए स्टैक्ड लेयर्स को पहचान लेयर्स पर सेट करके नेटवर्क (वास्तव में हम जानते हैं कि यह संभवत: बिना वास्तुशिल्प पुजारी या वर्तमान अनुकूलन विधियों का उपयोग किए होने की संभावना बहुत अधिक है)। उन्होंने देखा कि यह मामला नहीं था और प्रशिक्षण की त्रुटि कभी-कभी खराब हो जाती है जब वे एक shallower मॉडल के शीर्ष पर अधिक परतों को ढेर कर देते हैं।
तो इसने उन्हें प्रेरित कनेक्शन का उपयोग करने के लिए प्रेरित किया और तथाकथित गहरी अवशिष्ट परतों का उपयोग करने के लिए उनके नेटवर्क को पहचान परत से विचलन सीखने की अनुमति दी, इसलिए अवशिष्ट , अवशिष्ट शब्द यहां पहचान से अंतर का उल्लेख करते हैं।
वे निम्नलिखित तरीके से स्किप कनेक्शन लागू करते हैं:
इसलिए वे का नक्शा देखते हैंएफ( x ) : = H ( x ) - xएफ( x ) + x = H ( x )एफ( x )एच (एक्स)
इस तरीके से स्किप कनेक्शन के माध्यम से गहरी अवशिष्ट परतों का उपयोग उनके गहरे जाल को अनुमानित पहचान परतों को सीखने की अनुमति देता है, अगर यह वास्तव में इष्टतम है, या स्थानीय रूप से इष्टतम है। वास्तव में वे दावा करते हैं कि उनकी अवशिष्ट परतें:
हम प्रयोगों (चित्र 7) द्वारा दिखाते हैं कि सामान्य रूप से सीखे गए अवशिष्ट कार्यों में छोटी प्रतिक्रियाएं होती हैं
जैसा कि वास्तव में यह काम करता है उनके पास सटीक उत्तर नहीं है। यह अत्यधिक संभावना नहीं है कि पहचान परतें इष्टतम हैं, लेकिन उनका मानना है कि इन अवशिष्ट परतों का उपयोग समस्या को सुलझाने में मदद करता है और पहचान को मैप करने की तुलना में पहचान मानचित्रण की तुलना में एक नया फ़ंक्शन सीखना आसान है। पहचान आधार का उपयोग किए बिना। कौन जाने। लेकिन मुझे लगा कि यह आपके सवाल का एक अच्छा जवाब होगा।
वैसे, hindsight में: sashkello का जवाब और भी बेहतर है ना?