एक हालिया पेपर द मल्टीफ़ेयर नेटवर्क्स का लॉस सरफेस, इसके लिए कुछ संभावित स्पष्टीकरण प्रदान करता है। उनके सार से (बोल्ड मेरा है):
"हम अनुमान लगाते हैं कि सिम्युलेटेड एनेलिंग और SGD दोनों कम महत्वपूर्ण बिंदुओं के बैंड में परिवर्तित होते हैं, और यह पाया जाता है कि सभी महत्वपूर्ण बिंदुओं में परीक्षण त्रुटि द्वारा मापा गया उच्च गुणवत्ता का स्थानीय मिनीमा है। यह बड़े और छोटे आकार के नेटवर्क के बीच एक प्रमुख अंतर पर जोर देता है। जहां बाद की खराब गुणवत्ता के लिए स्थानीय मिनीमा की गैर-शून्य संभावनाएं बरामद होने की संभावना होती है। अंत में, हम साबित करते हैं कि वैश्विक न्यूनतम पुनर्प्राप्त करना कठिन हो जाता है क्योंकि नेटवर्क का आकार बढ़ता है और यह व्यवहार में अप्रासंगिक है क्योंकि वैश्विक न्यूनतम अक्सर अतिव्यापी हो जाता है । "
गहन शिक्षा में बहुत से प्रभावशाली लोग (कुछ का नाम लेने के लिए यान लेकन और योशुआ बेंगियो) और गणितीय कोण (रोंग जीई और अन्य संजीव अरोड़ा सहयोगियों) से अधिक आने वाले कुछ शोधकर्ता इन विचारों पर चर्चा और खोज कर रहे हैं।
उपर्युक्त संदर्भित पेपर में, चित्र 3 देखें, जिसमें स्थानीय मिनीमा मानों की एक बैंडिंग / एकाग्रता घटना दिखाई देती है क्योंकि नेट में कई छिपी हुई इकाइयाँ होती हैं। बैंडिंग / एकाग्रता कुछ अनुभवजन्य साक्ष्य का प्रतिनिधित्व करता है जो गहरे या बड़े मॉडल के लिए, एक स्थानीय मिनीमा "काफी अच्छा" है, क्योंकि उनके नुकसान के मूल्य लगभग समान हैं। और सबसे महत्वपूर्ण बात, उनके पास एक नुकसान है जो वैश्विक न्यूनतम के करीब है क्योंकि मॉडल अधिक जटिल हो जाता है (इस मामले में व्यापक है, लेकिन व्यवहार में, गहरा)।
इसके अलावा, वे एक स्पिन-ग्लास मॉडल का उपयोग करते हैं, जो वे यहां तक कि केवल एक मॉडल हैं और जरूरी नहीं कि यह सच तस्वीर का संकेत है, यह दिखाने के लिए कि स्थानीय न्यूनतम से वैश्विक न्यूनतम तक पहुंचने में तेजी से लंबा समय लग सकता है:
"कम से कम झूठ बोलने वाले को खोजने के लिए हमें एक काठी बिंदु से गुज़रना होगा। इसलिए हमें कम से कम उस स्तर तक जाना चाहिए जहाँ पर एक रास्ता खोजने के लिए एक अच्छा मौका पाने के लिए काठी बिंदुओं की बराबर मात्रा हो। हमें एक और स्थानीय न्यूनतम करने के लिए। इस प्रक्रिया में एक लंबा समय लगता है इसलिए व्यवहार में वैश्विक न्यूनतम खोजने संभव नहीं है। "
रोंग जीई अनुसंधान काठी बिंदुओं के माध्यम से तोड़ने के आसपास केंद्रित है। Yoshua Bengio और उनके सहयोगियों ने एक बहुत ही बोल्ड सैडल प्वाइंट परिकल्पना पेश की है:
यहाँ हम तर्क देते हैं, सांख्यिकीय भौतिकी, यादृच्छिक मैट्रिक्स सिद्धांत, तंत्रिका नेटवर्क सिद्धांत और अनुभवजन्य साक्ष्य के परिणामों के आधार पर, कि गहरी और अधिक गहन कठिनाई काठी बिंदुओं के प्रसार से उत्पन्न होती है, न कि स्थानीय मिनीमा, विशेष रूप से व्यावहारिक हित की उच्च आयामी समस्याओं में। । ऐसे काठी बिंदु उच्च त्रुटि वाले पठारों से घिरे होते हैं जो नाटकीय रूप से सीखने को धीमा कर सकते हैं, और एक स्थानीय न्यूनतम के अस्तित्व की भ्रामक छाप दे सकते हैं।
यहाँ स्रोत: उच्च-आयामी गैर-उत्तल अनुकूलन में काठी बिंदु समस्या की पहचान करना और उस पर हमला करना।
कुछ हद तक, उपरोक्त दो दृष्टिकोण बिल्कुल समान नहीं हैं (सैडल प्वाइंट परिकल्पना सवाल कर सकती है कि वास्तव में एक स्थानीय मिनीमा क्या है और बहुत लंबे पठारी क्षेत्र के साथ खराब स्थिति वाली काठी बिंदु क्या है?)। सैडल पॉइंट परिकल्पना के पीछे का विचार यह है कि काठी बिंदुओं के माध्यम से तोड़ने के लिए अनुकूलन के तरीकों को डिजाइन करना संभव है, उदाहरण के लिए, बेंगियो लेख से सैडल-फ्री न्यूटन, संभवत: अभिसरण को गति देने और शायद वैश्विक इष्टतम तक पहुंचने के लिए। पहला मल्टीलेयर लॉस सरफेस लेख वास्तव में वैश्विक इष्टतम तक पहुंचने से संबंधित नहीं है और वास्तव में यह मानता है कि इसमें कुछ खराब ओवरफिटिंग गुण हैं। उत्सुकता से, दोनों लेख सांख्यिकीय भौतिकी और स्पिन-ग्लास मॉडल से विचारों का उपयोग करते हैं।
लेकिन वे इस तरह से संबंधित हैं कि दोनों लेखों का मानना है कि वैश्विक न्यूनतम तक पहुंचने के लिए, किसी को काठी बिंदुओं के अनुकूलन की चुनौती को पार करना होगा। पहला लेख सिर्फ यह मानता है कि स्थानीय मिनीमा काफी अच्छे हैं।
गति के तरीकों और अन्य नए अनुकूलन एल्गोरिदम के बारे में आश्चर्य करना उचित है, जो अनुमान लगा सकते हैं कि कुछ 2 क्रम वक्रता गुण काठी से बच सकते हैं। एलेक रेडफोर्ड द्वारा एक प्रसिद्ध एनीमेशन यहाँ ।
अपने प्रश्न का उत्तर देने के लिए: "यह विश्वास कहाँ से आता है" मुझे व्यक्तिगत रूप से लगता है कि यह इस तथ्य से आता है कि विभिन्न भारों को सीखने के लिए विभिन्न यादृच्छिक बीजों का उपयोग करना संभव है, लेकिन संबंधित नेट में समान मात्रात्मक प्रदर्शन होता है। उदाहरण के लिए, यदि आप ग्लोरोट वजन आरंभीकरण के लिए दो अलग-अलग यादृच्छिक बीज सेट करते हैं, तो आप शायद अलग-अलग वजन सीखेंगे, लेकिन यदि आप समान अनुकूलन विधियों का उपयोग करके प्रशिक्षित करते हैं, तो जाल में समान प्रदर्शन होगा। एक आम लोक मान्यता यह है कि अनुकूलन परिदृश्य एक अंडा दफ़्ती के समान है, इस पर एक और अच्छा ब्लॉग पोस्ट: कोई और अधिक स्थानीय महिमा नहीं है? अंडा-कार्टन सादृश्य के साथ।
संपादित करें: मैं सिर्फ यह स्पष्ट करना चाहता था कि अंडा कार्टन सादृश्य सत्य नहीं है, अन्यथा गति या अन्य अधिक महत्वपूर्ण अनुकूलन तकनीकों की कोई आवश्यकता नहीं होगी। लेकिन यह ज्ञात है कि एसडब्लूई + मोमेंटम या अधिक आधुनिक अनुकूलन एल्गोरिदम के रूप में अच्छी तरह से प्रदर्शन नहीं करता है, शायद काठी बिंदुओं के अस्तित्व के कारण।