समझना "लगभग सभी स्थानीय न्यूनतम वैश्विक इष्टतम के लिए समान फ़ंक्शन मान है"


46

रोंग जी के एक हालिया ब्लॉग पोस्ट में , यह कहा गया था कि:

यह माना जाता है कि गहरी जाल सीखने सहित कई समस्याओं के लिए, लगभग सभी स्थानीय न्यूनतम वैश्विक इष्टतम के लिए बहुत समान फ़ंक्शन मूल्य हैं, और इसलिए स्थानीय न्यूनतम ढूंढना काफी अच्छा है।

यह विश्वास कहाँ से आता है?


15
अगर यह एक अनुभवजन्य खोज नहीं है तो मुझे आश्चर्य होगा।
us --r11852 का कहना है कि

जवाबों:


69

एक हालिया पेपर द मल्टीफ़ेयर नेटवर्क्स का लॉस सरफेस, इसके लिए कुछ संभावित स्पष्टीकरण प्रदान करता है। उनके सार से (बोल्ड मेरा है):

"हम अनुमान लगाते हैं कि सिम्युलेटेड एनेलिंग और SGD दोनों कम महत्वपूर्ण बिंदुओं के बैंड में परिवर्तित होते हैं, और यह पाया जाता है कि सभी महत्वपूर्ण बिंदुओं में परीक्षण त्रुटि द्वारा मापा गया उच्च गुणवत्ता का स्थानीय मिनीमा है। यह बड़े और छोटे आकार के नेटवर्क के बीच एक प्रमुख अंतर पर जोर देता है। जहां बाद की खराब गुणवत्ता के लिए स्थानीय मिनीमा की गैर-शून्य संभावनाएं बरामद होने की संभावना होती है। अंत में, हम साबित करते हैं कि वैश्विक न्यूनतम पुनर्प्राप्त करना कठिन हो जाता है क्योंकि नेटवर्क का आकार बढ़ता है और यह व्यवहार में अप्रासंगिक है क्योंकि वैश्विक न्यूनतम अक्सर अतिव्यापी हो जाता है । "

गहन शिक्षा में बहुत से प्रभावशाली लोग (कुछ का नाम लेने के लिए यान लेकन और योशुआ बेंगियो) और गणितीय कोण (रोंग जीई और अन्य संजीव अरोड़ा सहयोगियों) से अधिक आने वाले कुछ शोधकर्ता इन विचारों पर चर्चा और खोज कर रहे हैं।

उपर्युक्त संदर्भित पेपर में, चित्र 3 देखें, जिसमें स्थानीय मिनीमा मानों की एक बैंडिंग / एकाग्रता घटना दिखाई देती है क्योंकि नेट में कई छिपी हुई इकाइयाँ होती हैं। बैंडिंग / एकाग्रता कुछ अनुभवजन्य साक्ष्य का प्रतिनिधित्व करता है जो गहरे या बड़े मॉडल के लिए, एक स्थानीय मिनीमा "काफी अच्छा" है, क्योंकि उनके नुकसान के मूल्य लगभग समान हैं। और सबसे महत्वपूर्ण बात, उनके पास एक नुकसान है जो वैश्विक न्यूनतम के करीब है क्योंकि मॉडल अधिक जटिल हो जाता है (इस मामले में व्यापक है, लेकिन व्यवहार में, गहरा)।

इसके अलावा, वे एक स्पिन-ग्लास मॉडल का उपयोग करते हैं, जो वे यहां तक ​​कि केवल एक मॉडल हैं और जरूरी नहीं कि यह सच तस्वीर का संकेत है, यह दिखाने के लिए कि स्थानीय न्यूनतम से वैश्विक न्यूनतम तक पहुंचने में तेजी से लंबा समय लग सकता है:

"कम से कम झूठ बोलने वाले को खोजने के लिए हमें एक काठी बिंदु से गुज़रना होगा। इसलिए हमें कम से कम उस स्तर तक जाना चाहिए जहाँ पर एक रास्ता खोजने के लिए एक अच्छा मौका पाने के लिए काठी बिंदुओं की बराबर मात्रा हो। हमें एक और स्थानीय न्यूनतम करने के लिए। इस प्रक्रिया में एक लंबा समय लगता है इसलिए व्यवहार में वैश्विक न्यूनतम खोजने संभव नहीं है। "

रोंग जीई अनुसंधान काठी बिंदुओं के माध्यम से तोड़ने के आसपास केंद्रित है। Yoshua Bengio और उनके सहयोगियों ने एक बहुत ही बोल्ड सैडल प्वाइंट परिकल्पना पेश की है:

यहाँ हम तर्क देते हैं, सांख्यिकीय भौतिकी, यादृच्छिक मैट्रिक्स सिद्धांत, तंत्रिका नेटवर्क सिद्धांत और अनुभवजन्य साक्ष्य के परिणामों के आधार पर, कि गहरी और अधिक गहन कठिनाई काठी बिंदुओं के प्रसार से उत्पन्न होती है, न कि स्थानीय मिनीमा, विशेष रूप से व्यावहारिक हित की उच्च आयामी समस्याओं में। । ऐसे काठी बिंदु उच्च त्रुटि वाले पठारों से घिरे होते हैं जो नाटकीय रूप से सीखने को धीमा कर सकते हैं, और एक स्थानीय न्यूनतम के अस्तित्व की भ्रामक छाप दे सकते हैं।

यहाँ स्रोत: उच्च-आयामी गैर-उत्तल अनुकूलन में काठी बिंदु समस्या की पहचान करना और उस पर हमला करना।

कुछ हद तक, उपरोक्त दो दृष्टिकोण बिल्कुल समान नहीं हैं (सैडल प्वाइंट परिकल्पना सवाल कर सकती है कि वास्तव में एक स्थानीय मिनीमा क्या है और बहुत लंबे पठारी क्षेत्र के साथ खराब स्थिति वाली काठी बिंदु क्या है?)। सैडल पॉइंट परिकल्पना के पीछे का विचार यह है कि काठी बिंदुओं के माध्यम से तोड़ने के लिए अनुकूलन के तरीकों को डिजाइन करना संभव है, उदाहरण के लिए, बेंगियो लेख से सैडल-फ्री न्यूटन, संभवत: अभिसरण को गति देने और शायद वैश्विक इष्टतम तक पहुंचने के लिए। पहला मल्टीलेयर लॉस सरफेस लेख वास्तव में वैश्विक इष्टतम तक पहुंचने से संबंधित नहीं है और वास्तव में यह मानता है कि इसमें कुछ खराब ओवरफिटिंग गुण हैं। उत्सुकता से, दोनों लेख सांख्यिकीय भौतिकी और स्पिन-ग्लास मॉडल से विचारों का उपयोग करते हैं।

लेकिन वे इस तरह से संबंधित हैं कि दोनों लेखों का मानना ​​है कि वैश्विक न्यूनतम तक पहुंचने के लिए, किसी को काठी बिंदुओं के अनुकूलन की चुनौती को पार करना होगा। पहला लेख सिर्फ यह मानता है कि स्थानीय मिनीमा काफी अच्छे हैं।

गति के तरीकों और अन्य नए अनुकूलन एल्गोरिदम के बारे में आश्चर्य करना उचित है, जो अनुमान लगा सकते हैं कि कुछ 2 क्रम वक्रता गुण काठी से बच सकते हैं। एलेक रेडफोर्ड द्वारा एक प्रसिद्ध एनीमेशन यहाँ

अपने प्रश्न का उत्तर देने के लिए: "यह विश्वास कहाँ से आता है" मुझे व्यक्तिगत रूप से लगता है कि यह इस तथ्य से आता है कि विभिन्न भारों को सीखने के लिए विभिन्न यादृच्छिक बीजों का उपयोग करना संभव है, लेकिन संबंधित नेट में समान मात्रात्मक प्रदर्शन होता है। उदाहरण के लिए, यदि आप ग्लोरोट वजन आरंभीकरण के लिए दो अलग-अलग यादृच्छिक बीज सेट करते हैं, तो आप शायद अलग-अलग वजन सीखेंगे, लेकिन यदि आप समान अनुकूलन विधियों का उपयोग करके प्रशिक्षित करते हैं, तो जाल में समान प्रदर्शन होगा। एक आम लोक मान्यता यह है कि अनुकूलन परिदृश्य एक अंडा दफ़्ती के समान है, इस पर एक और अच्छा ब्लॉग पोस्ट: कोई और अधिक स्थानीय महिमा नहीं है? अंडा-कार्टन सादृश्य के साथ।

संपादित करें: मैं सिर्फ यह स्पष्ट करना चाहता था कि अंडा कार्टन सादृश्य सत्य नहीं है, अन्यथा गति या अन्य अधिक महत्वपूर्ण अनुकूलन तकनीकों की कोई आवश्यकता नहीं होगी। लेकिन यह ज्ञात है कि एसडब्लूई + मोमेंटम या अधिक आधुनिक अनुकूलन एल्गोरिदम के रूप में अच्छी तरह से प्रदर्शन नहीं करता है, शायद काठी बिंदुओं के अस्तित्व के कारण।


14
+1 प्रभावशाली सूचनात्मक और आधिकारिक जवाब - कुछ ही आसानी से समझे जाने वाले पैराग्राफ में यह एक महत्वपूर्ण उपक्षेत्र के भीतर विचारों और वर्तमान दिशाओं को पकड़ने के लिए प्रकट होता है।
whuber

आपके उत्तर के लिए धन्यवाद। चूंकि आपने यान लेकन का उल्लेख किया है, तो क्या आप शायद उनके द्वारा एक विशेष संदर्भ को इंगित कर सकते हैं जो इन या इसी तरह के विचारों पर चर्चा करता है?
जॉन डोन

2
हे जॉन: मल्टीलेयर नेट्स आर्टिकल के लॉस सरफेस, जिसे मैंने पोस्ट में संदर्भित किया है, को यान द्वारा सह-लेखक किया गया है। एक अन्य समान लेख जो यान सह-लेखक है , उच्च आयामी परिदृश्य पर अन्वेषण है । दो लेख बहुत समान हैं, एक जिसे मैं मूल रूप से संदर्भित करता हूं वह अधिक लोकप्रिय लगता है।
इंडी एआई

"कोई और अधिक स्थानीय मिनीमा" लिंक नहीं है। एक त्वरित Google खोज के माध्यम से मैं उस ब्लॉग पोस्ट को खोजने में असमर्थ था जिसे वह संदर्भित कर रहा है। क्या ब्लॉग पोस्ट ऑफ़लाइन है? या बस चले गए?
एलएमबी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.