स्थानीय मिनिमा बनाम काठी गहरी सीखने की ओर इशारा करती है


18

मैंने एंड्रयू एनजी को सुना (एक वीडियो में मैं दुर्भाग्य से अब और नहीं मिल सकता है) इस बारे में बात करें कि गहरी सीखने की समस्याओं में स्थानीय मिनीमाता की समझ इस अर्थ में बदल गई है कि उन्हें अब कम समस्याग्रस्त माना जाता है क्योंकि उच्च-आयामी रिक्त स्थान (सामना करना पड़ा) गहरी शिक्षा) महत्वपूर्ण बिंदु स्थानीय मीनिमा के बजाय काठी अंक या पठार होने की अधिक संभावना है।

मैंने कागजात (जैसे यह एक ) देखा है, जिसमें उन मान्यताओं पर चर्चा की गई है जिनके तहत "प्रत्येक स्थानीय न्यूनतम एक वैश्विक न्यूनतम है"। ये धारणाएं सभी तकनीकी हैं, लेकिन मैं जो समझता हूं, वे तंत्रिका नेटवर्क पर एक संरचना थोपते हैं जो इसे कुछ रैखिक बनाते हैं।

क्या यह एक वैध दावा है कि, गहरी शिक्षा (incl। Nonlinear आर्किटेक्चर) में, पठार स्थानीय मिनिमा से अधिक होने की संभावना है? और यदि हां, तो क्या इसके पीछे एक (संभवतः गणितीय) अंतर्ज्ञान है?

क्या गहरी सीखने और काठी अंक के बारे में कुछ खास है?


12
जब यह गणितीय अंतर्ज्ञान के लिए आता है कि एक काठी बिंदु स्थानीय न्यूनतम से अधिक क्यों है, तो मैं इसे सुविधाओं के संदर्भ में सोचूंगा। एक स्थानीय न्यूनतम होने के लिए, यह हर दिशा में एक स्थानीय न्यूनतम होना चाहिए। इसके विपरीत, एक काठी बिंदु के लिए, केवल 1 दिशा को दूसरों की तुलना में अलग होना चाहिए। यह बहुत अधिक संभावना है कि सभी दिशाओं में समान व्यवहार की तुलना में 1 या अधिक के पास अलग-अलग व्यवहार हो।
पॉल

3
धन्यवाद, अब है कि आप इसे कहते हैं, यह स्पष्ट है की तरह है ... यहाँ विषय के कुछ रोचक चर्चा है
oW_

4
एंड्रयू एनजी के पास अपने कसेरा कोर्स के सप्ताह 2 में "स्थानीय मिनीमा की समस्या" पर एक वीडियो है, "इंप्रूविंग डीप न्यूरल नेटवर्क्स: हाइपरपैरेट ट्यूनिंग, रेगुलराइजेशन एंड ऑप्टिमाइज़ेशन"। शायद यह वह है जिसे आप ढूंढ रहे हैं।
mjul

पर एक नज़र यहाँ
मीडिया

जवाबों:


7

यह केवल मेरे अंतर्ज्ञान को व्यक्त करने की कोशिश कर रहा है, अर्थात कोई कठोरता नहीं। काठी बिंदुओं के साथ बात यह है कि वे एक प्रकार का इष्टतम हैं जो मिनीमा और मैक्सिमा के संयोजन को जोड़ती हैं। क्योंकि गहरी सीखने के साथ आयामों की संख्या इतनी बड़ी है, संभावना है कि एक इष्टतम में केवल मिनिमा का एक संयोजन होता है। इसका मतलब है कि स्थानीय न्यूनतम में 'अटक जाना' दुर्लभ है। ओवरसाइप्लाइज़िंग के जोखिम पर, काठी बिंदु में 'अटक जाना' कठिन होता है क्योंकि आप 'आयामों में से एक को स्लाइड' कर सकते हैं। मुझे लगता है कि एंड्रयू एनजी वीडियो जिसे आप उसके द्वारा दीप लर्निंग पर कौरसेरा कोर्स से आते हैं।


13

डी=[1n]
1>0,...,n>0

1,...,nमैं1/2मैंजेहेसियन मैट्रिक्स की उच्च गैर-रैखिकता के कारण, इसलिए हम स्वतंत्र घटनाओं के रूप में उनके सकारात्मक होने की संभावनाओं को लेंगे।

पी(1>0,...,n>0)=पी(1>0)पी(n>0)=12n

1081/2n हास्यास्पद छोटा है। अब हम आश्वस्त हैं कि, किसी भी महत्वपूर्ण बिंदु को देखते हुए, जो हमें आता है, यह बहुत कम संभावना है कि यह न्यूनतम हो।

लेकिन मैक्सिमा का क्या?

1/2n

P(saddle)=1P(maximum)P(minimum)=112n12n=112n1

Which is very close to 1 if n is large enough (which typically is in deep learning).

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.