तंत्रिका जाल में, अन्य मेटाह्योरिस्टिक्स के बजाय ढाल विधियों का उपयोग क्यों करें?


20

गहरे और उथले तंत्रिका नेटवर्क के प्रशिक्षण में, अन्य मेटाफ्यूरिस्टिक्स के विपरीत ग्रेडिएंट मेथड्स (जैसे ग्रेडिएंट डिसेंट, नेस्टरोव, न्यूटन-राफसन) का आमतौर पर इस्तेमाल क्यों किया जाता है?

मेटाह्यूरिस्टिक्स से मेरा मतलब है कि नकली एनालिंग, चींटी कॉलोनी ऑप्टिमाइज़ेशन आदि जैसे तरीके, जो एक स्थानीय मिनीमा में अटकने से बचने के लिए विकसित किए गए थे।


जवाबों:


13

@Dikran Marsupial का जवाब बढ़ाते हुए…।

एनवाईयू में एना चोरोमांस्का और यान लेकन के समूह में उनके सहयोगियों ने 2014 के उनके एआईएसएटीएस पेपर "द लॉस सर्फेस ऑफ मल्टीलेयर नेट" में इसे संबोधित किया । यादृच्छिक मैट्रिक्स सिद्धांत का उपयोग करते हुए, कुछ प्रयोगों के साथ, उनका तर्क है कि:

  • बड़े आकार के नेटवर्क के लिए, अधिकांश स्थानीय मिनीमा बराबर हैं और परीक्षण सेट पर समान प्रदर्शन करते हैं।

  • "खराब" (उच्च मूल्य) स्थानीय न्यूनतम खोजने की संभावना छोटे आकार के नेटवर्क के लिए गैर-शून्य है और नेटवर्क आकार के साथ जल्दी से घट जाती है।

  • प्रशिक्षण सेट पर वैश्विक न्यूनतम खोजने के लिए संघर्ष (कई अच्छे स्थानीय लोगों में से एक के विपरीत) व्यवहार में उपयोगी नहीं है और इससे ओवरफिटिंग हो सकती है।

[कागज के पृष्ठ 2 से]

इस दृष्टि से, वैश्विक न्यूनतम खोजने के लिए भारी-वजन दृष्टिकोण को तैनात करने का एक बड़ा कारण नहीं है। नए नेटवर्क टोपोलॉजी, फीचर्स, डेटा सेट आदि को आजमाने में बेहतर होगा।

उस ने कहा, बहुत से लोगों ने SGD को बढ़ाने या बदलने के बारे में सोचा है। काफी छोटे नेटवर्क के लिए (समकालीन मानकों के अनुसार), ये बेहतर मेटाहॉर्स्टिक्स कुछ Mavrovouniotis और यांग (2016) दिखाते हैं कि चींटी कॉलोनी ऑप्टिमाइज़ेशन + बैकप्रॉप कई बेंचमार्क डेटा सेटों पर अनमॉडिफाइड बैकप्रॉप बनाती है (यद्यपि बहुत से नहीं)। रेर एल अल। (2015) एक CNN को प्रशिक्षित करने के लिए सिम्युलेटेड एनीलिंग का उपयोग करें और यह पता लगाएं कि शुरू में सत्यापन सेट पर बेहतर प्रदर्शन करता है। 10 युगों के बाद, हालांकि, प्रदर्शन में केवल एक बहुत छोटा (और परीक्षण नहीं किया गया-महत्व) अंतर रहता है। तेजी से अभिसरण-प्रति-युग लाभ भी प्रति युग प्रति गणना समय की नाटकीय रूप से बड़ी मात्रा में ऑफसेट होता है, इसलिए यह नकली annealing के लिए एक स्पष्ट जीत नहीं है।

यह संभव है कि ये आंकड़ें नेटवर्क को इनिशियलाइज़ करने का बेहतर काम करते हैं और एक बार इसे सही रास्ते पर ले जाने के बाद, कोई भी आशावादी करेगा। Sutskever एट अल। (2013) ज्योफ हिंटन के समूह ने अपने 2013 के ICML पेपर में कुछ इस तरह का तर्क दिया ।


17

स्थानीय मिनिमा वास्तव में तंत्रिका जाल के साथ एक बड़ी समस्या नहीं है जैसा कि अक्सर सुझाव दिया जाता है। कुछ स्थानीय मिनीमा नेटवर्क की समरूपता के कारण हैं (यानी आप छिपे हुए न्यूरॉन्स को अनुमति दे सकते हैं और फ़ंक्शन छोड़ सकते हैंनेटवर्क का अपरिवर्तित होना। वैश्विक मिनीमा के बजाय एक अच्छा स्थानीय मिनीमाता खोजना आवश्यक है। जैसा कि यह आक्रामक रूप से बहुत लचीले मॉडल का अनुकूलन करता है, जैसे कि एक तंत्रिका नेटवर्क, डेटा को ओवरफिट करने के लिए एक नुस्खा होने की संभावना है, इसलिए उदाहरण के लिए नकली मानदंड का उपयोग करके प्रशिक्षण मानदंड की वैश्विक मिनीमा को खोजने की संभावना है जो खराब नेटवर्क के साथ खराब होने की संभावना है। एक स्थानीय मीनिमा में समाप्त होने वाले ढाल वंश द्वारा प्रशिक्षित सामान्यीकरण प्रदर्शन। यदि इन अनुमानों के अनुकूलन के तरीकों का उपयोग किया जाता है, तो मैं मॉडल की जटिलता को सीमित करने के लिए एक नियमितीकरण शब्द सहित सलाह दूंगा।

... या वैकल्पिक रूप से एक कर्नेल विधि या एक रेडियल आधार फ़ंक्शन मॉडल का उपयोग करें, जो कम परेशानी होने की संभावना है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.