हम अन्य नेटवर्क्स नेटवर्क की चीजों के लिए ढाल के लिए गैर-निरंतर सीखने की दरों का उपयोग क्यों नहीं करते हैं?


14

गहन सीखने वाला साहित्य धीरे-धीरे वंश में गैर-निरंतर सीखने की दर का उपयोग करने के साथ चतुर चाल से भरा है। घातीय क्षय, RMSprop, Adagrad आदि जैसी चीजें लागू करना आसान है और हर गहरे सीखने के पैकेज में उपलब्ध हैं, फिर भी वे तंत्रिका नेटवर्क के बाहर कोई नहीं लग रहे हैं। इस के लिए कोई कारण है? यदि ऐसा है कि लोग केवल परवाह नहीं करते हैं, तो क्या कोई कारण है कि हमें तंत्रिका नेटवर्क के बाहर देखभाल करने की आवश्यकता नहीं है?


2
मुझे लगता है कि लाइन खोज या विश्वास क्षेत्र विधि "गैर-स्थिर" सीखने की दरें हैं।
हैताओ डू

2
गैर-निरंतर ढाल के बहुत सारे तरीके हैं जो एनएन के स्वतंत्र रूप से विकसित किए गए थे। बरज़िलाई-बोरवेइन जीडी और नेस्टरोव जीडी दो प्रमुख उदाहरण हैं।
साइकोरैक्स का कहना है कि मोनिका

@ साइकोरेक्स लेकिन क्या वे वास्तव में एनएन के बाहर दैनिक आधार पर उपयोग किए जाते हैं?
टिम

2
@ मैं नहीं कह सकता। जब मुझे एनएन के बाहर स्थानीय खोज करने की आवश्यकता होती है, तो मेरे पास दूसरे क्रम के तरीकों का उपयोग करने की लक्जरी होती है। लेकिन मैं इस अवसर के लिए तेजी से जीडी विधियों के बारे में जानने के लिए उत्साहित था कि मेरी पीठ की जेब में एक प्यारा चाल हो सकती है।
साइकोरैक्स का कहना है कि मोनिका

1
यह ध्यान देने योग्य है कि (मेरे आश्चर्य के लिए) मैं ऐसे मामलों में आया हूं कि जीबीएम लगातार सीखने की दरों का उपयोग नहीं करते हैं, कुछ लोगों के आश्चर्य के लिए। एक विशेष उदाहरण लाइट जीबीएम पर डीएआरटी का कार्यान्वयन है। जबकि मूल कागजात तेजी से छोटे एलआर का उपयोग नहीं करते हैं, वास्तविक कार्यान्वयन डिफ़ॉल्ट रूप से होता है।
us --r11852

जवाबों:


16

अस्वीकरण: मेरे पास तंत्रिका नेटवर्क के बाहर अनुकूलन के साथ इतना अनुभव नहीं है, इसलिए मेरा जवाब स्पष्ट रूप से पक्षपाती होगा, लेकिन कई भूमिकाएं हैं:

  • (डीप) न्यूरल नेटवर्क में बहुत सारे पैरामीटर होते हैं । इसके कई निहितार्थ हैं:

    सबसे पहले, यह उच्च-आदेश विधियों को केवल इसलिए नियम देता है क्योंकि हेस्सियन और उच्चतर डेरिवेटिव की गणना संभव है। अन्य डोमेन में, यह एक मान्य दृष्टिकोण से बेहतर हो सकता है जो कि किसी भी ट्विंकल से बेहतर है।

    दूसरी बात यह है कि यद्यपि यह बहुत बढ़िया है , लेकिन यह अव्यवहारिक रूप से धीमा है। ये सुधरे हुए SGD वेरिएंट मुख्य रूप से तेज़ प्रशिक्षण सक्षम करते हैं, जबकि संभावित रूप से SGD के कुछ अच्छे गुणों को खो देते हैं । अन्य डोमेन में, डब्ल्यूडब्ल्यूडी प्रशिक्षण समय अड़चन नहीं हो सकता है, इसलिए इसे तेज करके प्राप्त किए गए सुधार केवल नगण्य हो सकते हैं।

  • प्रशिक्षण (गहरा) तंत्रिका नेटवर्क गैर-उत्तल अनुकूलन है और मुझे इस क्षेत्र में महत्वपूर्ण उत्तल छूट परिणामों की जानकारी नहीं है। अन्य क्षेत्रों के विपरीत, तंत्रिका नेटवर्क वैश्विक रूप से इष्टतम समाधानों पर विशेष रूप से ध्यान केंद्रित नहीं करते हैं, जो अनुकूलन के दौरान नुकसान की सतह के गुणों और इसके ट्रैवर्सल में सुधार के लिए अधिक प्रयासों का निवेश करता है।

    अन्य क्षेत्रों में, उत्तल छूट को नियोजित करना और वैश्विक रूप से इष्टतम समाधान प्राप्त करना अनुकूलन एल्गोरिथ्म के बजाय ब्याज के केंद्र में हो सकता है, क्योंकि एक बार समस्या को उत्तल समस्या के रूप में परिभाषित किया गया है, अनुकूलन एल्गोरिथ्म की पसंद समाधान की गुणवत्ता में सुधार नहीं कर सकती है। ।

मुझे लगता है कि यह जवाब सभी संभावित पहलुओं को शामिल नहीं करता है और मैं खुद अन्य रायों के बारे में उत्सुक हूं।


तो आप मूल रूप से कह रहे हैं कि अन्य समस्याएं बहुत सरल हैं, इसलिए ट्रिक्स की आवश्यकता नहीं है और वेनिला डब्ल्यूडब्ल्यूडी उनके लिए पर्याप्त है?
टिम

3
यह मेरे संदेश की निगरानी है। 1) कुछ समस्याएं उच्च आदेश विधियों का उपयोग कर सकती हैं, अनुकूली SGD की कोई आवश्यकता नहीं है। 2) कुछ समस्याएँ Amdahl के नियम के कारण SGD के सुधार से लाभ नहीं उठा सकती हैं। 3) कुछ समस्याएं उत्तल समाधानों की पेशकश कर सकती हैं और मुख्य कठिनाई उन्हें उत्तल के रूप में प्रस्तुत करने में है। इनमें से कोई भी नहीं कहता है कि अन्य समस्याएं गहरी शिक्षा की तुलना में बहुत सरल हैं, बल्कि बताती हैं कि क्यों इंप्रूवमेंट में सुधार उनके ध्यान के केंद्र में नहीं है।
Jan Kukacka

एक संभावित बिंदु 4: यदि आपने कुछ अन्य विधि अपनाई और इसे परिष्कृत ढाल मूल तरीकों से लाभ उठाने के लिए इसे पर्याप्त (उच्च आयामी, नॉनक्लियर, नॉनवॉन्क्स) जटिल बना दिया, तो इसे शायद एक तंत्रिका नेटवर्क कहा जाएगा।
नाथनियल

1
@JanKukacka मुझे पता है, मैं स्पष्टीकरण के लिए देख रहा था के बाद से आपका जवाब अप्रत्यक्ष था
टिम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.