हर आशावादी के लिए ग्रेडिएंट डिसेंट सेंट्रल है?


13

मैं जानना चाहता हूं कि ग्रैडिएंट वंशज आदमियों, आदमगढ़, आरएमएसप्रॉप और कई अन्य आशावादियों जैसे ऑप्टिमाइज़र में उपयोग किया जाने वाला मुख्य एल्गोरिदम है या नहीं।


1
मुझे आश्चर्य है कि किसी ने भी "समन्वित वंश" या "समन्वयित समन्वय" का उल्लेख नहीं किया है। en.wikipedia.org/wiki/Coordinate_descent
नाथन

जवाबों:


28

सं ढाल वंश अनुकूलन एल्गोरिथम कि इसके कदम आंदोलन के आधार के रूप में ढाल का उपयोग किया जाता है। Adam, Adagradऔर RMSPropसभी ग्रेडिएंट डिसेंट के कुछ रूप का उपयोग करते हैं, हालांकि वे हर ऑप्टिमाइज़र नहीं बनाते हैं । पार्टिकल झुंड ऑप्टिमाइज़ेशन और जेनेटिक एल्गोरिदम जैसे विकासवादी एल्गोरिदम प्राकृतिक घटनाओं से प्रेरित हैं जो ग्रेडिएंट का उपयोग नहीं करते हैं। अन्य एल्गोरिदम, जैसे बायेसियन ऑप्टिमाइज़ेशन , आंकड़ों से प्रेरणा लेते हैं।

कार्रवाई में बायसियन अनुकूलन के इस दृश्य की जाँच करें: कार्रवाई में बायसियन अनुकूलन

कुछ एल्गोरिदम भी हैं जो विकासवादी और ढाल-आधारित अनुकूलन से अवधारणाओं को जोड़ते हैं।

गैर-व्युत्पन्न आधारित अनुकूलन एल्गोरिदम विशेष रूप से अनियमित गैर-उत्तल लागत कार्यों, गैर-अलग-अलग लागत कार्यों, या लागत कार्यों में उपयोगी हो सकते हैं जिनमें एक अलग बाएं या दाएं व्युत्पन्न होते हैं

यह समझने के लिए कि कोई गैर-व्युत्पन्न आधारित अनुकूलन एल्गोरिदम क्यों चुन सकता है। रैस्ट्रिंजिन बेंचमार्क फ़ंक्शन पर एक नज़र डालें । इतने सारे स्थानीय मिनीमा के साथ कार्यों के अनुकूलन के लिए स्नातक आधारित अनुकूलन अच्छी तरह से अनुकूल नहीं है।

रैस्ट्रिगिन बेंचमार्क फ़ंक्शन


आपका बहुत बहुत धन्यवाद। आपका जवाब पसंद
आया

8

शीर्षक के अनुसार:
नहीं। केवल विशिष्ट प्रकार के आशावादी ग्रेडिएंट वंश पर आधारित हैं। एक सीधा पलटाव तब होता है जब अनुकूलन एक असतत स्थान पर होता है जहां ढाल अपरिभाषित होता है।

शरीर के अनुसार:
हाँ। एडम, अद्रगड, RMSProp और अन्य समान ऑप्टिमाइज़र ( नेस्टरोव, नादम , आदि) सभी प्रदर्शन को त्यागने के बिना अभिसरण गति में सुधार करने के लिए ढाल वंश के लिए एक अनुकूली कदम आकार (सीखने की दर) का प्रस्ताव करने की कोशिश कर रहे हैं (यानी बदतर स्थानीय न्यूनतम / प्रमुख) ज्यादा से ज्यादा)।

यह ध्यान देने योग्य है कि न्यूटन के तरीके भी हैं, और इसी तरह क्वैसी-न्यूटन के तरीके भी हैं, जो हानि-कार्य के दूसरे क्रम व्युत्पन्न के साथ काम करते हैं (पहले-क्रम व्युत्पन्न के साथ ढाल वंश काम करता है)। इन तरीकों ने व्यावहारिक समस्याओं में बड़ी संख्या में मॉडल मापदंडों के कारण गति-मापनीयता-व्यापार को ढाल वंश में खो दिया है।

कुछ अतिरिक्त नोट

  1. नुकसान फ़ंक्शन का आकार मॉडल के मापदंडों और डेटा दोनों पर निर्भर करता है, इसलिए सबसे अच्छा तरीका चुनना हमेशा कार्य पर निर्भर होता है और परीक्षण और त्रुटि की आवश्यकता होती है।

  2. ग्रैडिएंट डिसेंट का स्टोचस्टिक हिस्सा पूर्ण डेटा के बजाय डेटा के बैच का उपयोग करके प्राप्त किया जाता है । यह तकनीक सभी उल्लिखित विधियों के समानांतर है, जिसका अर्थ है कि सभी स्टोचस्टिक (डेटा के एक बैच का उपयोग कर) या नियतात्मक (पूरे डेटा का उपयोग करके) हो सकते हैं।

  3. w21(0,1.1)(0,1)(0.43,0.9)


3

सवाल का जवाब नहीं हो सकता है। कारण बस कई अनुकूलन एल्गोरिदम के कारण है जो उपलब्ध हैं, लेकिन एक का चयन करना संदर्भ पर निर्भर करता है और आपके पास अनुकूलन के लिए समय है। उदाहरण के लिए, जेनेटिक एल्गोरिथ्म एक प्रसिद्ध अनुकूलन दृष्टिकोण है जिसके अंदर कोई ढाल नहीं है। कुछ संदर्भों में बैकट्रैकिंग जैसे अन्य दृष्टिकोण भी हैं। उन सभी का उपयोग किया जा सकता है जो चरण दर चरण ढाल मूलक का लाभ नहीं उठाते हैं।

दूसरी ओर, प्रतिगमन जैसे कार्यों के लिए, आप समस्या को सुलझाने के लिए क्लोज़-फ़ार्म पा सकते हैं, लेकिन इसका मतलब यह है कि फ़ीचर स्पेस और इनपुट्स की संख्या के आधार पर आप क्लोज़-फॉर्म समीकरण या ग्रेडिएंट चुन सकते हैं। गणना की संख्या को कम करने के लिए वंश।

जबकि तंत्रिका नेटवर्क में बहुत सारे अनुकूलन एल्गोरिदम हैं, कई कारणों के कारण ढाल वंश आधारित दृष्टिकोण का उपयोग अधिक किया जाता है। सबसे पहले, वे बहुत तेज हैं। गहरी शिक्षा में, आपको बहुत सारे डेटा प्रदान करने होंगे कि उन्हें एक साथ मेमोरी में लोड नहीं किया जा सके। नतीजतन, आपको अनुकूलन के लिए बैच ढाल विधियों को लागू करना होगा। यह थोड़ा सा आँकड़ा है लेकिन आप इस बात पर विचार कर सकते हैं कि आपके नेटवर्क पर लाया गया प्रत्येक नमूना वास्तविक डेटा का लगभग समान वितरण हो सकता है और एक ढाल खोजने के लिए पर्याप्त प्रतिनिधि हो सकता है जो लागत फ़ंक्शन के वास्तविक ग्रेडिएंट के करीब हो सकता है जो कि होना चाहिए हाथ में सभी डेटा का उपयोग कर निर्माण किया।

दूसरा, मेट्रिसेस और उनके व्युत्क्रम का उपयोग करके चरम सीमाओं को खोजने की जटिलता एक साधारण प्रतिगमन कार्य के लिए जो पैरामीटर का उपयोग करके पाया जा सकता है । यह पता चला है कि सरल ढाल-आधारित विधियों में बेहतर प्रदर्शन हो सकता है। यह भी उल्लेख किया जाना चाहिए कि पूर्व मामले में, आपको डेटा को एक साथ मेमोरी में लाना होगा जो उन अवसरों के लिए संभव नहीं है जहां आप बड़े डेटा कार्यों से निपटते हैं।O(n3)w=(XtX)1(Xty)

तीसरा, अनुकूलन समस्याएं हैं जिनके पास आवश्यक रूप से क्लोज-फॉर्म समाधान नहीं है। लॉजिस्टिक रिग्रेशन उनमें से एक है।


3

ठीक है, आपने ऑप्टिमाइज़र चुने जो तंत्रिका नेटवर्क में उपयोग किए जाते हैं, वे ऑप्टिमाइज़र ग्रेडिएंट आधारित एल्गोरिदम का उपयोग करते हैं। अधिकांश समय ढाल आधारित एल्गोरिदम का उपयोग तंत्रिका नेटवर्क में किया जाता है। ऐसा क्यों है? ठीक है, क्या आप किसी वक्र के ढलान को जानने के बिना या इसे जानने के लिए न्यूनतम खोजने की कोशिश करना पसंद करेंगे? जब आप ढाल की गणना नहीं कर सकते हैं तो आप व्युत्पन्न-मुक्त अनुकूलन पर वापस आ जाएंगे । कहा जा रहा है कि ऐसे मामले हैं जब आपके पास ग्रेडिएंट के बारे में जानकारी होने के बावजूद ग्रेडिएंट-फ्री पद्धति का उपयोग करना बेहतर है। यह आमतौर पर फ़ंक्शंस के मामले में होता है जिसमें बहुत से स्थानीय मिनीमा होते हैं। विकासवादी रणनीतियों और आनुवंशिक एल्गोरिदम जैसे जनसंख्या आधारित एल्गोरिदम का ऊपरी हाथ यहाँ है। और कॉम्बीनेटरियल ऑप्टिमाइज़ेशन की शाखा भी है जहाँ उपकरणों के एक अलग सेट का उपयोग किया जाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.