मैं जानना चाहता हूं कि ग्रैडिएंट वंशज आदमियों, आदमगढ़, आरएमएसप्रॉप और कई अन्य आशावादियों जैसे ऑप्टिमाइज़र में उपयोग किया जाने वाला मुख्य एल्गोरिदम है या नहीं।
मैं जानना चाहता हूं कि ग्रैडिएंट वंशज आदमियों, आदमगढ़, आरएमएसप्रॉप और कई अन्य आशावादियों जैसे ऑप्टिमाइज़र में उपयोग किया जाने वाला मुख्य एल्गोरिदम है या नहीं।
जवाबों:
सं ढाल वंश अनुकूलन एल्गोरिथम कि इसके कदम आंदोलन के आधार के रूप में ढाल का उपयोग किया जाता है। Adam
, Adagrad
और RMSProp
सभी ग्रेडिएंट डिसेंट के कुछ रूप का उपयोग करते हैं, हालांकि वे हर ऑप्टिमाइज़र नहीं बनाते हैं । पार्टिकल झुंड ऑप्टिमाइज़ेशन और जेनेटिक एल्गोरिदम जैसे विकासवादी एल्गोरिदम प्राकृतिक घटनाओं से प्रेरित हैं जो ग्रेडिएंट का उपयोग नहीं करते हैं। अन्य एल्गोरिदम, जैसे बायेसियन ऑप्टिमाइज़ेशन , आंकड़ों से प्रेरणा लेते हैं।
कार्रवाई में बायसियन अनुकूलन के इस दृश्य की जाँच करें:
कुछ एल्गोरिदम भी हैं जो विकासवादी और ढाल-आधारित अनुकूलन से अवधारणाओं को जोड़ते हैं।
गैर-व्युत्पन्न आधारित अनुकूलन एल्गोरिदम विशेष रूप से अनियमित गैर-उत्तल लागत कार्यों, गैर-अलग-अलग लागत कार्यों, या लागत कार्यों में उपयोगी हो सकते हैं जिनमें एक अलग बाएं या दाएं व्युत्पन्न होते हैं ।
यह समझने के लिए कि कोई गैर-व्युत्पन्न आधारित अनुकूलन एल्गोरिदम क्यों चुन सकता है। रैस्ट्रिंजिन बेंचमार्क फ़ंक्शन पर एक नज़र डालें । इतने सारे स्थानीय मिनीमा के साथ कार्यों के अनुकूलन के लिए स्नातक आधारित अनुकूलन अच्छी तरह से अनुकूल नहीं है।
शीर्षक के अनुसार:
नहीं। केवल विशिष्ट प्रकार के आशावादी ग्रेडिएंट वंश पर आधारित हैं। एक सीधा पलटाव तब होता है जब अनुकूलन एक असतत स्थान पर होता है जहां ढाल अपरिभाषित होता है।
शरीर के अनुसार:
हाँ। एडम, अद्रगड, RMSProp और अन्य समान ऑप्टिमाइज़र ( नेस्टरोव, नादम , आदि) सभी प्रदर्शन को त्यागने के बिना अभिसरण गति में सुधार करने के लिए ढाल वंश के लिए एक अनुकूली कदम आकार (सीखने की दर) का प्रस्ताव करने की कोशिश कर रहे हैं (यानी बदतर स्थानीय न्यूनतम / प्रमुख) ज्यादा से ज्यादा)।
यह ध्यान देने योग्य है कि न्यूटन के तरीके भी हैं, और इसी तरह क्वैसी-न्यूटन के तरीके भी हैं, जो हानि-कार्य के दूसरे क्रम व्युत्पन्न के साथ काम करते हैं (पहले-क्रम व्युत्पन्न के साथ ढाल वंश काम करता है)। इन तरीकों ने व्यावहारिक समस्याओं में बड़ी संख्या में मॉडल मापदंडों के कारण गति-मापनीयता-व्यापार को ढाल वंश में खो दिया है।
कुछ अतिरिक्त नोट
नुकसान फ़ंक्शन का आकार मॉडल के मापदंडों और डेटा दोनों पर निर्भर करता है, इसलिए सबसे अच्छा तरीका चुनना हमेशा कार्य पर निर्भर होता है और परीक्षण और त्रुटि की आवश्यकता होती है।
ग्रैडिएंट डिसेंट का स्टोचस्टिक हिस्सा पूर्ण डेटा के बजाय डेटा के बैच का उपयोग करके प्राप्त किया जाता है । यह तकनीक सभी उल्लिखित विधियों के समानांतर है, जिसका अर्थ है कि सभी स्टोचस्टिक (डेटा के एक बैच का उपयोग कर) या नियतात्मक (पूरे डेटा का उपयोग करके) हो सकते हैं।
सवाल का जवाब नहीं हो सकता है। कारण बस कई अनुकूलन एल्गोरिदम के कारण है जो उपलब्ध हैं, लेकिन एक का चयन करना संदर्भ पर निर्भर करता है और आपके पास अनुकूलन के लिए समय है। उदाहरण के लिए, जेनेटिक एल्गोरिथ्म एक प्रसिद्ध अनुकूलन दृष्टिकोण है जिसके अंदर कोई ढाल नहीं है। कुछ संदर्भों में बैकट्रैकिंग जैसे अन्य दृष्टिकोण भी हैं। उन सभी का उपयोग किया जा सकता है जो चरण दर चरण ढाल मूलक का लाभ नहीं उठाते हैं।
दूसरी ओर, प्रतिगमन जैसे कार्यों के लिए, आप समस्या को सुलझाने के लिए क्लोज़-फ़ार्म पा सकते हैं, लेकिन इसका मतलब यह है कि फ़ीचर स्पेस और इनपुट्स की संख्या के आधार पर आप क्लोज़-फॉर्म समीकरण या ग्रेडिएंट चुन सकते हैं। गणना की संख्या को कम करने के लिए वंश।
जबकि तंत्रिका नेटवर्क में बहुत सारे अनुकूलन एल्गोरिदम हैं, कई कारणों के कारण ढाल वंश आधारित दृष्टिकोण का उपयोग अधिक किया जाता है। सबसे पहले, वे बहुत तेज हैं। गहरी शिक्षा में, आपको बहुत सारे डेटा प्रदान करने होंगे कि उन्हें एक साथ मेमोरी में लोड नहीं किया जा सके। नतीजतन, आपको अनुकूलन के लिए बैच ढाल विधियों को लागू करना होगा। यह थोड़ा सा आँकड़ा है लेकिन आप इस बात पर विचार कर सकते हैं कि आपके नेटवर्क पर लाया गया प्रत्येक नमूना वास्तविक डेटा का लगभग समान वितरण हो सकता है और एक ढाल खोजने के लिए पर्याप्त प्रतिनिधि हो सकता है जो लागत फ़ंक्शन के वास्तविक ग्रेडिएंट के करीब हो सकता है जो कि होना चाहिए हाथ में सभी डेटा का उपयोग कर निर्माण किया।
दूसरा, मेट्रिसेस और उनके व्युत्क्रम का उपयोग करके चरम सीमाओं को खोजने की जटिलता एक साधारण प्रतिगमन कार्य के लिए जो पैरामीटर का उपयोग करके पाया जा सकता है । यह पता चला है कि सरल ढाल-आधारित विधियों में बेहतर प्रदर्शन हो सकता है। यह भी उल्लेख किया जाना चाहिए कि पूर्व मामले में, आपको डेटा को एक साथ मेमोरी में लाना होगा जो उन अवसरों के लिए संभव नहीं है जहां आप बड़े डेटा कार्यों से निपटते हैं।
तीसरा, अनुकूलन समस्याएं हैं जिनके पास आवश्यक रूप से क्लोज-फॉर्म समाधान नहीं है। लॉजिस्टिक रिग्रेशन उनमें से एक है।
ठीक है, आपने ऑप्टिमाइज़र चुने जो तंत्रिका नेटवर्क में उपयोग किए जाते हैं, वे ऑप्टिमाइज़र ग्रेडिएंट आधारित एल्गोरिदम का उपयोग करते हैं। अधिकांश समय ढाल आधारित एल्गोरिदम का उपयोग तंत्रिका नेटवर्क में किया जाता है। ऐसा क्यों है? ठीक है, क्या आप किसी वक्र के ढलान को जानने के बिना या इसे जानने के लिए न्यूनतम खोजने की कोशिश करना पसंद करेंगे? जब आप ढाल की गणना नहीं कर सकते हैं तो आप व्युत्पन्न-मुक्त अनुकूलन पर वापस आ जाएंगे । कहा जा रहा है कि ऐसे मामले हैं जब आपके पास ग्रेडिएंट के बारे में जानकारी होने के बावजूद ग्रेडिएंट-फ्री पद्धति का उपयोग करना बेहतर है। यह आमतौर पर फ़ंक्शंस के मामले में होता है जिसमें बहुत से स्थानीय मिनीमा होते हैं। विकासवादी रणनीतियों और आनुवंशिक एल्गोरिदम जैसे जनसंख्या आधारित एल्गोरिदम का ऊपरी हाथ यहाँ है। और कॉम्बीनेटरियल ऑप्टिमाइज़ेशन की शाखा भी है जहाँ उपकरणों के एक अलग सेट का उपयोग किया जाता है।