हां, दोनों तरकीबों का उपयोग करना बहुत आम है। वे विभिन्न समस्याओं को हल करते हैं और एक साथ अच्छी तरह से काम कर सकते हैं।
इसके बारे में सोचने का एक तरीका यह है कि वज़न घटने से उस फ़ंक्शन में बदलाव होता है जिसे अनुकूलित किया जा रहा है , जबकि गति आपके द्वारा इष्टतम पर ले जाने वाले मार्ग को बदल देती है ।
वजन घटने, अपने गुणांक को शून्य की ओर सिकोड़कर, यह सुनिश्चित करता है कि आपको छोटे परिमाण वाले स्थानीय इष्टतम मिलें। यह आमतौर पर ओवरफिटिंग से बचने के लिए महत्वपूर्ण है (हालांकि वजन पर अन्य प्रकार की बाधाएं भी काम कर सकती हैं)। एक साइड बेनिफिट के रूप में, यह उद्देश्य फ़ंक्शन को अधिक उत्तल बनाकर, मॉडल को अनुकूलित करना आसान बना सकता है।
एक बार जब आप एक उद्देश्य कार्य करते हैं, तो आपको यह तय करना होगा कि इस पर कैसे घूमें। ग्रेडिएंट पर स्टेपेस्ट डिसेंट सबसे सरल दृष्टिकोण है, लेकिन आप सही कह रहे हैं कि उतार-चढ़ाव एक बड़ी समस्या हो सकती है। गति जोड़ने से उस समस्या को हल करने में मदद मिलती है। यदि आप बैच अपडेट के साथ काम कर रहे हैं (जो आमतौर पर तंत्रिका नेटवर्क के साथ एक बुरा विचार है) न्यूटन-प्रकार के कदम एक और विकल्प हैं। नए "हॉट" दृष्टिकोण नेस्टरोव के त्वरित ढाल और तथाकथित "हेसियन-फ्री" अनुकूलन पर आधारित हैं।
लेकिन इनमें से कौन से अपडेट नियम आप उपयोग करते हैं (गति, न्यूटन, आदि) की परवाह किए बिना , आप अभी भी उसी उद्देश्य फ़ंक्शन के साथ काम कर रहे हैं, जो आपकी त्रुटि फ़ंक्शन (जैसे चुकता त्रुटि) और अन्य बाधाओं (जैसे वजन क्षय) द्वारा निर्धारित किया जाता है । इनमें से कौन सा उपयोग करना है, यह तय करते समय मुख्य सवाल यह है कि आप कितनी जल्दी वजन का एक अच्छा सेट प्राप्त करेंगे।