"अनुकूलन परिदृश्य" के बारे में सोचो। उदाहरण के लिए, यदि आपके पास केवल दो वज़न के साथ एक नेटवर्क था, तो आप सतह पर इन दो वज़न के सभी संयोजनों को प्लॉट कर सकते हैं, जहाँ प्रत्येक बिंदु पर ऊँचाई आपके कॉस्ट फंक्शन रिटर्न की मात्रा का प्रतिनिधित्व करती है यदि आप इसका उपयोग करते हैं (x, y ) अपने दो वजन के रूप में समन्वय करें। आप इस सतह पर सबसे निचले स्तर पर जाने की कोशिश कर रहे हैं ताकि त्रुटि का न्यूनतम स्तर प्राप्त हो सके।
कभी-कभी समस्या यह है कि सतह बहुत पागल हो सकती है, विशेष रूप से केवल दो के बजाय लाखों मापदंडों के साथ नेटवर्क में। आप उन काठी बिंदुओं में फंस सकते हैं जहां प्रगति धीमी हो जाती है, और फिर अचानक नीचे की ओर पहाड़ी में गोली मार दी जाती है।
यहाँ यह कल्पना करने में मदद करने के लिए एक एनीमेशन है
जैसा कि आप देख सकते हैं कि अधिक बुनियादी ढाल वंश एल्गोरिदम इन पदों में बहुत आसान हो गए हैं।
इसके अन्य कारण भी हो सकते हैं, लेकिन यह वही है जिसके बारे में आप सबसे अधिक सुनते हैं। यह संभव हो सकता है कि एक नेटवर्क में संतृप्त सक्रियण प्राप्त करने वाली इकाइयों का एक समूह हो सकता है (या रिले के मामले में, एक इकाई जो केवल बहुत कम प्रशिक्षण इनपुट द्वारा सक्रिय हो रही है), और एक इकाई संतृप्ति से बाहर हो जाती है एक चेन रिएक्शन सेट करता है जो बाकी को संतृप्ति से बाहर ले जाता है और वजन अचानक ढाल प्रवाह को बढ़ावा देता है? मैंने ऐसा कुछ भी नहीं देखा है, लेकिन अगर किसी को जोड़ने के लिए कोई अन्य कारण हैं तो मुझे दिलचस्पी होगी।