वर्तमान में मैं थोड़ा सा हैरान हूं कि कैसे मिनी-बैच ग्रेडिएंट वंश को एक काठी बिंदु में फँसाया जा सकता है।
समाधान बहुत तुच्छ हो सकता है कि मुझे नहीं मिलता है।
आप एक नया नमूना हर युग मिलता है, और यह एक नया एक नए बैच के आधार पर त्रुटि की गणना करता है, तो लागत समारोह प्रत्येक बैच, के लिए केवल स्थिर है जिसका अर्थ है कि ढाल भी एक मिनी बैच के लिए बदलना चाहिए .. लेकिन के अनुसार इस करना चाहिए एक वेनिला कार्यान्वयन में काठी अंक के साथ मुद्दे हैं?
तंत्रिका नेटवर्क के लिए अत्यधिक गैर-उत्तल त्रुटि कार्यों को कम करने की एक और महत्वपूर्ण चुनौती उनके कई उप-अपनाने वाली स्थानीय सीमा में फंसने से बच रही है। Dauphin et al। [१ ९] यह तर्क देता है कि कठिनाई वास्तव में स्थानीय मिनीमा से नहीं बल्कि काठी के बिंदुओं से उत्पन्न होती है, यानी ऐसे बिंदु जहां एक आयाम ढलान और दूसरा ढलान। ये काठी बिंदु आमतौर पर एक ही त्रुटि के एक पठार से घिरे होते हैं, जो कि एसडब्ल्यूई से बचने के लिए कुख्यात रूप से कठिन है, क्योंकि ढाल सभी आयामों में शून्य के करीब है।
मेरा मतलब है कि विशेष रूप से एसडब्ल्यूडी को काठी के अंक के खिलाफ स्पष्ट लाभ होगा, क्योंकि यह अपने अभिसरण की ओर उतार-चढ़ाव करता है ... उतार-चढ़ाव और यादृच्छिक नमूनाकरण, और प्रत्येक युग के लिए अलग-अलग होने का लागत फ़ंक्शन एक में फंस नहीं होने के लिए पर्याप्त कारण होना चाहिए।
पूर्ण बैच ग्रेडिएंट सभ्य के लिए यह अर्थ है कि यह काठी बिंदु में फंस सकता है, क्योंकि त्रुटि फ़ंक्शन स्थिर है।
मैं दो अन्य भागों पर थोड़ा भ्रमित हूं।