LSTM का आविष्कार विशेष रूप से लुप्त हो रही ढाल समस्या से बचने के लिए किया गया था। ऐसा नहीं है कि ऐसा करने के लिए लगातार त्रुटि Carousel (सीईसी) है, जो नीचे चित्र पर (से के साथ माना जाता है Greff एट अल। ) के अनुरूप चारों ओर पाश करने के लिए सेल ।
(स्रोत: deeplearning4j.org )
और मैं समझता हूं कि उस हिस्से को एक प्रकार के पहचान समारोह के रूप में देखा जा सकता है, इसलिए व्युत्पन्न एक है और ढाल स्थिर रहता है।
मुझे समझ में नहीं आता है कि अन्य सक्रियण कार्यों के कारण यह कैसे गायब नहीं होता है? इनपुट, आउटपुट और गेट गेट एक सिग्मॉइड का उपयोग करते हैं, जो व्युत्पन्न 0.25 पर है, और जी और एच पारंपरिक रूप से तन थे । कैसे उन लोगों के माध्यम से backpropagating ढाल गायब नहीं करता है?