मुझे RNN (और, विशेष रूप से, LSTM इकाइयों के साथ) कैसे काम करता है, इसका एक बुनियादी ज्ञान है। मेरे पास एक एलएसटीएम इकाई की वास्तुकला का सचित्र विचार है, जो एक सेल और कुछ द्वार हैं, जो मूल्यों के प्रवाह को नियंत्रित करते हैं।
हालांकि, जाहिरा तौर पर, मैं पूरी तरह से समझ नहीं पाया कि कैसे LSTM "लुप्त और विस्फोट ग्रेडिएंट्स" समस्या को हल करता है, जो कि प्रशिक्षण के दौरान होता है, समय के माध्यम से बैक-प्रचार का उपयोग करके, एक पारंपरिक आरएनएन। मुझे गणित को पूरी तरह समझने के लिए कागजात पढ़ने का अवसर नहीं मिला।
यह उत्तर एक संक्षिप्त विवरण देता है कि कैसे LNM इकाइयों के साथ RNN "लुप्त ग्रेडिएंट्स" समस्या को हल करते हैं। गणितीय रूप से, इसका कारण व्युत्पन्न की अनिवार्यता है जो लुप्त नहीं होती है, अर्थात शून्य नहीं होती है। नतीजतन, लेखक कहता है, "कम से कम एक रास्ता है जहां ढाल गायब नहीं होता है"। IMHO, यह स्पष्टीकरण थोड़ा अस्पष्ट है।
इस बीच, मैं पेपर सीक्वेंस टू सीक्वेंस लर्निंग विद न्यूरल नेटवर्क्स (इल्या सुतकीर, ओरोल विंसल्स, क्वोक वी। ले) के साथ पढ़ रहा था , और उस पेपर में, "3.4 प्रशिक्षण विवरण", यह कहा गया है।
हालांकि LSTM लुप्त हो रही ढाल की समस्या से ग्रस्त नहीं हैं, लेकिन उनमें विस्फोट करने वाले ग्रेडिएंट हो सकते हैं।
मैंने हमेशा सोचा है कि LSTM इकाइयों के साथ RNN "लुप्त" और "विस्फोट ग्रेडिएंट" दोनों समस्याओं को हल करते हैं, लेकिन, जाहिर है, LSTM इकाइयों के साथ RNN भी "विस्फोट ग्रेडिएंट" से ग्रस्त हैं।
सहज रूप से, ऐसा क्यों है? गणितीय रूप से, क्या कारण हैं?