LSTM इकाइयों के साथ RNN भी "विस्फोट ग्रेडिएंट्स" से क्यों पीड़ित हो सकते हैं?


13

मुझे RNN (और, विशेष रूप से, LSTM इकाइयों के साथ) कैसे काम करता है, इसका एक बुनियादी ज्ञान है। मेरे पास एक एलएसटीएम इकाई की वास्तुकला का सचित्र विचार है, जो एक सेल और कुछ द्वार हैं, जो मूल्यों के प्रवाह को नियंत्रित करते हैं।

हालांकि, जाहिरा तौर पर, मैं पूरी तरह से समझ नहीं पाया कि कैसे LSTM "लुप्त और विस्फोट ग्रेडिएंट्स" समस्या को हल करता है, जो कि प्रशिक्षण के दौरान होता है, समय के माध्यम से बैक-प्रचार का उपयोग करके, एक पारंपरिक आरएनएन। मुझे गणित को पूरी तरह समझने के लिए कागजात पढ़ने का अवसर नहीं मिला।

यह उत्तर एक संक्षिप्त विवरण देता है कि कैसे LNM इकाइयों के साथ RNN "लुप्त ग्रेडिएंट्स" समस्या को हल करते हैं। गणितीय रूप से, इसका कारण व्युत्पन्न की अनिवार्यता है जो लुप्त नहीं होती है, अर्थात शून्य नहीं होती है। नतीजतन, लेखक कहता है, "कम से कम एक रास्ता है जहां ढाल गायब नहीं होता है"। IMHO, यह स्पष्टीकरण थोड़ा अस्पष्ट है।

इस बीच, मैं पेपर सीक्वेंस टू सीक्वेंस लर्निंग विद न्यूरल नेटवर्क्स (इल्या सुतकीर, ओरोल विंसल्स, क्वोक वी। ले) के साथ पढ़ रहा था , और उस पेपर में, "3.4 प्रशिक्षण विवरण", यह कहा गया है।

हालांकि LSTM लुप्त हो रही ढाल की समस्या से ग्रस्त नहीं हैं, लेकिन उनमें विस्फोट करने वाले ग्रेडिएंट हो सकते हैं।

मैंने हमेशा सोचा है कि LSTM इकाइयों के साथ RNN "लुप्त" और "विस्फोट ग्रेडिएंट" दोनों समस्याओं को हल करते हैं, लेकिन, जाहिर है, LSTM इकाइयों के साथ RNN भी "विस्फोट ग्रेडिएंट" से ग्रस्त हैं।

सहज रूप से, ऐसा क्यों है? गणितीय रूप से, क्या कारण हैं?

जवाबों:


12

एक बहुत ही कम जवाब:

LSTM सेल सेल स्टेट (आमतौर पर इसके द्वारा निरूपित c) और छिपी हुई परत / आउटपुट (आमतौर पर द्वारा चिह्नित h), और केवल एडिटिव अपडेट करता है c, जो यादों को cऔर अधिक स्थिर बनाता है। इस प्रकार ढाल प्रवाह के माध्यम cसे रखा जाता है और गायब होने के लिए कठिन है (इसलिए समग्र ढाल गायब करने के लिए कठिन है)। हालांकि, अन्य रास्तों में ढाल विस्फोट हो सकता है।


गणितीय स्पष्टीकरण के साथ एक अधिक विस्तृत जवाब:

आइए पहले सीईसी (लगातार त्रुटि हिंडोला) तंत्र की समीक्षा करें। सीईसी कहती है, समय-समय tपर t+1, अगर भूल गेट 1 है (मूल एलएसटीएम पेपर में कोई भूल नहीं है, तो इस तरह हमेशा यही होता है), ढाल बिना परिवर्तन के प्रवाह कर सकता है। पेपर LSTM में BPTT फॉर्मूले के बाद : एक खोज स्थान ओडिसी परिशिष्ट A.2 ( कागज में अन्य साहित्य में है), CEC प्रवाह वास्तव में समीकरण मेल खाती है । जब 1 के करीब है, को जम जाता है losslessly।एल/सीटीyhδसीटी=+δसीटी+1टी+1टी+1δसीटी+1δसीटी

हालांकि, LSTM CEC से अधिक है। CEC पथ के अलावा से , अन्य पथ दो समीपवर्ती समय चरणों के बीच मौजूद हैं। उदाहरण के लिए, । 2 चरणों में वापस प्रसार प्रक्रिया के माध्यम से चलना, हमारे पास है: , हम देखते हैं कि इस मार्ग पर दो बार वैनिला आरएनएन की तरह गुणा किया जाता है, जिससे धीरे-धीरे विस्फोट हो सकता है। इसी तरह, इनपुट और भूल गेट के माध्यम से पथ भी मैट्रिसेस आत्म-गुणन के कारण ढाल विस्फोट पैदा करने में सक्षम हैं ।सीटीसीटी+1yटीटी+1yटी+1δyटीआरटीδटी+1δyटी+1आरटीδटी+2आरटीआरमैंटी,आरटी,आरzटी

संदर्भ:

के। ग्रीफ़, आरके श्रीवास्तव, जे। कुटनीक, बीआर स्टाइनब्रिंक, और जे.स्मिदिहुबेर। LSTM: एक खोज स्थान ओडिसी। सीओआरआर, एब्स / 1503.04069, 2015।


क्या आप उस कागज के लिए पूर्ण उद्धरण शामिल कर सकते हैं? कड़ियाँ मर जाती हैं।
mkt -

2
@mkt आपकी सलाह के लिए धन्यवाद। वास्तव में यह एक बहुत प्रसिद्ध पेपर है और लिंक arXiv पर जाता है, इसलिए यह मरने की संभावना नहीं है, योग्य ~ लेकिन संस्करण v1 की जांच करना सुनिश्चित करें (क्योंकि वर्तमान संस्करण v2 में परिशिष्ट शामिल नहीं है)।
13:30 को आनंद

वैसे भी इसे जोड़ने के लिए धन्यवाद, और परिशिष्ट के बारे में विस्तार से।
mkt - मोनिका

महान जवाब, मैं आमतौर पर +1 डालने के लिए टिप्पणी नहीं करता, लेकिन यह इसका हकदार है। एलएसटीएम सेल में संभवतः अस्थिर रास्तों के मैट्रिक्स बीजगणित के साथ एक वास्तविक उदाहरण दिखाते हुए ओपी को बिल्कुल जवाब देता है।
डेल्टावी

3

0.992000.134
1200=1
1.0120013

हालाँकि अभी भी कुछ रास्ते हैं जिनके माध्यम से ग्रेडिएंट अस्थिर हो सकता है, और नेट जितना बड़ा होगा, उतना ही अधिक संभावना है कि आप इस समस्या में भाग लेंगे।


3
यह मेरे सवाल का जवाब क्यों देगा? मैं विवरण जानना चाहूंगा।
नोबेल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.