आवर्तक तंत्रिका नेटवर्क की संरचना (LSTM, GRU)


10

मैं आरएनएन की वास्तुकला को समझने की कोशिश कर रहा हूं। मुझे यह ट्यूटोरियल मिला है जो बहुत मददगार रहा है: http://colah.github.io/posts/2015-08-Understanding-LSTMs/

विशेष रूप से यह छवि: यहाँ छवि विवरण दर्ज करें

यह फ़ीड-फ़ॉरवर्ड नेटवर्क में कैसे फिट होता है? क्या यह छवि प्रत्येक परत में सिर्फ एक और नोड है?


या क्या यह हर न्यूरॉन जैसा दिखता है?
Adam12344

जवाबों:


8

ए, वास्तव में, एक पूर्ण परत है। परत का आउटपुट , वास्तव में न्यूरॉन आउटपुट है, जिसे सॉफ्टमैक्स लेयर में प्लग किया जा सकता है (यदि आप टाइम स्टेप लिए वर्गीकरण चाहते हैं , उदाहरण के लिए) या कुछ और जैसे कि एक और LSTM लेयर अगर आप चाहते हैं। भीतर जाओ। इस परत का इनपुट वह है जो इसे नियमित नेटवर्क से अलग करता है: यह इनपुट और नेटवर्क की पूर्ण स्थिति को पिछले समय के चरण (दोनों और LSTST सेल के दूसरे चर से लेता है) )।टीटीएक्सटीटी-1

ध्यान दें कि एक वेक्टर है। इसलिए, यदि आप 1 छिपी हुई परत के साथ एक नियमित फीडफोवर्ड नेटवर्क के साथ एक सादृश्य बनाना चाहते हैं, तो ए को छिपी हुई परत में इन सभी न्यूरॉन्स की जगह लेने के रूप में सोचा जा सकता है (प्लस आवर्ती भाग की अतिरिक्त जटिलता)।टी


क्या , और लंबाई समान है? टीसीटीएक्सटी
user_1177868

6

आपकी छवि में ए एकल छिपी हुई न्यूरॉन के साथ एक छिपी हुई परत है। बाएं से दाएं समय अक्ष है, और नीचे आपको हर समय एक इनपुट मिलता है। शीर्ष पर परतों को जोड़कर नेटवर्क को और विस्तारित किया जा सकता है।

यदि आप समय में इस नेटवर्क को प्रकट करेंगे, जैसा कि आपकी तस्वीर में नेत्रहीन दिखाया जा रहा है (बाएं से दाएं समय-अक्ष को प्रकट किया गया है) तो आप टी के साथ एक फीडफॉर्वर्ड नेटवर्क प्राप्त करेंगे (कुल समय के चरणों की राशि) जिसमें छिपी हुई परतें हैं एकल नोड (न्यूरॉन) जैसा कि मध्य ए ब्लॉक में खींचा गया है।

उम्मीद है कि यह आपके प्रश्न का उत्तर देगा।


3

मैं उस सरल आरेख को अपेक्षाकृत जटिल संदर्भ में समझाना चाहता हूं: seq2seq मॉडल के डिकोडर में ध्यान तंत्र।

प्रवाह आरेख में, 0 सेवा -1समय के चरण हैं (खाली के लिए PAD के साथ इनपुट संख्या के समान लंबाई के)। हर बार जब शब्द को ith (टाइम स्टेप) LSTM न्यूरल (या कर्नेल सेल को आपकी छवि के तीन में से किसी एक के रूप में रखा जाता है) तो वह अपनी पिछली स्थिति ((-1) वें आउटपुट) के अनुसार आईआईटी आउटपुट की गणना करता है। ith इनपुटएक्समैं। मैं इसका उपयोग करते हुए आपके मुद्दे का वर्णन करता हूं, क्योंकि टाइमस्टेप के सभी राज्यों को केवल पिछले एक को प्राप्त करने के लिए केवल छोड़ने के बजाय ध्यान तंत्र के लिए बचाया जाता है। यह सिर्फ एक तंत्रिका है और इसे एक परत के रूप में देखा जाता है (कई परतों को उदाहरण के लिए कुछ seq2seq मॉडल में एक द्विदिश एनकोडर के रूप में बनाया जा सकता है ताकि हाइपर परतों में अधिक सार जानकारी निकालने के लिए)।

यह तब वाक्य को एनकोड करता है (L शब्दों के साथ और हर एक आकृति के वेक्टर के रूप में दर्शाया गया है: embedding_dimention * 1) L दसियों की एक सूची में (प्रत्येक आकृति: num_hidden / num_units * 1)। और डिकोडर के लिए अतीत की स्थिति सूची के प्रत्येक आइटम के समान आकार के वाक्य एम्बेडिंग के रूप में अंतिम वेक्टर है।

यहाँ छवि विवरण दर्ज करें
चित्र स्रोत: ध्यान तंत्र

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.