DNC की वास्तुकला की जांच वास्तव में LSTM के लिए कई समानताएं दिखाती है । डीपमाइंड लेख में आरेख पर विचार करें जिसे आपने निम्न से जोड़ा है:
इसकी तुलना LSTM आर्किटेक्चर (SlideShare पर एंथेन पर क्रेडिट) से करें:
यहाँ कुछ करीबी एनालॉग हैं:
- LSTM की तरह, DNC निश्चित आकार के स्टेट वैक्टर में इनपुट से कुछ रूपांतरण करेगा ( LSTST में एच और सी )
- इसी तरह, DNC इन निश्चित आकार के राज्य वैक्टर से संभावित रूप से मनमाने ढंग से लम्बे आउटपुट में रूपांतरण करेगा (LSTM में हम अपने मॉडल से बार-बार नमूना लेते हैं जब तक कि हम संतुष्ट नहीं हैं / मॉडल इंगित करता है कि हम कर चुके हैं)
- भूल जाते हैं और इनपुट LSTM के द्वार का प्रतिनिधित्व लिखने DNC में ऑपरेशन ( 'भूल' अनिवार्य रूप से बस के शून्यीकरण है या आंशिक रूप से स्मृति के शून्यीकरण)
- LSTM का आउटपुट गेट DNC में रीड ऑपरेशन का प्रतिनिधित्व करता है
हालाँकि, DNC निश्चित रूप से LSTM से अधिक है। सबसे स्पष्ट रूप से, यह एक बड़े राज्य का उपयोग करता है जो विखंडित (पता योग्य) विखंडू में होता है; यह LSTM के गेट को अधिक द्विआधारी बनाने की अनुमति देता है। इसके द्वारा मेरा मतलब है कि राज्य हर समय कदम पर कुछ अंश से मिटाया नहीं जाता है, जबकि LSTM में (सिग्माइड सक्रियण फ़ंक्शन के साथ) यह जरूरी है। यह भयावह भूल की समस्या को कम कर सकता है जिसे आपने उल्लेख किया है और इस प्रकार बेहतर है।
DNC उन लिंक्स में भी उपन्यास है जो इसे मेमोरी के बीच उपयोग करता है। हालाँकि, यह LSTM पर एक अधिक सीमांत सुधार हो सकता है क्योंकि ऐसा लगता है कि हम LSTM को फिर से सक्रिय करने वाले फ़ंक्शन के साथ केवल एक परत के बजाय प्रत्येक गेट के लिए पूर्ण तंत्रिका नेटवर्क के साथ कल्पना करते हैं (इसे सुपर-LSTM कहते हैं); इस मामले में, हम वास्तव में एक पर्याप्त शक्तिशाली नेटवर्क के साथ स्मृति में दो स्लॉट के बीच किसी भी संबंध को सीख सकते हैं। जबकि मैं उन लिंक्स की बारीकियों को नहीं जानता, जो डीपमाइंड सुझाव दे रहा है, वे इस लेख में स्पष्ट रूप से कहते हैं कि वे नियमित न्यूरल नेटवर्क की तरह बैकप्रॉपैगिंग ग्रेडिएटर्स द्वारा सब कुछ सीख रहे हैं। इसलिए, जो भी संबंध वे अपने लिंक में एन्कोडिंग कर रहे हैं, उन्हें सैद्धांतिक रूप से एक तंत्रिका नेटवर्क द्वारा सीखने योग्य होना चाहिए, और इसलिए एक पर्याप्त शक्तिशाली 'सुपर-एलएसटीएम' इसे पकड़ने में सक्षम होना चाहिए।
कहा जा रहा है कि सभी के साथ , यह अक्सर गहन सीखने में होता है कि अभिव्यक्ति के लिए एक ही सैद्धांतिक क्षमता वाले दो मॉडल व्यवहार में बहुत भिन्न होते हैं। उदाहरण के लिए, विचार करें कि यदि हम अभी इसे अनियंत्रित करते हैं तो आवर्तक नेटवर्क को एक विशाल फीड-फॉरवर्ड नेटवर्क के रूप में दर्शाया जा सकता है। इसी प्रकार, दृढ़ नेटवर्क एक वेनिला न्यूरल नेटवर्क से बेहतर नहीं है क्योंकि इसमें अभिव्यक्ति के लिए कुछ अतिरिक्त क्षमता है; वास्तव में, यह इसके वजन पर लगाया गया अवरोध है जो इसे और अधिक प्रभावी बनाता है । इस प्रकार दो मॉडलों की अभिव्यंजना की तुलना करना व्यवहार में उनके प्रदर्शन की उचित तुलना नहीं है, और न ही वे कितने अच्छे पैमाने पर होंगे, इसका सटीक प्रक्षेपण।
DNC के बारे में मेरा एक सवाल है कि क्या होता है जब वह मेमोरी से बाहर निकलता है। जब एक शास्त्रीय कंप्यूटर मेमोरी से बाहर निकलता है और मेमोरी का एक और ब्लॉक अनुरोध किया जाता है, तो प्रोग्राम क्रैश होने लगते हैं (सबसे अच्छा)। मैं यह देखने के लिए उत्सुक हूं कि दीपमिन्द ने इसे कैसे संबोधित किया। मुझे लगता है कि यह वर्तमान में उपयोग में आने वाली स्मृति के कुछ बुद्धिमान नरभक्षण पर निर्भर करेगा। कुछ अर्थों में कंप्यूटर वर्तमान में ऐसा करते हैं जब एक OS अनुरोध करता है कि यदि कोई दबाव किसी निश्चित सीमा तक पहुँच जाए तो गैर-महत्वपूर्ण मेमोरी को मुक्त कर देता है।