दीपमिन्द का नया "डिफरेंशियल न्यूरल कंप्यूटर" पैमाना कैसे होगा?


12

दीपमिन्द ने केवल एक " विभेदी तंत्रिका कंप्यूटर" के बारे में एक पेपर प्रकाशित किया , जो मूल रूप से एक स्मृति के साथ एक तंत्रिका नेटवर्क को जोड़ता है

एक निश्चित कार्य के लिए उपयोगी स्पष्ट यादों को बनाने और याद करने के लिए तंत्रिका नेटवर्क को सिखाना है। यह एक तंत्रिका नेटवर्क की क्षमताओं को अच्छी तरह से पूरक करता है, क्योंकि एनएन केवल ज्ञान को निहित रूप से संग्रहीत करते हैं और एक ही कार्य पर काम में ली जाने वाली जानकारी केवल नेटवर्क की सक्रियता में संग्रहीत होती है और आपके द्वारा जोड़े गए अधिक जानकारी को जल्दी से नीचा दिखाती है। ( LSTM अल्पकालिक यादों के इस क्षरण को धीमा करने की कोशिश करते हैं, लेकिन यह अभी भी होता है।)

अब, सक्रियण में आवश्यक जानकारी रखने के बजाय, वे संभवतः सक्रियण में विशिष्ट जानकारी के लिए मेमोरी स्लॉट के पते रखते हैं, इसलिए इन्हें भी गिरावट के अधीन होना चाहिए। मेरा सवाल यह है कि इस दृष्टिकोण को पैमाना क्यों होना चाहिए। क्या कार्य विशिष्ट जानकारी की कुछ अधिक संख्या एक बार फिर से अपनी सक्रियता में सभी उपयुक्त मेमोरी स्लॉट के पते रखने की नेटवर्क क्षमता को बढ़ा नहीं सकती है?

जवाबों:


3

DNC की वास्तुकला की जांच वास्तव में LSTM के लिए कई समानताएं दिखाती है । डीपमाइंड लेख में आरेख पर विचार करें जिसे आपने निम्न से जोड़ा है:

डीपमाइंड डीएनसी आर्किटेक्चर

इसकी तुलना LSTM आर्किटेक्चर (SlideShare पर एंथेन पर क्रेडिट) से करें:

यहाँ छवि विवरण दर्ज करें

यहाँ कुछ करीबी एनालॉग हैं:

  • LSTM की तरह, DNC निश्चित आकार के स्टेट वैक्टर में इनपुट से कुछ रूपांतरण करेगा ( LSTST में एच और सी )
  • इसी तरह, DNC इन निश्चित आकार के राज्य वैक्टर से संभावित रूप से मनमाने ढंग से लम्बे आउटपुट में रूपांतरण करेगा (LSTM में हम अपने मॉडल से बार-बार नमूना लेते हैं जब तक कि हम संतुष्ट नहीं हैं / मॉडल इंगित करता है कि हम कर चुके हैं)
  • भूल जाते हैं और इनपुट LSTM के द्वार का प्रतिनिधित्व लिखने DNC में ऑपरेशन ( 'भूल' अनिवार्य रूप से बस के शून्यीकरण है या आंशिक रूप से स्मृति के शून्यीकरण)
  • LSTM का आउटपुट गेट DNC में रीड ऑपरेशन का प्रतिनिधित्व करता है

हालाँकि, DNC निश्चित रूप से LSTM से अधिक है। सबसे स्पष्ट रूप से, यह एक बड़े राज्य का उपयोग करता है जो विखंडित (पता योग्य) विखंडू में होता है; यह LSTM के गेट को अधिक द्विआधारी बनाने की अनुमति देता है। इसके द्वारा मेरा मतलब है कि राज्य हर समय कदम पर कुछ अंश से मिटाया नहीं जाता है, जबकि LSTM में (सिग्माइड सक्रियण फ़ंक्शन के साथ) यह जरूरी है। यह भयावह भूल की समस्या को कम कर सकता है जिसे आपने उल्लेख किया है और इस प्रकार बेहतर है।

DNC उन लिंक्स में भी उपन्यास है जो इसे मेमोरी के बीच उपयोग करता है। हालाँकि, यह LSTM पर एक अधिक सीमांत सुधार हो सकता है क्योंकि ऐसा लगता है कि हम LSTM को फिर से सक्रिय करने वाले फ़ंक्शन के साथ केवल एक परत के बजाय प्रत्येक गेट के लिए पूर्ण तंत्रिका नेटवर्क के साथ कल्पना करते हैं (इसे सुपर-LSTM कहते हैं); इस मामले में, हम वास्तव में एक पर्याप्त शक्तिशाली नेटवर्क के साथ स्मृति में दो स्लॉट के बीच किसी भी संबंध को सीख सकते हैं। जबकि मैं उन लिंक्स की बारीकियों को नहीं जानता, जो डीपमाइंड सुझाव दे रहा है, वे इस लेख में स्पष्ट रूप से कहते हैं कि वे नियमित न्यूरल नेटवर्क की तरह बैकप्रॉपैगिंग ग्रेडिएटर्स द्वारा सब कुछ सीख रहे हैं। इसलिए, जो भी संबंध वे अपने लिंक में एन्कोडिंग कर रहे हैं, उन्हें सैद्धांतिक रूप से एक तंत्रिका नेटवर्क द्वारा सीखने योग्य होना चाहिए, और इसलिए एक पर्याप्त शक्तिशाली 'सुपर-एलएसटीएम' इसे पकड़ने में सक्षम होना चाहिए।

कहा जा रहा है कि सभी के साथ , यह अक्सर गहन सीखने में होता है कि अभिव्यक्ति के लिए एक ही सैद्धांतिक क्षमता वाले दो मॉडल व्यवहार में बहुत भिन्न होते हैं। उदाहरण के लिए, विचार करें कि यदि हम अभी इसे अनियंत्रित करते हैं तो आवर्तक नेटवर्क को एक विशाल फीड-फॉरवर्ड नेटवर्क के रूप में दर्शाया जा सकता है। इसी प्रकार, दृढ़ नेटवर्क एक वेनिला न्यूरल नेटवर्क से बेहतर नहीं है क्योंकि इसमें अभिव्यक्ति के लिए कुछ अतिरिक्त क्षमता है; वास्तव में, यह इसके वजन पर लगाया गया अवरोध है जो इसे और अधिक प्रभावी बनाता है । इस प्रकार दो मॉडलों की अभिव्यंजना की तुलना करना व्यवहार में उनके प्रदर्शन की उचित तुलना नहीं है, और न ही वे कितने अच्छे पैमाने पर होंगे, इसका सटीक प्रक्षेपण।

DNC के बारे में मेरा एक सवाल है कि क्या होता है जब वह मेमोरी से बाहर निकलता है। जब एक शास्त्रीय कंप्यूटर मेमोरी से बाहर निकलता है और मेमोरी का एक और ब्लॉक अनुरोध किया जाता है, तो प्रोग्राम क्रैश होने लगते हैं (सबसे अच्छा)। मैं यह देखने के लिए उत्सुक हूं कि दीपमिन्द ने इसे कैसे संबोधित किया। मुझे लगता है कि यह वर्तमान में उपयोग में आने वाली स्मृति के कुछ बुद्धिमान नरभक्षण पर निर्भर करेगा। कुछ अर्थों में कंप्यूटर वर्तमान में ऐसा करते हैं जब एक OS अनुरोध करता है कि यदि कोई दबाव किसी निश्चित सीमा तक पहुँच जाए तो गैर-महत्वपूर्ण मेमोरी को मुक्त कर देता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.