मैं सोच रहा हूँ कि LSTMs को ढेर करना किन परिस्थितियों में फायदेमंद है?
मैं सोच रहा हूँ कि LSTMs को ढेर करना किन परिस्थितियों में फायदेमंद है?
जवाबों:
से कई LSTMs stacking के क्या लाभ हैं? (मैं केवल वहां जवाब अपडेट करूंगा):
1 से}:
हालांकि यह सैद्धांतिक रूप से स्पष्ट नहीं है कि गहरी वास्तुकला द्वारा प्राप्त अतिरिक्त शक्ति क्या है, यह अनुभवजन्य रूप से देखा गया था कि कुछ कार्यों पर गहरी आरएनएन उथले से बेहतर काम करती हैं। विशेष रूप से, Sutskever एट अल (2014) की रिपोर्ट है कि एक एनकोडर-डिकोडर फ्रेमवर्क में अच्छे मशीन-अनुवाद प्रदर्शन को प्राप्त करने में 4-परत गहरी वास्तुकला महत्वपूर्ण थी। इरोजी और कार्डी (2014) ने भी कई परतों के साथ एक परत बीआई-आरएनएन से आर्किटेक्चर में जाने से बेहतर परिणामों की रिपोर्ट की। कई अन्य कार्य रिपोर्ट किए गए आरएनएन आर्किटेक्चर का उपयोग करते हुए रिपोर्ट करते हैं, लेकिन स्पष्ट रूप से 1-परत आरएनएन की तुलना नहीं करते हैं।
संदर्भ:
- {१} गोल्डबर्ग, योआव। "प्राकृतिक भाषा प्रसंस्करण के लिए तंत्रिका नेटवर्क मॉडल पर एक प्राइमर।" जे। आर्टिफ। Intell। Res। (JAIR) 57 (2016): 345-420 https://scholar.google.com/scholar?cluster=3704132192758179278&hl=en&as_sdt=0,5 ; http://u.cs.biu.ac.il/~yogo/nnlp.pdf
एक स्थिति जिसमें एलएसटीएम को ढेर करना फायदेमंद है, जब हम अपने समय-श्रृंखला डेटा के पदानुक्रमित प्रतिनिधित्व सीखना चाहते हैं। स्टैक्ड LSTM में, प्रत्येक LSTM लेयर वैक्टर के एक अनुक्रम को आउटपुट करता है जिसे बाद में LSTM लेयर के इनपुट के रूप में उपयोग किया जाएगा। छिपी हुई परतों की यह पदानुक्रम हमारे समय-श्रृंखला के डेटा के अधिक जटिल प्रतिनिधित्व को सक्षम बनाता है, विभिन्न पैमानों पर जानकारी कैप्चर करता है।
उदाहरण के लिए, स्टैक किए गए LSTM का उपयोग समय-श्रृंखला वर्गीकरण में सटीकता में सुधार करने के लिए किया जा सकता है, जैसे कि गतिविधि भविष्यवाणी, जिसमें हृदय गति, चरण-गणना, जीपीएस और अन्य संकेतों का उपयोग गतिविधि की भविष्यवाणी करने के लिए किया जा सकता है जैसे चलना, दौड़ना, बाइक चलाना, सीढ़ी चढ़ना या आराम करना। ईईजी डेटा का उपयोग करके खड़ी LSTMs के साथ समय-श्रृंखला वर्गीकरण के उदाहरण के लिए निम्नलिखित ipython नोटबुक पर एक नज़र है ।
अनुक्रम मॉडल के अनुक्रम में: एनकोडर नेटवर्क का काम हमारे Seq2Seq मॉडल के इनपुट अनुक्रम को पढ़ना है और अनुक्रम के लिए एक निश्चित-आयामी संदर्भ वेक्टर सी उत्पन्न करना है। ऐसा करने के लिए, एनकोडर एक आवर्ती तंत्रिका नेटवर्क सेल का उपयोग करेगा - आमतौर पर एक एलएसटीएम - एक समय में इनपुट टोकन को पढ़ने के लिए। सेल की अंतिम छिपी हुई स्थिति तब सी हो जाएगी। हालांकि, एक निश्चित-आकार के वेक्टर (विशेष रूप से अनुवाद जैसे कठिन कार्यों के लिए) में एक मनमाना-लंबाई अनुक्रम को संपीड़ित करना बहुत मुश्किल है, एनकोडर आमतौर पर खड़ी LSTMs से मिलकर बनेगा : LSTM "परतों" की एक श्रृंखला जहां प्रत्येक परत के आउटपुट अगली परत के लिए इनपुट अनुक्रम हैं। अंतिम परत के LSTM छिपे हुए राज्य को संदर्भ वेक्टर के रूप में उपयोग किया जाएगा।