कई LSTM को ढेर करने के क्या फायदे हैं?


25

फायदे क्या हैं, क्यों एक-एक नेटवर्क में, कई LSTM का उपयोग किया जाएगा, एक-एक करके, एक तरफ? मैं एक इनपुट के अनुक्रम का प्रतिनिधित्व करने के लिए एक LSTM का उपयोग कर रहा हूं। इसलिए एक बार मेरे पास यह एकल प्रतिनिधित्व है - मैं इसे फिर से क्यों पास करूंगा?

मैं यह इसलिए पूछ रहा हूं क्योंकि मैंने इसे एक प्राकृतिक भाषा की पीढ़ी के कार्यक्रम में देखा था।


1
क्या आपका वास्तव में मतलब है कि LSTM ने क्षैतिज रूप से (समय के साथ कदम) की तरह कंधे से कंधा मिलाकर खड़ा किया था या क्या आपका मतलब है खड़ी खड़ी (प्रत्येक समय के कदम के लिए कई LSTM सेल)?
वाबेट

जवाबों:


18

मुझे लगता है कि आप लंबित खड़ी एलएसटीएम परतों का उल्लेख कर रहे हैं (क्षैतिज अक्षों को समय अक्ष मानते हैं।

उस मामले में LSTM को ढेर करने का मुख्य कारण अधिक से अधिक मॉडल जटिलता के लिए अनुमति देना है। साधारण फीडफॉर्वर्ड नेट के मामले में हम कुछ डेटा लर्निंग टास्क के लिए उपयोग करने के लिए इनपुट डेटा के एक पदानुक्रमित सुविधा प्रतिनिधित्व बनाने के लिए परतों को स्टैक करते हैं। स्टैक्ड LSTM के लिए भी यही बात लागू होती है।

हर बार आवर्ती इनपुट के अलावा, एक LSTM कदम। यदि इनपुट पहले से ही एक LSTM परत (या एक फीडबैकवर्ड लेयर) से परिणाम है, तो वर्तमान LSTM वर्तमान इनपुट का अधिक जटिल सुविधा प्रतिनिधित्व बना सकता है।

अब फीचर इनपुट और LSTM लेयर के बीच एक फीडफॉरवर्ड लेयर होने और एक और LSTM लेयर होने के बीच का अंतर यह है कि फीड फ़ॉरवर्ड लेयर (पूरी तरह से कनेक्टेड लेयर) को अपने पिछले समय के स्टेप से फीडबैक प्राप्त नहीं होता है और इस प्रकार वह कुछ भी नहीं कर सकता है पैटर्न। एक एलएसटीएम लगातार (जैसे एक स्टैक एलएसटीएम प्रतिनिधित्व का उपयोग करके) होने से अधिक जटिल इनपुट पैटर्न हर परत पर वर्णित किया जा सकता है


4
एक परत के भीतर LSTM कोशिकाएं पहले से ही पूरी तरह से एक दूसरे के साथ जुड़ी हुई हैं (एक परत के आउटपुट में एक ही परत के सभी इनपुट के कनेक्शन हैं)। इसलिए, व्यक्तिगत कोशिकाएं पहले से ही एक परत के भीतर, अन्य कोशिकाओं के आउटपुट के शीर्ष पर सुविधाओं को जोड़ सकती हैं। क्या आप इस बारे में विस्तार से बता सकते हैं कि कई परतें अधिक जटिल पैटर्न में क्यों परिणत होती हैं, कृपया?
दानीझार

6

1 से}:

हालांकि यह सैद्धांतिक रूप से स्पष्ट नहीं है कि गहरी वास्तुकला द्वारा प्राप्त अतिरिक्त शक्ति क्या है, यह अनुभवजन्य रूप से देखा गया था कि कुछ कार्यों पर गहरी आरएनएन उथले से बेहतर काम करती हैं। विशेष रूप से, Sutskever एट अल (2014) की रिपोर्ट है कि एक एनकोडर-डिकोडर फ्रेमवर्क में अच्छे मशीन-अनुवाद प्रदर्शन को प्राप्त करने के लिए एक 4-परत गहरी वास्तुकला महत्वपूर्ण थी। इरोजी और कार्डी (2014) ने भी कई परतों के साथ एक परत बीआई-आरएनएन से आर्किटेक्चर में जाने से बेहतर परिणामों की रिपोर्ट की। कई अन्य कार्य रिपोर्ट किए गए परिणाम में स्तरित RNN आर्किटेक्चर का उपयोग करते हैं, लेकिन स्पष्ट रूप से 1-परत RNN की तुलना नहीं करते हैं।

जानकारी के लिए:


संदर्भ:


2

अनुक्रम वर्गीकरण के लिए LSTM के साथ खेलने से लेकर CNNs में बढ़ती मॉडल क्षमता (यदि आप उनसे परिचित हैं) के समान प्रभाव था। इसलिए आपको निश्चित रूप से लाभ मिलता है खासकर यदि आप अपना डेटा कम कर रहे हैं।

बेशक डबल धार है क्योंकि आप भी फिट हो सकते हैं और खराब प्रदर्शन कर सकते हैं। मेरे मामले में मैं 1 LSTM से 2 के ढेर पर गया और बहुत अधिक त्वरित सुधार प्राप्त किया।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.