मुझे लगता है कि आप लंबित खड़ी एलएसटीएम परतों का उल्लेख कर रहे हैं (क्षैतिज अक्षों को समय अक्ष मानते हैं।
उस मामले में LSTM को ढेर करने का मुख्य कारण अधिक से अधिक मॉडल जटिलता के लिए अनुमति देना है। साधारण फीडफॉर्वर्ड नेट के मामले में हम कुछ डेटा लर्निंग टास्क के लिए उपयोग करने के लिए इनपुट डेटा के एक पदानुक्रमित सुविधा प्रतिनिधित्व बनाने के लिए परतों को स्टैक करते हैं। स्टैक्ड LSTM के लिए भी यही बात लागू होती है।
हर बार आवर्ती इनपुट के अलावा, एक LSTM कदम। यदि इनपुट पहले से ही एक LSTM परत (या एक फीडबैकवर्ड लेयर) से परिणाम है, तो वर्तमान LSTM वर्तमान इनपुट का अधिक जटिल सुविधा प्रतिनिधित्व बना सकता है।
अब फीचर इनपुट और LSTM लेयर के बीच एक फीडफॉरवर्ड लेयर होने और एक और LSTM लेयर होने के बीच का अंतर यह है कि फीड फ़ॉरवर्ड लेयर (पूरी तरह से कनेक्टेड लेयर) को अपने पिछले समय के स्टेप से फीडबैक प्राप्त नहीं होता है और इस प्रकार वह कुछ भी नहीं कर सकता है पैटर्न। एक एलएसटीएम लगातार (जैसे एक स्टैक एलएसटीएम प्रतिनिधित्व का उपयोग करके) होने से अधिक जटिल इनपुट पैटर्न हर परत पर वर्णित किया जा सकता है