मॉडल के लिए एक RNN के लिए एक व्यवहार्य अनुक्रम लंबाई क्या है?


15

मैं मॉडलिंग समितियों के डेटा के लिए एक आवर्तक तंत्रिका नेटवर्क (RNN) के LSTM ( दीर्घकालिक अल्पकालिक मेमोरी ) संस्करण का उपयोग कर रहा हूं । जैसे-जैसे डेटा की अनुक्रम लंबाई बढ़ती है, नेटवर्क की जटिलता बढ़ जाती है। इसलिए मैं उत्सुक हूं कि एक अच्छी सटीकता के साथ मॉडल की लंबाई क्या होगी?

मैं अत्याधुनिक तरीकों को लागू करने के लिए किसी भी मुश्किल के बिना LSTM के अपेक्षाकृत सरल संस्करण का उपयोग करना चाहूंगा। मेरे समय में प्रत्येक अवलोकन में 4 संख्यात्मक चर होंगे और टिप्पणियों की संख्या लगभग 100.000 से 1.000.000 होगी।

जवाबों:


8

यह पूरी तरह से आपके डेटा की प्रकृति और आंतरिक सहसंबंधों पर निर्भर करता है, अंगूठे का कोई नियम नहीं है। हालाँकि, यह देखते हुए कि आपके पास बड़ी मात्रा में डेटा है 2-परत LSTM समय श्रृंखला समस्याओं / मानदंड का एक बड़ा निकाय मॉडल कर सकता है।

इसके अलावा, आप पूरी श्रृंखला के लिए बैकप्रागेट-थ्रू टाइम नहीं करते हैं, लेकिन आमतौर पर (200-300) अंतिम चरण तक। इष्टतम मूल्य को खोजने के लिए आप ग्रिड खोज या बायेसियन ऑप्टिमाइज़ेशन का उपयोग करके क्रॉस-वैलिड कर सकते हैं। इसके अलावा, आप यहाँ मापदंडों पर एक नज़र डाल सकते हैं: https://github.com/wojzaremba/lstm/blob/master/main.lua

इसलिए, अनुक्रम लंबाई वास्तव में आपके मॉडल प्रशिक्षण को प्रभावित नहीं करती है, लेकिन यह अधिक प्रशिक्षण उदाहरणों की तरह है, कि आप इसे रीसेट करने के बजाय केवल पिछली स्थिति रखते हैं।


यह कहें कि मुझे सेंटीमेंट विश्लेषण करने की आवश्यकता है, जो कई-से-एक दृष्टिकोण है (देखें karpathy.github.io/2015/05/21/rnn-effectiveness )। इनमें से प्रत्येक संतरी बहुत लंबे (> 200 शब्द) हैं। अगर मैं केवल 35 कदमों के दौरान बैकप्रॉपैगेट-थ्रू होता हूं, तो क्या यह मुद्दा नहीं होगा? चूंकि यह सीखने की देखरेख है, मेरा मानना ​​है कि यह केवल बैकप्रोपैगेट कर सकता है जब यह द्विआधारी वर्गीकरण लक्ष्य को "हिट" करता है y,। इस तरह बीपीटीटी के लिए चुने गए 35 चरणों से पहले आरएनएन किसी भी चीज के आधार पर वजन को कैसे समायोजित करेगा?
पीर

1
खैर, यह एक मुद्दा नहीं होगा क्योंकि अगले प्रशिक्षण चरण में समान वजन का पुन: उपयोग किया जाता है। इसके अलावा, यदि आप चरण 36 में स्रोत कोड देखते हैं (मान लें) तो आरंभिक वेक्टर शून्य नहीं है, लेकिन चरण 35 की अवस्थाएँ हैं। इसलिए, छोटे चरण करके आप BPTT का उपयोग करके अपनी लागत फ़ंक्शन का अनुकूलन करते हैं।
यानिस असैल

1
बस स्पष्ट करने के लिए: क्या बीपीटीटी एक बार या एक ही वाक्य के लिए कई बार चलता है? यदि इसे एक बार चलाया जाता है, तो वाक्य में केवल पहले दो शब्दों को प्रभावित करने वाले पैटर्न केवल छिपे हुए राज्य को प्रभावित करेंगे, है ना? मेरा मतलब है .. इनपुट के उस हिस्से के संबंध में ग्रेडिएंट की गणना कभी नहीं की जाएगी।
पीर

1
मैंने इसे अलग प्रश्न के रूप में पूछा है, मुझे आशा है कि आप :) पर देखेंगे। आंकड़े ।stackexchange.com
पीर

2
"यह देखते हुए कि आपके पास बड़ी मात्रा में डेटा है 2-परत LSTM किसी भी समय श्रृंखला को बहुत अधिक मॉडल कर सकता है।" प्रमाण कहाँ है?
nbro
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.