समय श्रृंखला विश्लेषण के लिए आवर्तक तंत्रिका नेटवर्क का उपयोग करने का उचित तरीका


67

आवर्तक तंत्रिका नेटवर्क इस तथ्य से "नियमित" लोगों से भिन्न होते हैं कि उनके पास "मेमोरी" परत है। इस परत के कारण, एन सी आर एनएन समय श्रृंखला मॉडलिंग में उपयोगी माना जाता है। हालांकि, मुझे यकीन नहीं है कि मैं सही तरीके से समझता हूं कि उनका उपयोग कैसे किया जाए।

मान लें कि मेरे पास निम्नलिखित समय श्रृंखला है (बाएं से दाएं):, [0, 1, 2, 3, 4, 5, 6, 7]मेरा लक्ष्य iअंकों का उपयोग करके i-1और i-2प्रत्येक के लिए इनपुट के रूप में -th बिंदु की भविष्यवाणी करना है i>2। "नियमित" में, गैर-आवर्ती ANN मैं डेटा को निम्नानुसार संसाधित करेगा:

 target| input
      2| 1 0
      3| 2 1
      4| 3 2
      5| 4 3
      6| 5 4
      7| 6 5 

मैं तब दो इनपुट और एक आउटपुट नोड के साथ एक नेट बनाऊंगा और इसे ऊपर दिए गए डेटा के साथ प्रशिक्षित करूंगा।

आवर्तक नेटवर्क के मामले में किसी को इस प्रक्रिया को बदलने की आवश्यकता क्यों है (यदि बिल्कुल भी)?


क्या आपको पता चला है कि RNN (जैसे LSTM) के लिए डेटा कैसे तैयार किया जाए? धन्यवाद
mik1904

जवाबों:


49

आप जो वर्णन करते हैं वह वास्तव में "स्लाइडिंग टाइम विंडो" दृष्टिकोण है और आवर्तक नेटवर्क के लिए अलग है। आप किसी भी प्रतिगमन एल्गोरिथ्म के साथ इस तकनीक का उपयोग कर सकते हैं। इस दृष्टिकोण के लिए एक बड़ी सीमा है: इनपुट में घटनाएं केवल अन्य इनपुट / आउटपुट के साथ सहसंबंधी हो सकती हैं जो सबसे अधिक टी टाइमस्टेप पर अलग होती हैं, जहां टी विंडो का आकार है।

जैसे आप ऑर्डर टी के मार्कोव श्रृंखला के बारे में सोच सकते हैं। RNN इस सिद्धांत से ग्रस्त नहीं हैं, हालांकि अभ्यास में सीखना मुश्किल है।

फीडफ़र्ड नेटवर्क के विपरीत आरएनएन को चित्रित करना सबसे अच्छा है। बहुत (बहुत) सरल फीडफोवर्ड नेटवर्क पर विचार करें जहां आउटपुट है, वजन मैट्रिक्स है, और इनपुट है।y=WxyWx

अब, हम एक आवर्तक नेटवर्क का उपयोग करते हैं। अब हमारे पास इनपुट का एक क्रम है, इसलिए हम ith इनपुट के लिए द्वारा इनपुट को निरूपित करेंगे । इसी ith आउटपुट की गणना तब ।xiyi=Wxi+Wryi1

इस प्रकार, हमारे पास एक और वजन मैट्रिक्स जो आउटपुट को पिछले चरण में वर्तमान आउटपुट में रैखिक रूप से शामिल करता है।Wr

यह निश्चित रूप से एक साधारण वास्तुकला है। सबसे आम एक वास्तुकला है, जहां आपके पास एक छिपी हुई परत होती है जो बार-बार खुद से जुड़ी होती है। चलो timestep मैं छिपी परत को दर्शाते हैं। सूत्र तो हैं:hi

h0=0
hi=σ(W1xi+Wrhi1)
yi=W2hi

जहाँ की तरह एक उपयुक्त गैर-रैखिकता / स्थानांतरण कार्य है। और इनपुट और छिपे हुए और छिपे हुए और आउटपुट लेयर के बीच कनेक्टिंग वेट हैं। आवर्तक भार का प्रतिनिधित्व करता है।डब्ल्यू 1 डब्ल्यू 2 डब्ल्यू आरσW1W2Wr

यहाँ संरचना का आरेख है:

ढांच के रूप में


2
मैं कलमन फिल्टर के साथ आवर्तक नेटवर्क की कुछ समानता को देखने के लिए गलत हूं? मैं इसे देखता हूं क्योंकि पिछला आउटपुट वर्तमान आउटपुट को प्रभावित करता है। आवर्तक नेटवर्क का व्यावहारिक लाभ क्या है?
वास

10
आप इस अर्थ में लिखे गए हैं कि दोनों राज्य अंतरिक्ष मॉडल हैं। हालांकि, बहुत सारे अंतर हैं: केएफ पूरी तरह से संभाव्य हैं, इस अर्थ में कि छिपे हुए राज्यों का उचित संभाव्य अर्थ है। दूसरी ओर RNN नियतात्मक हैं और केवल आउटपुट का उपयोग भेदभावपूर्ण तरीके से वितरण के लिए किया जा सकता है। इसके अलावा, KF को आम तौर पर EM के साथ अनुमानित किया जाता है, जबकि RNN को क्रमिक आधारित विधियों के साथ अनुमानित किया जाता है। यदि आप अधिक विवरण चाहते हैं, तो एक प्रश्न पोस्ट करने और मुझे लिंक भेजने के लिए स्वतंत्र महसूस करें, लेकिन इसके लिए टिप्पणियां बहुत सीमित हैं।
बायरज

1
नहीं, स्लाइडिंग टाइम विंडो केवल इनपुट पर नेट के आउटपुट पर दिखावा नहीं करती है।
बायरज

2
@ बायरज महान जानकारी, लेकिन मुझे नहीं लगता कि आपने सवाल का जवाब दिया। आप RNN के लिए स्लाइडिंग टाइम विंडो में इनपुट आउटपुट वैक्टर कैसे नहीं बनाते हैं? क्या आप ओपी के डेटासेट के साथ कुछ नमूने प्रदान कर सकते हैं?
लेविटिकन

1
यह RNN का बहुत ही जानकारीपूर्ण वर्णन है, लेकिन मैं ओपी के प्रश्न का उत्तर खोजने में विफल रहा: किसी को आवर्तक नेटवर्क के मामले में [प्रशिक्षण] को बदलने की आवश्यकता कैसे है?
wehnsdaefflae

9

आप इनपुट डेटा के लिए बस समय श्रृंखला के कई परिवर्तनों का उपयोग करने पर भी विचार कर सकते हैं। सिर्फ एक उदाहरण के लिए, इनपुट हो सकते हैं:

  1. सबसे हालिया अंतराल मूल्य (7)
  2. अगले सबसे हाल के अंतराल मूल्य (6)
  3. सबसे हाल ही में और सबसे हाल ही में (7-6 = 1) के बीच का डेल्टा
  4. तीसरा सबसे हाल का अंतराल मूल्य (5)
  5. दूसरा और तीसरा सबसे हालिया (6-5 = 1) के बीच का डेल्टा
  6. पिछले तीन अंतरालों का औसत ((7 + 6 + 5) / 3 = 6)

इसलिए, यदि एक पारंपरिक तंत्रिका नेटवर्क के लिए आपके इनपुट रूपांतरित डेटा के ये छह टुकड़े थे, तो पैटर्न को सीखने के लिए एक साधारण बैकप्रॉपैगैजेशन एल्गोरिदम के लिए यह मुश्किल काम नहीं होगा। आपको उन परिवर्तनों के लिए कोड करना होगा जो कच्चे डेटा को लेते हैं और इसे अपने तंत्रिका नेटवर्क में उपरोक्त 6 इनपुट में बदल देते हैं।


1
आप इस में बहुत सारे डोमेन ज्ञान रखते हैं। क्या होगा यदि आप स्वयं समय श्रृंखला के पैटर्न को नहीं पहचानते हैं? फिर आप एक मॉडल का निर्माण कैसे कर सकते हैं, खासकर अगर यह उन इनपुटों पर निर्भर करता है जो अतीत में बहुत दूर हैं?
bayerj

अनंत निश्चित रूप से मुश्किल होगा। हालाँकि, यदि आप इस डोमेन के लिए प्रासंगिक डेटा के ट्रांसफ़ॉर्म में नहीं डालते हैं, तो लर्निंग एल्गोरिदम आसानी से यह पता लगाने में सक्षम होगा कि वज़न को उसके अनुसार समायोजित किया जाए, इसलिए यह तब तक बड़ी समस्या नहीं है जब तक आपके पास ट्रांसफ़ॉर्म नहीं हैं। डेटा जो प्रासंगिक हैं। इसलिए, कई अलग-अलग ट्रांसफ़ॉर्म उपलब्ध होने से आपकी सफलता की संभावनाएँ बेहतर होती हैं।
रोवेस्दविद

निम्नलिखित कार्य की कल्पना करें: नेट पर पहला इनपुट या । फिर, नेट टाइमस्टेप के किसी भी संख्या (10, 1000, 100000) के लिए अंतराल से शोर प्राप्त करता है । जैसे ही इसे प्राप्त होता है, इसे या से किसी एक को बाहर रखना होता है , जो पहले देखे गए पर निर्भर करता है। यह सामाजिक रूप से "लेचिंग बेंचमार्क" है। यह अनुक्रम सीखने की समस्याओं में काफी विशिष्ट सेटिंग है। आवर्तक नेटवर्क का बड़ा लाभ यह है कि इनपुट का संपूर्ण परिवर्तन स्वयं सीखा जाता है और मानव विशेषज्ञ या फीचर इंजीनियर द्वारा नहीं दिया जाता है। 1 [ - 0.1 , 0.1 ] 1 0 101[0.1,0.1]101
बायरज

2
मैं यह कहना नहीं चाहूंगा कि आपको कभी भी आवर्तक तंत्रिका नेटवर्क का उपयोग नहीं करना चाहिए; बिल्कुल इसके विपरीत। हालाँकि, यदि कार्य (जैसा कि प्रश्न में कहा गया है), (i-1) और ((-2) बिंदुओं से ith का अनुमान लगाना है, तो आप उस ज्ञान का उपयोग करके बेहतर परिणाम प्राप्त कर सकते हैं। मेरा सुझाव यह नहीं है कि आरएनएन कभी भी एक अच्छा विचार नहीं है, लेकिन प्रशिक्षण प्रक्रिया में तेजी लाने के लिए आपको जो भी डोमेन ज्ञान प्राप्त करना है उसका उपयोग करना ठीक है (और स्थानीय न्यूनतम आदि में पकड़े जाने वाले प्रशिक्षण की संभावना को कम करना) ।
मई को rossdavidh

4

एक अन्य संभावना ऐतिहासिक संवेदी तंत्रिका नेटवर्क (HCNN) है । यह आर्किटेक्चर उपर्युक्त सेटअप के लिए अधिक उपयुक्त हो सकता है क्योंकि वे इनपुट- और आउटपुट-चर के बीच अक्सर मनमानी अंतर को समाप्त करते हैं और इसके बजाय सभी वेधशालाओं के साथ प्रशिक्षण के माध्यम से पूरे सिस्टम की पूर्ण अंतर्निहित गतिशीलता को दोहराने की कोशिश करते हैं।

जब मैं सीमेंस के लिए काम कर रहा था तब मैंने स्प्रिंगर वर्लग की एक किताब में इस आर्किटेक्चर पर एक पेपर प्रकाशित किया: ज़िमरमन, ग्रोथमैन, टिट्ज़, वॉन जौने-डिडरिच: मार्केट मॉडलिंग, फोरकास्टिंग एंड रिस्क एनालिसिस फॉर हिस्टोरिकल कंसिस्टेंट न्यूरल नेटवर्क्स

यहाँ प्रतिमान के बारे में एक विचार देने के लिए यहाँ एक छोटा सा अंश है:

इस लेख में, हम एक नए प्रकार के आवर्तक एनएन प्रस्तुत करते हैं, जिसे ऐतिहासिक सुसंगत तंत्रिका नेटवर्क (एचसीएनएन) कहा जाता है। एचसीएनएन कई समय के पैमाने पर अत्यधिक-इंटरेक्टिव नॉन-लीनियर डायनेमिक सिस्टम के मॉडलिंग की अनुमति देता है। HCNN इनपुट और आउटपुट के बीच कोई अंतर नहीं करता है, लेकिन एक बड़े राज्य स्थान की गतिशीलता में एम्बेडेड मॉडल वेधशाला।

[...]

आरएनएन का उपयोग एक गैर-रेखीय प्रतिगमन दृष्टिकोण का उपयोग करके एक खुले गतिशील सिस्टम को मॉडल और पूर्वानुमान करने के लिए किया जाता है। कई वास्तविक विश्व तकनीकी और आर्थिक अनुप्रयोगों को हालांकि बड़ी प्रणालियों के संदर्भ में देखा जाना चाहिए, जिसमें विभिन्न (गैर-रैखिक) गतिशीलता समय में एक दूसरे के साथ बातचीत करते हैं। एक मॉडल पर अनुमानित, इसका मतलब है कि हम इनपुट और आउटपुट के बीच अंतर नहीं करते हैं, लेकिन वेधशालाओं के बारे में बोलते हैं। बड़ी प्रणालियों के आंशिक अवलोकन के कारण, हमें वेधशालाओं की गतिशीलता की व्याख्या करने में सक्षम होने के लिए छिपे हुए राज्यों की आवश्यकता है। वेधशालाओं और छिपे हुए चर को मॉडल द्वारा एक ही तरीके से व्यवहार किया जाना चाहिए। शब्द इनपुट और आउटपुट चर (यानीYτ:=(yτ,uτ))। यदि हम एक मॉडल लागू करने में सक्षम हैं, जिसमें सभी वेधशालाओं की गतिशीलता का वर्णन किया जा सकता है, तो हम खुली प्रणाली को बंद करने की स्थिति में होंगे।

... और निष्कर्ष से:

बड़े आवर्तक तंत्रिका नेटवर्क में छिपे और देखे गए चर का संयुक्त मॉडलिंग योजना और जोखिम प्रबंधन के लिए नई संभावनाएं प्रदान करता है। HCNN पर आधारित पहनावा दृष्टिकोण भविष्य की संभाव्यता वितरण के पूर्वानुमान के लिए एक वैकल्पिक दृष्टिकोण प्रदान करता है। एचसीएनएन अतीत में वेधशालाओं के गतिशील का सही विवरण देते हैं। हालांकि, दुनिया के आंशिक अवलोकन के परिणामस्वरूप छिपे हुए चर के एक गैर-अद्वितीय पुनर्निर्माण और इस प्रकार, भविष्य के अलग-अलग परिदृश्य होते हैं। चूंकि डायनेमिक का वास्तविक विकास अज्ञात है और सभी रास्तों पर समान संभावना है, इसलिए पहनावा का औसत सबसे अच्छा पूर्वानुमान माना जा सकता है, जबकि वितरण की बैंडविड्थ बाजार के जोखिम का वर्णन करती है। आज, हम खरीद निर्णयों के समय का अनुकूलन करने के लिए ऊर्जा और कीमती धातुओं की कीमतों की भविष्यवाणी करने के लिए HCNN पूर्वानुमानों का उपयोग करते हैं। वर्तमान में कार्य प्रगति के कलाकारों की टुकड़ी के विश्लेषण और व्यावहारिक जोखिम प्रबंधन और। वित्तीय बाजार अनुप्रयोगों में इन अवधारणाओं के कार्यान्वयन की चिंता करता है।

कागज के हिस्सों को सार्वजनिक रूप से देखा जा सकता है: यहां


क्या आपके पास डाउनलोड और परीक्षण के लिए एक कार्यान्वयन उपलब्ध है?
जूलियन एल

@ जूलियनएल: दुर्भाग्य से नहीं, क्योंकि यह सीमेंस के लिए मालिकाना काम था।
वॉनजद

बहुत बुरा, जो आशाजनक लग रहा था।
जूलियन एल

@ जूलियनएल: मैं आपको अपने सह-लेखक जॉर्ज से संपर्क करने के लिए प्रोत्साहित करता हूं। उनका ईमेल कागज के पहले पृष्ठ पर है (ऊपर लिंक देखें)।
वॉनजद
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.