LOESS समय श्रृंखला मॉडल के लिए वृद्धिशील शिक्षण


9

मैं वर्तमान में कुछ समय श्रृंखला डेटा पर काम कर रहा हूं, मुझे पता है कि मैं LOESS / ARIMA मॉडल का उपयोग कर सकता हूं।

डेटा एक वेक्टर को लिखा जाता है जिसकी लंबाई 1000 है, जो एक कतार है, जो हर 15 मिनट में अपडेट करता है,

इस प्रकार पुराना डेटा पॉप आउट हो जाएगा जबकि नया डेटा वेक्टर में पुश होगा।

मैं एक अनुसूचक पर पूरे मॉडल को फिर से चला सकता हूं, उदाहरण के लिए हर 15 मिनट में मॉडल को फिर से लिखता हूं, अर्थात् LOESS मॉडल को प्रशिक्षित करने के लिए पूरे 1000 मान का उपयोग करें, हालांकि यह बहुत ही अक्षम है, क्योंकि हर बार केवल एक मूल्य सम्मिलित होता है, जबकि अन्य 999 llaues अभी भी पिछली बार की तरह ही।

तो मैं बेहतर प्रदर्शन कैसे प्राप्त कर सकता हूं?

बहुत धन्यवाद


3
"LOESS / ARIMA मॉडल" क्या है? क्या आपका मतलब एआरआईएमए त्रुटियों के साथ एक गैर-रेखीय समय प्रवृत्ति है जहां गैर-प्रवृत्ति का अनुमान LOESS का उपयोग करके किया जाता है?
रॉब ह्यंडमैन

क्षमा करें, मेरा मतलब LOESS या ARIMA मॉडल है। उदाहरण के लिए, मैं अवशिष्टों को खोजने के लिए LOESS का उपयोग करता हूं: अवशिष्ट (loess (x ~ time))। क्योंकि डेटा x 1000 मानों वाला वेक्टर है, जो हर 15 मिनट में अपडेट होता है। मैं कैसे कुशलतापूर्वक अवशेष प्राप्त कर सकता हूं, लेकिन हर बार इनपुट के रूप में पूरे डैटसेट को फिर से चलाएँ नहीं? हर बार केवल 1 मूल्य अपडेट के रूप में, अन्य 999 मान पिछली बार के समान ही हैं।
झांग

एक संभव विधि, शायद अगले 1000 मानों की भविष्यवाणी करने के लिए पहले 1000 मानों का उपयोग करें (हालांकि LOESS केवल समर्थन 4 मूल्यों की भविष्यवाणी करता है), फिर अवशिष्ट की गणना वास्तविक मूल्य और संबंधित भविष्यवाणी मूल्य के बीच के अंतर के रूप में करें। फिर प्रति 1000 मानों पर मॉडल को फिर से लिखें, हालांकि, यह मूल LOESS मॉडल नहीं है जो मैं चाहता हूं :-(
zhang

जवाबों:


1

मुझे कुछ और परिचित में फिर से तैयार करें। ARIMA PID सन्निकटन का एक एनालॉग है। मैं अभिन्न हूं। एमए पी है। एआर को अंतर समीकरणों के रूप में व्यक्त किया जा सकता है जो डी शब्द हैं। LOESS एक कम से कम वर्ग फिटिंग (उच्च तकनीक वाला बड़ा भाई वास्तव में) है।

इसलिए अगर मैं दूसरे ऑर्डर मॉडल (पीआईडी) में सुधार करना चाहता हूं तो क्या किया जा सकता है?

  • सबसे पहले, मैं एक कलमन फ़िल्टर का उपयोग करके नई जानकारी के एकल टुकड़े के साथ मॉडल को अपडेट कर सकता हूं।
  • मैं "ग्रेडिएंट बूस्टेड ट्री" नामक चीज़ को भी देख सकता था। उनमें से एक एनालॉग का उपयोग करते हुए, मैं एक दूसरा एआरआईएमए मॉडल बनाऊंगा जिसके इनपुट दोनों कच्चे इनपुट हैं जो पहले खिलाए गए हैं, पहले की त्रुटियों के साथ संवर्धित हैं।
  • मैं कई मोड के लिए त्रुटियों की पीडीएफ को देखने पर विचार करूंगा। अगर मैं त्रुटियों को दूर कर सकता हूं तो मैं मॉडल को विभाजित करना चाहता हूं, या उप-मॉडल में इनपुट को अलग करने के लिए मिक्सचर मॉडल का उपयोग कर सकता हूं। सबमॉडल स्थानीय घटना विज्ञान को एक बड़े पैमाने के मॉडल से बेहतर तरीके से संभालने में बेहतर हो सकते हैं।

एक सवाल जो मैं पूछने में विफल रहा है, "प्रदर्शन का क्या मतलब है?"। यदि हमारे पास अच्छाई का स्पष्ट रूप से उल्लिखित माप नहीं है, तो यह बताने का कोई तरीका नहीं है कि क्या उम्मीदवार पद्धति "सुधार" करती है। ऐसा लगता है जैसे आप बेहतर मॉडलिंग, कम समय की गणना, और अधिक कुशल जानकारी का उपयोग करना चाहते हैं। वास्तविक डेटा के बारे में पंचांग होने से भी यह सूचित किया जा सकता है। यदि आप हवा में मॉडलिंग कर रहे हैं, तो आप जान सकते हैं कि मॉडल बढ़ाने के लिए कहां देखें, या आपके डेटा के लिए रूपांतरण खोजें जो उपयोगी हैं।


1

यह इस बात पर निर्भर करता है कि आप एक loess या ARIMA मॉडल का उपयोग कर रहे हैं। मैं अभी के लिए बस संक्षिप्त प्रश्न का उत्तर दूंगा, क्योंकि मुझे संदेह है कि ARIMA मामले में संभवतया आरंभिक मानों का एक अच्छा सेट होने के अलावा अन्य क्षमताएँ कम हैं।

एक loess मॉडल डेटा के विभिन्न सबसेट के लिए एक भारित प्रतिगमन फिटिंग द्वारा काम करता है। प्रत्येक फिट के लिए केवल डेटा का अनुपात उपयोग किया जाता है। इसलिए हर बार जब आप एक सिरे पर एक डेटा पॉइंट को गिराते हैं और विपरीत छोर पर दूसरे को जोड़ते हैं, तो आपको तकनीकी रूप से केवल पहले और अंतिम बिंदु का उपयोग करने वाले स्थानीय रजिस्टरों को फिट करने की आवश्यकता होती है। बीच-बीच में सभी स्थानीय प्रतिगमन समान होंगे। वास्तव में, इनमें से कितने गैर-प्रभावित स्थानीय प्रतिसाद हैं, जो आपके लूप में स्मूथिंग पैरामीटर पर निर्भर करेगा।

आप अपने मॉडल को फिट करने के लिए जो भी पैकेज का उपयोग कर रहे हैं उसे हैक कर सकते हैं ताकि यह पिछले फिट से अधिकांश स्थानीय प्रतिगमन ले सके, और केवल उन लोगों को फिट कर सके जो डेटा की शुरुआत और अंत में आवश्यक हैं।

हालांकि, मुझे यह प्रतीत होता है कि यह केवल करने के लायक था अगर अतिरिक्त प्रोग्रामिंग समय में लागत प्रत्येक 15 मिनट खरोंच से मॉडल को फिट करने के कंप्यूटर समय में लागत से कम थी। केवल 1000 डेटा बिंदुओं के साथ निश्चित रूप से हर बार खरोंच से मॉडल को फिट करना इतनी बड़ी बात नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.