समय श्रृंखला भविष्यवाणी के लिए यादृच्छिक वन प्रतिगमन


10

मैं एक पेपर मिल के प्रदर्शन पर पूर्वानुमान बनाने के लिए आरएफ प्रतिगमन का उपयोग करने का प्रयास कर रहा हूं।

मेरे पास इनपुट्स (लकड़ी की लुगदी आदि की दर और मात्रा ...) के साथ-साथ मशीन के प्रदर्शन (कागज का उत्पादन, मशीन द्वारा तैयार की गई शक्ति) और मैं भविष्यवाणियां करने में 10 मिनट लगा रहा हूं। प्रदर्शन चर पर आगे।

मुझे 12 महीने का डेटा मिला है, इसलिए प्रशिक्षण सेट के लिए इसे 11 महीने में अलग कर दिया है, और परीक्षण के लिए अंतिम महीना।

अब तक मैंने 10 नई सुविधाएँ बनाई हैं जो प्रत्येक प्रदर्शन चर के लिए 1-10 मिनट के मान से पिछड़ी हुई हैं, और भविष्यवाणियां करने के लिए इनका उपयोग इनपुट के रूप में भी किया है। टेस्ट सेट पर प्रदर्शन काफी अच्छा रहा है (सिस्टम काफी अनुमानित है), लेकिन मुझे चिंता है कि मैं अपने दृष्टिकोण में कुछ याद कर रहा हूं।

उदाहरण के लिए, इस पत्र में , लेखक अपने यादृच्छिक वन मॉडल की भविष्य कहनेवाला क्षमता के परीक्षण में अपना दृष्टिकोण बताते हैं:

अनुवर्ती रूप से डेटा के एक नए सप्ताह को जोड़ते हुए सिमुलेशन आगे बढ़ता है, अपडेट किए गए डेटा के आधार पर एक नए मॉडल को प्रशिक्षित करता है, और अगले सप्ताह के लिए प्रकोपों ​​की संख्या की भविष्यवाणी करता है

यह परीक्षण के रूप में समय श्रृंखला में 'बाद के' डेटा के उपयोग से कैसे अलग है? क्या मुझे अपने आरएफ प्रतिगमन मॉडल को इस दृष्टिकोण के साथ-साथ परीक्षण डेटा सेट पर मान्य करना चाहिए? इसके अलावा, इस प्रकार का 'वनस्पतिक' दृष्टिकोण यादृच्छिक वन प्रतिगमन के लिए समय श्रृंखला के लिए मान्य है, और क्या मुझे भविष्य में 10 मिनट की भविष्यवाणी में दिलचस्पी है, तो क्या मुझे इस तरह के कई परिवर्तनशील चर बनाने की आवश्यकता है?


2
RF के लिए डिज़ाइन नहीं किया गया है और अस्थायी रूप से अस्थायी विचारों को एकीकृत नहीं करता है। यह देखते हुए, इस विश्लेषण के लिए उनका उपयोग क्यों करें? वहाँ कई समय श्रृंखला तरीके हैं। एक चुनें।
माइक हंटर

2
@DJohnson मुझे लगा कि मैं पेपर में दृष्टिकोण की नकल करने का प्रयास करूँगा: RF प्रयास करें और ARIMA से तुलना करें। क्या आप सुझाव दे रहे हैं कि यह समय के लायक नहीं है और सिर्फ ARIMA का उपयोग करना है?
KRS-fun

4
@DJohnson, autoregressive मॉडल के मैकेनिक्स बहुत हद तक क्रॉस-सेक्शनल रिग्रेशन मॉडल जैसे हैं। एक बार जब लैग्ड फीचर्स का निर्माण किया जाता है, तो क्रॉस-सेक्शनल सेटिंग में आरएफ का उपयोग क्यों नहीं किया जाता है? मुझे लगता है कि उन्हें आज़माना उचित है। लेकिन आप सही हैं कि अन्य विधियां समय श्रृंखला में अधिक लोकप्रिय हैं, और ओपी को उनकी खोज करने से भी फायदा हो सकता है।
रिचर्ड हार्डी

1
मेरा विचार है कि आरएफ हथौड़े की तरह होते हैं जहां सब कुछ एक कील बन जाता है। ओपी द्वारा वर्णित आंकड़ों के साथ, मेरी पहली पसंद पैनल डेटा या पूल मॉडल होगा, न कि ARIMA।
माइक हंटर

5
मैं अभी इस पर आया था, और एक दो दिन पहले संदर्भित पेपर पढ़ा। मैं मल्टीवेरिएट टाइम सीरीज़ फोरकास्टिंग के लिए यादृच्छिक वन और एक एलएसटीएम की तुलना कर रहा हूं। दिलचस्प बात यह है कि प्रशिक्षण डेटा में कम समय को शामिल करने पर LSTM बेहतर करता है, लेकिन जैसा कि मैं अधिक वर्षों के आंकड़ों में जोड़ता हूं, दोनों तरीकों के परिणाम सही परिणामों में परिवर्तित हो रहे हैं। मुझे लगता है कि यह ज्यादातर इसलिए है क्योंकि विशेषताएं लौकिक घटक को दूर करने के लिए पर्याप्त जानकारी प्रदान करती हैं। वैसे भी, यह दिलचस्प था। इसके अलावा, मैंने बहुत स्पष्ट मौसमी मामलों को छोड़कर ARIMA को अच्छी तरह से काम करते नहीं देखा है, और ARIMA बहु है ...
Hobbes

जवाबों:


6

यह परीक्षण के रूप में समय श्रृंखला में 'बाद के' डेटा के उपयोग से कैसे अलग है?

आपके द्वारा बोली जाने वाले दृष्टिकोण को "रोलिंग मूल" पूर्वानुमान कहा जाता है: जिस मूल से हम पूर्वानुमान लगाते हैं वह "लुढ़का हुआ" है, और प्रशिक्षण डेटा को नई उपलब्ध जानकारी के साथ अद्यतन किया जाता है। सरल दृष्टिकोण "सिंगल ओरिजिन फोरकास्टिंग" है, जहां हम एक ही मूल को चुनते हैं।

मूल पूर्वानुमान के रोलिंग का लाभ यह है कि यह समय के साथ एक पूर्वानुमान प्रणाली का अनुकरण करता है । एकल उत्पत्ति पूर्वानुमान में, हम संयोग से एक उत्पत्ति चुन सकते हैं जहां हमारी प्रणाली बहुत अच्छी तरह से (या बहुत बुरी तरह से) काम करती है, जो हमें हमारे सिस्टम के प्रदर्शन का एक गलत विचार दे सकती है।

रोलिंग मूल पूर्वानुमान का एक नुकसान इसकी उच्च डेटा आवश्यकता है। यदि हम कम से कम 50 ऐतिहासिक टिप्पणियों के साथ 10 चरणों का पूर्वानुमान लगाना चाहते हैं, तो हम इस एकल-मूल को 60 डेटा बिंदुओं के साथ कर सकते हैं। लेकिन अगर हम 10 ओवरलैपिंग रोलिंग उत्पत्ति करना चाहते हैं, तो हमें 70 डेटा पॉइंट चाहिए।

अन्य नुकसान निश्चित रूप से इसकी उच्च जटिलता है।

कहने की ज़रूरत नहीं है, आपको "बाद में" डेटा का उपयोग मूल पूर्वानुमान में रोलिंग के लिए नहीं करना चाहिए, या तो, लेकिन प्रत्येक पुनरावृत्ति में उपयोग किए जाने वाले मूल से पहले केवल डेटा का उपयोग करें।

क्या मुझे अपने आरएफ प्रतिगमन मॉडल को इस दृष्टिकोण के साथ-साथ परीक्षण डेटा सेट पर मान्य करना चाहिए?

यदि आपके पास पर्याप्त डेटा है, तो एक रोलिंग मूल मूल्यांकन हमेशा एक ही मूल मूल्यांकन की तुलना में मुझ पर अधिक विश्वास को प्रेरित करेगा, क्योंकि यह मूल के प्रभाव को उम्मीद से औसत कर देगा।

इसके अलावा, इस प्रकार का 'वनस्पतिक' दृष्टिकोण यादृच्छिक वन प्रतिगमन के लिए समय श्रृंखला के लिए मान्य है, और क्या मुझे भविष्य में 10 मिनट की भविष्यवाणी में दिलचस्पी है, तो क्या मुझे इस तरह के कई परिवर्तनशील चर बनाने की आवश्यकता है?

हां, किसी भी पूर्वानुमान संबंधी अभ्यास के लिए एकल बनाम मूल पूर्वानुमान को रोल करना मान्य है। यह इस बात पर निर्भर नहीं करता है कि आप यादृच्छिक जंगलों का उपयोग करते हैं या ARIMA या कुछ और।

चाहे आपको अपने लैग्ड वैरिएबल की आवश्यकता हो, ऐसी कोई चीज़ जो हम आपकी सलाह नहीं दे सकते। विषय विशेषज्ञ से बात करना सबसे अच्छा हो सकता है, जो अन्य जानकारी भी सुझा सकते हैं। बस अपने RF को लैग्ड इनपुट के साथ बनाम बिना आज़माएं। और मानक बेंचमार्क जैसे ARIMA या ETS या यहां तक ​​कि सरल तरीकों से तुलना करें, जिन्हें हरा पाना आश्चर्यजनक रूप से कठिन हो सकता है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.