मैं समय-श्रृंखला के पूर्वानुमान पर "डेटा वृद्धि" करने के लिए दो रणनीतियों पर विचार कर रहा हूं।
सबसे पहले, पृष्ठभूमि का थोड़ा सा। टाइम-सीरीज़ { A i } के अगले चरण का पूर्वानुमान लगाने के लिए एक भविष्यवक्ता एक ऐसा फंक्शन है जो आम तौर पर दो चीजों पर निर्भर करता है, टाइम-सीरीज़ पिछले स्टेट्स, लेकिन प्रेडिक्टर के पास्ट स्टेट्स:
यदि हम एक अच्छा प्राप्त करने के लिए अपने सिस्टम को समायोजित / प्रशिक्षित करना चाहते हैं , तो हमें पर्याप्त डेटा की आवश्यकता होगी। कभी-कभी उपलब्ध डेटा पर्याप्त नहीं होगा, इसलिए हम डेटा वृद्धि करने पर विचार करते हैं।
पहले दृष्टिकोण
मान लें कि हमारे पास 1- ≤ i we n के साथ समय-श्रृंखला । और यह भी लगता है कि हमारे पास ε कि निम्नलिखित शर्त पूरी करता है: 0 < ε < | A i + 1 - A i | ∈ i ∀ { 1 , … , n } ।
हम एक नए समय श्रृंखला का निर्माण कर सकते , जहां वितरण की एक अहसास है ।
फिर, केवल पर नुकसान फ़ंक्शन को कम करने के बजाय , हम पर भी करते हैं । इसलिए, यदि ऑप्टिमाइज़ेशन प्रक्रिया कदम उठाती है, तो हमें भविष्यवक्ता बार "इनिशियलाइज़" करना होगा, और हम लगभग प्रेडिक्टर आंतरिक राज्यों की गणना करेंगे ।
दूसरा तरीका
बेशक, यहां कम कम्प्यूटेशनल काम है (हालांकि एल्गोरिथ्म थोड़ा बदसूरत है), लेकिन यह अभी के लिए कोई फर्क नहीं पड़ता।
संदेह
समस्या यह है: एक सांख्यिकीय दृष्टिकोण से, जो "सबसे अच्छा" विकल्प है? और क्यों?
मेरा अंतर्ज्ञान मुझे बताता है कि पहला वाला बेहतर है, क्योंकि यह आंतरिक अवस्था से संबंधित भार को "नियमित" करने में मदद करता है, जबकि दूसरा केवल मनाया गया समय-श्रृंखला के अतीत से संबंधित भार को नियमित करने में मदद करता है।
अतिरिक्त:
- समय श्रृंखला पूर्वानुमान के लिए डेटा वृद्धि करने के लिए कोई अन्य विचार?
- प्रशिक्षण सेट में सिंथेटिक डेटा का वजन कैसे करें?