टाइम सीरीज फोरकास्टिंग के लिए डेटा ऑगमेंटेशन स्ट्रैटेजी


13

मैं समय-श्रृंखला के पूर्वानुमान पर "डेटा वृद्धि" करने के लिए दो रणनीतियों पर विचार कर रहा हूं।

सबसे पहले, पृष्ठभूमि का थोड़ा सा। टाइम-सीरीज़ { A i } के अगले चरण का पूर्वानुमान लगाने के लिए एक भविष्यवक्ता P एक ऐसा फंक्शन है जो आम तौर पर दो चीजों पर निर्भर करता है, टाइम-सीरीज़ पिछले स्टेट्स, लेकिन प्रेडिक्टर के पास्ट स्टेट्स:{Ai}

P({Ait1},PSt1)

यदि हम एक अच्छा P प्राप्त करने के लिए अपने सिस्टम को समायोजित / प्रशिक्षित करना चाहते हैं , तो हमें पर्याप्त डेटा की आवश्यकता होगी। कभी-कभी उपलब्ध डेटा पर्याप्त नहीं होगा, इसलिए हम डेटा वृद्धि करने पर विचार करते हैं।

पहले दृष्टिकोण

मान लें कि हमारे पास 1- i we n के साथ समय-श्रृंखला {Ai} । और यह भी लगता है कि हमारे पास ε कि निम्नलिखित शर्त पूरी करता है: 0 < ε < | A i + 1 - A i | i { 1 , , n }1inϵ0<ϵ<|Ai+1Ai|i{1,,n}

हम एक नए समय श्रृंखला का निर्माण कर सकते {Bi=Ai+ri} , जहां ri वितरण की एक अहसास है N(0,ϵ2)

फिर, केवल {Ai} पर नुकसान फ़ंक्शन को कम करने के बजाय , हम {Bi} पर भी करते हैं । इसलिए, यदि ऑप्टिमाइज़ेशन प्रक्रिया m कदम उठाती है, तो हमें भविष्यवक्ता 2m बार "इनिशियलाइज़" करना होगा, और हम लगभग 2m(n1) प्रेडिक्टर आंतरिक राज्यों की गणना करेंगे ।

दूसरा तरीका

{Bi}{Bi}{Ai}m(n1)

बेशक, यहां कम कम्प्यूटेशनल काम है (हालांकि एल्गोरिथ्म थोड़ा बदसूरत है), लेकिन यह अभी के लिए कोई फर्क नहीं पड़ता।

संदेह

समस्या यह है: एक सांख्यिकीय दृष्टिकोण से, जो "सबसे अच्छा" विकल्प है? और क्यों?

मेरा अंतर्ज्ञान मुझे बताता है कि पहला वाला बेहतर है, क्योंकि यह आंतरिक अवस्था से संबंधित भार को "नियमित" करने में मदद करता है, जबकि दूसरा केवल मनाया गया समय-श्रृंखला के अतीत से संबंधित भार को नियमित करने में मदद करता है।


अतिरिक्त:

  • समय श्रृंखला पूर्वानुमान के लिए डेटा वृद्धि करने के लिए कोई अन्य विचार?
  • प्रशिक्षण सेट में सिंथेटिक डेटा का वजन कैसे करें?

जवाबों:


6

समय श्रृंखला पूर्वानुमान के लिए डेटा वृद्धि करने के लिए कोई अन्य विचार?

मैं वर्तमान में उसी समस्या के बारे में सोच रहा हूं। मैंने ले गुएनेक एट अल द्वारा पेपर "टाइम ऑगमेंट फ़ॉर टाइम सीरीज़ क्लासिफिकेशन फ़ॉर कन्वेन्शन न्यूरल नेटवर्क्स" का उपयोग करते हुए पाया है । जो कि हालांकि पूर्वानुमान को कवर नहीं करता है। फिर भी वहाँ उल्लिखित वृद्धि के तरीके आशाजनक लगते हैं। लेखक 2 तरीकों से संवाद करते हैं:

विंडो स्लाइसिंग (WS)

एक पहला तरीका जो कंप्यूटर विज़न समुदाय से प्रेरित है [8,10] समय श्रृंखला से स्लाइस निकालने और स्लाइस स्तर पर वर्गीकरण करने में शामिल है। इस पद्धति को समय श्रृंखला के लिए [6] में पेश किया गया है। प्रशिक्षण के दौरान, क्लास y की टाइम सीरीज़ से निकाले गए प्रत्येक स्लाइस को उसी क्लास को सौंपा जाता है और स्लाइस का उपयोग करके क्लासिफ़ायर सीखा जाता है। स्लाइस का आकार इस पद्धति का एक पैरामीटर है। परीक्षण समय में, एक परीक्षण समय श्रृंखला से प्रत्येक स्लाइस को वर्गीकृत क्लासिफायरफ़ायर का उपयोग करके वर्गीकृत किया जाता है और एक अनुमानित लेबल का फैसला करने के लिए बहुमत वोट किया जाता है। इस विधि को निम्न में विंडो स्लाइसिंग (WS) के रूप में जाना जाता है।

विंडो वारपिंग (WW)

अंतिम डेटा वृद्धि तकनीक जो हम उपयोग करते हैं वह अधिक समय-श्रृंखला विशिष्ट है। इसे टाइम सीरीज़ के बेतरतीब ढंग से चुने हुए स्लाइस को ऊपर या नीचे करके वार करने में शामिल है, जैसा कि फिगर स्पीड में दिखाया गया है। 2. मूल स्लाइस का आकार इस विधि का एक पैरामीटर है। अंजीर। 2 "ECG200" डेटासेट और इसी तब्दील डेटा से एक समय श्रृंखला दिखाता है। ध्यान दें कि यह विधि विभिन्न लंबाई की इनपुट समय श्रृंखला उत्पन्न करती है। इस समस्या से निपटने के लिए, हम सभी को समान लंबाई के लिए तब्दील समय श्रृंखला पर विंडो स्लाइसिंग करते हैं। इस पत्र में, हम केवल 0.5या तो उसके बराबर अनुपात पर विचार करते हैं 2, लेकिन अन्य अनुपातों का उपयोग किया जा सकता है और प्रशिक्षण सेट पर क्रॉस-वैलिडेशन के माध्यम से इष्टतम अनुपात को भी ठीक किया जा सकता है। निम्नलिखित में, इस विधि को विंडो वारपिंग (डब्ल्यूडब्ल्यू) के रूप में संदर्भित किया जाएगा।

चित्र २ कागज से

लेखकों ने श्रृंखला के 90% को अपरिवर्तित रखा (यानी डब्ल्यूएस को 90% स्लाइस के लिए सेट किया गया था और डब्ल्यूडब्ल्यू के 10% श्रृंखला को समाप्त कर दिया गया था)। कई प्रकार के (समय) श्रृंखला डेटा पर वर्गीकरण त्रुटि को कम करने के लिए तरीकों की रिपोर्ट की जाती है, छवि रूपरेखा की 1 डी प्रतिनिधित्व को छोड़कर। लेखकों ने यहां से अपना डेटा लिया: http://timeseriesclassification.com

प्रशिक्षण सेट में सिंथेटिक डेटा का वजन कैसे करें?

छवि वृद्धि में, चूंकि वृद्धि से किसी छवि के वर्ग को बदलने की उम्मीद नहीं है, यह किसी भी वास्तविक डेटा के रूप में वजन करने के लिए सामान्य है। समय श्रृंखला पूर्वानुमान (और यहां तक ​​कि समय श्रृंखला वर्गीकरण) अलग हो सकता है:

  1. एक समय श्रृंखला आसानी से मनुष्यों के लिए एक सन्निहित वस्तु के रूप में समझ में नहीं आती है, इसलिए यह निर्भर करता है कि आप इसके साथ कितनी छेड़छाड़ करते हैं, क्या यह अभी भी एक ही वर्ग है? यदि आप केवल स्लाइस करते हैं और थोड़ा सा ताना करते हैं और कक्षाएं नेत्रहीन रूप से अलग हैं, तो यह वर्गीकरण कार्यों के लिए समस्या पैदा नहीं कर सकता है
  2. पूर्वानुमान के लिए, मेरा तर्क है कि

    2.1 WS अभी भी एक अच्छा तरीका है। इससे कोई फर्क नहीं पड़ता कि आप जिस श्रृंखला का 90% हिस्सा देख रहे हैं, आप अभी भी उसी नियमों के आधार पर पूर्वानुमान की उम्मीद करेंगे => पूर्ण भार।

    २.२ डब्ल्यूडब्ल्यू: यह श्रृंखला के अंत में जितना करीब होता है, उतना ही सतर्क होगा। सहज रूप से, मैं 0 (अंत में युद्ध करना) और 1 (शुरुआत में ताना मारना) के बीच एक वजन कारक के साथ आऊंगा, यह मानते हुए कि वक्र की सबसे हाल की विशेषताएं सबसे अधिक प्रासंगिक हैं।


6

समय श्रृंखला पूर्वानुमान के लिए डेटा वृद्धि करने के लिए कोई अन्य विचार?

एक अलग दृष्टिकोण के साथ एक और जवाब, डेविट्स और टेलर द्वारा " डेटा स्पेस में डेटासेट ऑग्मेंटेशन" पर आधारित है ।

इस कार्य में, हम प्रदर्शित करते हैं कि फीचर स्पेस में नमूनों के बीच एक्सट्रपलेशन करने का उपयोग डेटासेट को बढ़ाने और पर्यवेक्षित एल्गोरिथम के प्रदर्शन को बेहतर बनाने के लिए किया जा सकता है। हमारे दृष्टिकोण का मुख्य लाभ यह है कि यह बिना किसी विशेष ज्ञान की आवश्यकता के डोमेन-स्वतंत्र है , और इसलिए इसे कई अलग-अलग प्रकार की समस्याओं पर लागू किया जा सकता है।

मेरे लिए आशाजनक लगता है। सिद्धांत रूप में आप सुविधा स्थान में अभ्यावेदन बनाने के लिए किसी भी ऑटोएन्कोडर को ले सकते हैं । इन सुविधाओं को प्रक्षेप या अतिरिक्त रूप से विभाजित किया जा सकता है।

CjCkC

कागज फिर से केवल अनुक्रम वर्गीकरण को शामिल करता है। लेकिन फिर से IMO सिद्धांत प्रतिगमन विश्लेषण के लिए समान हैं। आप संभवतः अपने वास्तविक डेटा के समान वितरण से नया डेटा प्राप्त करते हैं, यही आप चाहते हैं।

एई वृद्धि की वास्तुकला

अगर हम एक न्यूरल नेटवर्क द्वारा डेटा जनरेशन के इस सिद्धांत को आगे बढ़ाते हैं, तो हम जनरेशनल एडवाइजर नेटवर्क (GAN) को समाप्त करेंगे । उन्हें संवर्धित डेटा उत्पन्न करने के लिए एक समान फैशन में इस्तेमाल किया जा सकता है जो संभवतः ऐसा करने के लिए अत्याधुनिक तरीका होगा।


4

मैंने हाल ही में इस पेपर से प्रेरित एक और दृष्टिकोण बर्गमेइर, ह्यंडमैन और बेनिटेज़ से लागू किया है।

BB

इस तरह जरूरत के अनुसार कई अतिरिक्त समय श्रृंखला उत्पन्न की जा सकती है जो प्रारंभिक समय श्रृंखला को काफी अच्छी तरह से दर्शाती है। अतिरिक्त समान समय श्रृंखला उत्पन्न करने के लिए कुछ वास्तविक डेटा पर एप्लिकेशन का एक उदाहरण यहां दिया गया है:

संवर्धित श्रृंखला

यहां संवर्द्धन को एक यिओ-जॉनसन परिवर्तन का उपयोग करके दिखाया गया है न कि बॉक्स कॉक्स को मूल पेपर में सुझाए गए अनुसार।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.