टाइम सीरीज फोरकास्टिंग के लिए डेटा ऑगमेंटेशन स्ट्रैटेजी

13

मैं समय-श्रृंखला के पूर्वानुमान पर "डेटा वृद्धि" करने के लिए दो रणनीतियों पर विचार कर रहा हूं।

सबसे पहले, पृष्ठभूमि का थोड़ा सा। टाइम-सीरीज़ के अगले चरण का पूर्वानुमान लगाने के लिए एक भविष्यवक्ता $P$ एक ऐसा फंक्शन है जो आम तौर पर दो चीजों पर निर्भर करता है, टाइम-सीरीज़ पिछले स्टेट्स, लेकिन प्रेडिक्टर के पास्ट स्टेट्स: $\lbrace A_i\rbrace$

P ({A_{i \leq t - 1}}, P_{S_{t - 1}})

$P(\lbrace A_{i\leq t-1}\rbrace,P_{S_{t-1}})$

यदि हम एक अच्छा $P$ प्राप्त करने के लिए अपने सिस्टम को समायोजित / प्रशिक्षित करना चाहते हैं , तो हमें पर्याप्त डेटा की आवश्यकता होगी। कभी-कभी उपलब्ध डेटा पर्याप्त नहीं होगा, इसलिए हम डेटा वृद्धि करने पर विचार करते हैं।

पहले दृष्टिकोण

मान लें कि हमारे पास साथ समय-श्रृंखला $\lbrace A_i \rbrace$ । और यह भी लगता है कि हमारे पास कि निम्नलिखित शर्त पूरी करता है: । $1 \leq i \leq n$ $\epsilon$ $0<\epsilon < |A_{i+1} - A_i| \forall i \in \lbrace 1, \ldots,n\rbrace$

हम एक नए समय श्रृंखला का निर्माण कर सकते $\lbrace B_i = A_i+r_i\rbrace$ , जहां $r_i$ वितरण की एक अहसास है $N(0,\frac{\epsilon}{2})$ ।

फिर, केवल $\lbrace A_i \rbrace$ पर नुकसान फ़ंक्शन को कम करने के बजाय , हम $\lbrace B_i \rbrace$ पर भी करते हैं । इसलिए, यदि ऑप्टिमाइज़ेशन प्रक्रिया $m$ कदम उठाती है, तो हमें भविष्यवक्ता $2m$ बार "इनिशियलाइज़" करना होगा, और हम लगभग $2m(n-1)$ प्रेडिक्टर आंतरिक राज्यों की गणना करेंगे ।

दूसरा तरीका

$\lbrace B_i \rbrace$ $\lbrace B_i \rbrace$ $\lbrace A_i \rbrace$ $m(n-1)$

बेशक, यहां कम कम्प्यूटेशनल काम है (हालांकि एल्गोरिथ्म थोड़ा बदसूरत है), लेकिन यह अभी के लिए कोई फर्क नहीं पड़ता।

संदेह

समस्या यह है: एक सांख्यिकीय दृष्टिकोण से, जो "सबसे अच्छा" विकल्प है? और क्यों?

मेरा अंतर्ज्ञान मुझे बताता है कि पहला वाला बेहतर है, क्योंकि यह आंतरिक अवस्था से संबंधित भार को "नियमित" करने में मदद करता है, जबकि दूसरा केवल मनाया गया समय-श्रृंखला के अतीत से संबंधित भार को नियमित करने में मदद करता है।

अतिरिक्त:

समय श्रृंखला पूर्वानुमान के लिए डेटा वृद्धि करने के लिए कोई अन्य विचार?
प्रशिक्षण सेट में सिंथेटिक डेटा का वजन कैसे करें?

time-series data-augmentation

— castarco
स्रोत

6

समय श्रृंखला पूर्वानुमान के लिए डेटा वृद्धि करने के लिए कोई अन्य विचार?

मैं वर्तमान में उसी समस्या के बारे में सोच रहा हूं। मैंने ले गुएनेक एट अल द्वारा पेपर "टाइम ऑगमेंट फ़ॉर टाइम सीरीज़ क्लासिफिकेशन फ़ॉर कन्वेन्शन न्यूरल नेटवर्क्स" का उपयोग करते हुए पाया है । जो कि हालांकि पूर्वानुमान को कवर नहीं करता है। फिर भी वहाँ उल्लिखित वृद्धि के तरीके आशाजनक लगते हैं। लेखक 2 तरीकों से संवाद करते हैं:

विंडो स्लाइसिंग (WS)

एक पहला तरीका जो कंप्यूटर विज़न समुदाय से प्रेरित है [8,10] समय श्रृंखला से स्लाइस निकालने और स्लाइस स्तर पर वर्गीकरण करने में शामिल है। इस पद्धति को समय श्रृंखला के लिए [6] में पेश किया गया है। प्रशिक्षण के दौरान, क्लास y की टाइम सीरीज़ से निकाले गए प्रत्येक स्लाइस को उसी क्लास को सौंपा जाता है और स्लाइस का उपयोग करके क्लासिफ़ायर सीखा जाता है। स्लाइस का आकार इस पद्धति का एक पैरामीटर है। परीक्षण समय में, एक परीक्षण समय श्रृंखला से प्रत्येक स्लाइस को वर्गीकृत क्लासिफायरफ़ायर का उपयोग करके वर्गीकृत किया जाता है और एक अनुमानित लेबल का फैसला करने के लिए बहुमत वोट किया जाता है। इस विधि को निम्न में विंडो स्लाइसिंग (WS) के रूप में जाना जाता है।

विंडो वारपिंग (WW)

अंतिम डेटा वृद्धि तकनीक जो हम उपयोग करते हैं वह अधिक समय-श्रृंखला विशिष्ट है। इसे टाइम सीरीज़ के बेतरतीब ढंग से चुने हुए स्लाइस को ऊपर या नीचे करके वार करने में शामिल है, जैसा कि फिगर स्पीड में दिखाया गया है। 2. मूल स्लाइस का आकार इस विधि का एक पैरामीटर है। अंजीर। 2 "ECG200" डेटासेट और इसी तब्दील डेटा से एक समय श्रृंखला दिखाता है। ध्यान दें कि यह विधि विभिन्न लंबाई की इनपुट समय श्रृंखला उत्पन्न करती है। इस समस्या से निपटने के लिए, हम सभी को समान लंबाई के लिए तब्दील समय श्रृंखला पर विंडो स्लाइसिंग करते हैं। इस पत्र में, हम केवल 0.5या तो उसके बराबर अनुपात पर विचार करते हैं 2, लेकिन अन्य अनुपातों का उपयोग किया जा सकता है और प्रशिक्षण सेट पर क्रॉस-वैलिडेशन के माध्यम से इष्टतम अनुपात को भी ठीक किया जा सकता है। निम्नलिखित में, इस विधि को विंडो वारपिंग (डब्ल्यूडब्ल्यू) के रूप में संदर्भित किया जाएगा।

चित्र २ कागज से

लेखकों ने श्रृंखला के 90% को अपरिवर्तित रखा (यानी डब्ल्यूएस को 90% स्लाइस के लिए सेट किया गया था और डब्ल्यूडब्ल्यू के 10% श्रृंखला को समाप्त कर दिया गया था)। कई प्रकार के (समय) श्रृंखला डेटा पर वर्गीकरण त्रुटि को कम करने के लिए तरीकों की रिपोर्ट की जाती है, छवि रूपरेखा की 1 डी प्रतिनिधित्व को छोड़कर। लेखकों ने यहां से अपना डेटा लिया: http://timeseriesclassification.com

प्रशिक्षण सेट में सिंथेटिक डेटा का वजन कैसे करें?

छवि वृद्धि में, चूंकि वृद्धि से किसी छवि के वर्ग को बदलने की उम्मीद नहीं है, यह किसी भी वास्तविक डेटा के रूप में वजन करने के लिए सामान्य है। समय श्रृंखला पूर्वानुमान (और यहां तक कि समय श्रृंखला वर्गीकरण) अलग हो सकता है:

एक समय श्रृंखला आसानी से मनुष्यों के लिए एक सन्निहित वस्तु के रूप में समझ में नहीं आती है, इसलिए यह निर्भर करता है कि आप इसके साथ कितनी छेड़छाड़ करते हैं, क्या यह अभी भी एक ही वर्ग है? यदि आप केवल स्लाइस करते हैं और थोड़ा सा ताना करते हैं और कक्षाएं नेत्रहीन रूप से अलग हैं, तो यह वर्गीकरण कार्यों के लिए समस्या पैदा नहीं कर सकता है
पूर्वानुमान के लिए, मेरा तर्क है कि

2.1 WS अभी भी एक अच्छा तरीका है। इससे कोई फर्क नहीं पड़ता कि आप जिस श्रृंखला का 90% हिस्सा देख रहे हैं, आप अभी भी उसी नियमों के आधार पर पूर्वानुमान की उम्मीद करेंगे => पूर्ण भार।

२.२ डब्ल्यूडब्ल्यू: यह श्रृंखला के अंत में जितना करीब होता है, उतना ही सतर्क होगा। सहज रूप से, मैं 0 (अंत में युद्ध करना) और 1 (शुरुआत में ताना मारना) के बीच एक वजन कारक के साथ आऊंगा, यह मानते हुए कि वक्र की सबसे हाल की विशेषताएं सबसे अधिक प्रासंगिक हैं।

— ascripter
स्रोत

6

समय श्रृंखला पूर्वानुमान के लिए डेटा वृद्धि करने के लिए कोई अन्य विचार?

एक अलग दृष्टिकोण के साथ एक और जवाब, डेविट्स और टेलर द्वारा " डेटा स्पेस में डेटासेट ऑग्मेंटेशन" पर आधारित है ।

इस कार्य में, हम प्रदर्शित करते हैं कि फीचर स्पेस में नमूनों के बीच एक्सट्रपलेशन करने का उपयोग डेटासेट को बढ़ाने और पर्यवेक्षित एल्गोरिथम के प्रदर्शन को बेहतर बनाने के लिए किया जा सकता है। हमारे दृष्टिकोण का मुख्य लाभ यह है कि यह बिना किसी विशेष ज्ञान की आवश्यकता के डोमेन-स्वतंत्र है , और इसलिए इसे कई अलग-अलग प्रकार की समस्याओं पर लागू किया जा सकता है।

मेरे लिए आशाजनक लगता है। सिद्धांत रूप में आप सुविधा स्थान में अभ्यावेदन बनाने के लिए किसी भी ऑटोएन्कोडर को ले सकते हैं । इन सुविधाओं को प्रक्षेप या अतिरिक्त रूप से विभाजित किया जा सकता है।

$C_j$ $C_k$ $C'$

कागज फिर से केवल अनुक्रम वर्गीकरण को शामिल करता है। लेकिन फिर से IMO सिद्धांत प्रतिगमन विश्लेषण के लिए समान हैं। आप संभवतः अपने वास्तविक डेटा के समान वितरण से नया डेटा प्राप्त करते हैं, यही आप चाहते हैं।

एई वृद्धि की वास्तुकला

अगर हम एक न्यूरल नेटवर्क द्वारा डेटा जनरेशन के इस सिद्धांत को आगे बढ़ाते हैं, तो हम जनरेशनल एडवाइजर नेटवर्क (GAN) को समाप्त करेंगे । उन्हें संवर्धित डेटा उत्पन्न करने के लिए एक समान फैशन में इस्तेमाल किया जा सकता है जो संभवतः ऐसा करने के लिए अत्याधुनिक तरीका होगा।

— ascripter
स्रोत

4

मैंने हाल ही में इस पेपर से प्रेरित एक और दृष्टिकोण बर्गमेइर, ह्यंडमैन और बेनिटेज़ से लागू किया है।

$B$ $B$

इस तरह जरूरत के अनुसार कई अतिरिक्त समय श्रृंखला उत्पन्न की जा सकती है जो प्रारंभिक समय श्रृंखला को काफी अच्छी तरह से दर्शाती है। अतिरिक्त समान समय श्रृंखला उत्पन्न करने के लिए कुछ वास्तविक डेटा पर एप्लिकेशन का एक उदाहरण यहां दिया गया है:

यहां संवर्द्धन को एक यिओ-जॉनसन परिवर्तन का उपयोग करके दिखाया गया है न कि बॉक्स कॉक्स को मूल पेपर में सुझाए गए अनुसार।

— एसिर
स्रोत