मशीन सीखने के लिए समय श्रृंखला का आदेश देना


14

क्रॉस-मान्यता और समय श्रृंखला के बारे में आरजे हाइंडमैन के "रिसर्च टिप्स" में से एक को पढ़ने के बाद , मैं अपने एक पुराने प्रश्न पर वापस आया कि मैं यहां तैयार करने की कोशिश करूंगा। विचार यह है कि वर्गीकरण या प्रतिगमन समस्याओं में, डेटा के आदेश महत्वपूर्ण नहीं है, और इसलिए है कश्मीर गुना पार सत्यापन किया जा सकता है। दूसरी ओर, समय श्रृंखला में, डेटा का क्रम स्पष्ट रूप से एक महत्वपूर्ण महत्व है।

हालांकि, समय श्रृंखला का पूर्वानुमान करने के लिए मशीन लर्निंग मॉडल का उपयोग करते समय, श्रृंखला को फिर से आकार देने के लिए एक सामान्य रणनीति है , Y टी } "इनपुट-आउटपुट वैक्टर" जो कुछ समय के लिए के एक सेट में टी , फार्म का ( y टी - n + 1 , , Y टी - 1 , y टी ; y टी + 1 ){y1,...,yT}टी(yt-n+1,,yटी-1,yटी;yटी+1)

अब, एक बार यह पुन: चालू हो जाने के बाद, क्या हम इस पर विचार कर सकते हैं कि "इनपुट-आउटपुट वैक्टर" के परिणामस्वरूप सेट को ऑर्डर करने की आवश्यकता नहीं है? यदि हम, उदाहरण के लिए, इन आंकड़ों को "सीखने" के लिए n निविष्टियों के साथ एक फीड-फॉरवर्ड न्यूरल नेटवर्क का उपयोग करते हैं, तो हम उसी परिणाम पर पहुंचेंगे, जिस क्रम में हम मॉडल को वैक्टर दिखाते हैं। और इसलिए, क्या हम प्रत्येक बार मॉडल को फिर से फिट करने की आवश्यकता के बिना मानक तरीके से k- गुना क्रॉस-सत्यापन का उपयोग कर सकते हैं?

जवाबों:


2

इस प्रश्न का उत्तर यह है कि यह तब तक ठीक रहेगा जब तक कि आपका मॉडल ऑर्डर सही ढंग से निर्दिष्ट नहीं हो जाता है, तब तक आपके मॉडल की त्रुटियां स्वतंत्र होंगी।

यहां यह कागज दिखाता है कि अगर किसी मॉडल की खराब क्रॉस-मान्यता है, तो यह समझ में नहीं आएगा कि यह वास्तव में कितना गरीब है। अन्य सभी मामलों में क्रॉस-वैलिडेशन एक अच्छा काम करेगा, विशेष रूप से, आउट-ऑफ-सैंपल मूल्यांकन की तुलना में बेहतर काम जो आमतौर पर समय श्रृंखला संदर्भ में उपयोग किया जाता है।


6

दिलचस्प सवाल!

आपके द्वारा वर्णित दृष्टिकोण निश्चित रूप से बहुत व्यापक रूप से मानक एमएल तरीकों का उपयोग करने वाले लोगों द्वारा उपयोग किया जाता है जो समय श्रृंखला डेटा का विश्लेषण करने के लिए विशेषताओं की निश्चित लंबाई वाले फ़ीचर वैक्टर की आवश्यकता होती है।

जिस पोस्ट से आप लिंक करते हैं, उसमें Hyndman बताते हैं कि रेज़ैप्ड डेटा वैक्टर (नमूनों) के बीच सहसंबंध हैं। यह समस्याग्रस्त हो सकता है, क्योंकि के-सीवी (या अन्य मूल्यांकन विधियां जो डेटा को प्रशिक्षण और परीक्षण सेटों में यादृच्छिक रूप से विभाजित करती हैं) मानती हैं कि सभी नमूने स्वतंत्र हैं। हालाँकि, मुझे नहीं लगता कि यह चिंता एक मानक एमएल विधियों के मामले के लिए प्रासंगिक है, जो अलग से विशेषताओं का इलाज करते हैं।

स्पष्टीकरण के लिए, मुझे मानकर अपनी अधिसूचना को सरल बनाने दें n=3, तो पहले कुछ डेटा वैक्टर (वर्णानुक्रम में लेबल) होंगे:

:(y1,y2,y3;y4)बी:(y2,y3,y4;y5)सी:(y3,y4,y5;y6)

स्पष्ट रूप से, A और B में ऐसे शब्द हैं y2आम में। लेकिन, A के लिए, यह इसकी दूसरी विशेषता का मूल्य है जबकि B के लिए यह इसकी पहली विशेषता का मूल्य है।


1
मैं आपसे सहमत हूं कि कुछ एमएल एल्गोरिदम अत्यधिक सहसंबद्ध नमूनों की समस्या से मुक्त हो सकते हैं क्योंकि वे विशेषताओं को पूरी तरह से अलग करते हैं। लेकिन वे एल्गोरिदम भी समय श्रृंखला के काम के लिए बहुत अच्छे नहीं हैं। एक समय श्रृंखला के लिए वादा करने वाले एमएल एल्गोरिदम को यह देखने में सक्षम होना चाहिए कि विशेषता # 1 और विशेषता # 2 वास्तव में थोड़े समान हैं, अन्यथा वे भविष्यवाणी में खराब होने जा रहे हैं (जब आप समय बदलते हैं तो भविष्यवाणी लगभग समान होनी चाहिए 1)। उन एल्गोरिदम भी Hyndman द्वारा उल्लिखित मुद्दे से पीड़ित होंगे।
अधिकतम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.