ट्रेन / टेस्ट / सत्यापन सेट में विभाजित समय श्रृंखला डेटा


12

ट्रेन / परीक्षण / सत्यापन सेट में टाइम सीरीज़ डेटा को विभाजित करने का सबसे अच्छा तरीका क्या है, जहां हाइपरपरमीटर ट्यूनिंग के लिए सत्यापन सेट का उपयोग किया जाएगा?

हमारे पास दैनिक बिक्री डेटा के 3 साल का मूल्य है, और हमारी योजना 2015-2016 को प्रशिक्षण डेटा के रूप में उपयोग करने की है, फिर 2017 के डेटा से यादृच्छिक रूप से 10 सप्ताह का नमूना सत्यापन सेट के रूप में उपयोग किया जाना है, और 2017 के डेटा से एक और 10 सप्ताह के लिए। परीक्षण सेट। फिर हम परीक्षण और सत्यापन सेट में प्रत्येक दिन आगे की सैर करेंगे।

जवाबों:


8

लुक-फॉरवर्ड पूर्वाग्रह से बचने के लिए आपको समय के आधार पर विभाजन का उपयोग करना चाहिए। इस क्रम में ट्रेन / सत्यापन / परीक्षण।

परीक्षण सेट डेटा का सबसे हाल का हिस्सा होना चाहिए। आपको एक उत्पादन वातावरण में एक स्थिति को अनुकरण करने की आवश्यकता है, जहां एक मॉडल को प्रशिक्षित करने के बाद आप मॉडल के निर्माण के समय के बाद आने वाले डेटा का मूल्यांकन करते हैं। सत्यापन और प्रशिक्षण के लिए आपके द्वारा उपयोग किया जाने वाला यादृच्छिक नमूना इसलिए अच्छा विचार नहीं है।


5

मुझे लगता है कि प्रशिक्षण / सत्यापन / परीक्षण / भविष्यवाणी के लिए अपने समय-श्रृंखला डेटा का लाभ उठाने का सबसे पूरा तरीका यह है:

यहां छवि विवरण दर्ज करें

क्या चित्र स्वयं व्याख्यात्मक है? यदि नहीं, तो कृपया टिप्पणी करें और मैं अधिक पाठ जोड़ूंगा ...


3

प्रशिक्षण / सत्यापन सेट का केवल एक सेट बनाने के बजाय, आप ऐसे और अधिक सेट बना सकते हैं।

पहला प्रशिक्षण सेट, 6 महीने का डेटा (2015 का पहला सेमेस्टर) और सत्यापन सेट फिर अगले तीन महीने (जुलाई-अगस्त 2015) हो सकता है। दूसरा प्रशिक्षण सेट पहले प्रशिक्षण और सत्यापन सेट का संयोजन होगा। सत्यापन सेट फिर अगले तीन महीने (सितंबर-अक्टूबर 2015) है। और इसी तरह।

यह के-फोल्ड क्रॉस-वैरिफिकेशन की भिन्नता है जहां प्रशिक्षण सेट पिछले प्रशिक्षण और सत्यापन सेट का एक संयोजन है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.