सामान्य समय में श्रृंखला वास्तव में अन्य मशीन सीखने की समस्याओं से अलग नहीं होती है - आप चाहते हैं कि आपका परीक्षण सेट आपके प्रशिक्षण सेट को 'जैसा दिखे', क्योंकि आप चाहते हैं कि आपने अपने प्रशिक्षण सेट पर जो मॉडल सीखा है वह अभी भी आपके परीक्षण सेट के लिए उपयुक्त हो। यही महत्वपूर्ण अंतर्निहित अवधारणा है। समय श्रृंखला में अतिरिक्त जटिलता है कि आपके डेटा में दीर्घकालिक संरचना हो सकती है जो कि आपके मॉडल को सीखने के लिए पर्याप्त परिष्कृत नहीं हो सकती है। उदाहरण के लिए, जब N के ऑटोरेग्रेसिव लैग का उपयोग करते हुए, हम N से अधिक समय के अंतराल पर निर्भरता नहीं सीख सकते हैं। इसलिए, ARIMA जैसे सरल मॉडल का उपयोग करते समय, हम चाहते हैं कि डेटा भी स्थानीय रूप से स्थिर हो।
जैसा कि आपने कहा, स्थिर का मतलब है कि मॉडल के आँकड़े समय के साथ नहीं बदलते ('स्थानीय रूप से स्थिर')। ARIMA मॉडल अनिवार्य रूप से प्रतिगमन मॉडल हैं जहां आप N + 1st मान की भविष्यवाणी करने के लिए रेखीय प्रतिगमन के इनपुट के रूप में पिछले N मानों का उपयोग करते हैं। (कम से कम, कि एआर भाग क्या करता है)। जब आप मॉडल सीख रहे हैं तो आप प्रतिगमन गुणांक सीख रहे हैं। यदि आपके पास एक समय श्रृंखला है जहां आप पिछले एन बिंदुओं और अगले बिंदु के बीच संबंध सीखते हैं, और फिर आप इसे लागू करते हैं कि अगले मूल्य की भविष्यवाणी करने के लिए एन बिंदुओं के एक अलग सेट पर, आप स्पष्ट रूप से मान रहे हैं कि एक ही संबंध के बीच संबंध है एन प्रेडिक्टर पॉइंट और निम्नलिखित एन + 1 पॉइंट आप भविष्यवाणी करने की कोशिश कर रहे हैं। यह स्थिर है। यदि आपने अपने प्रशिक्षण सेट को दो अंतरालों में अलग किया है और उन्हें अलग से प्रशिक्षित किया है, और दो बहुत अलग मॉडल मिले - आप इससे क्या निष्कर्ष निकालेंगे? क्या आपको लगता है कि आप उन मॉडलों को लागू करने के लिए आश्वस्त महसूस करेंगेनया डेटा? आप किसका उपयोग करेंगे? यदि डेटा 'गैर-स्थिर' हो तो ये समस्याएँ उत्पन्न होती हैं।
RNN पर मेरा लेना यह है - आप अभी भी एक समय श्रृंखला के एक खंड से एक पैटर्न सीख रहे हैं, और आप अभी भी पूर्वानुमान प्राप्त करने के लिए इसे समय श्रृंखला के दूसरे भाग में लागू करना चाहते हैं। मॉडल समय श्रृंखला का एक सरलीकृत प्रतिनिधित्व सीखता है - और यदि यह प्रतिनिधित्व प्रशिक्षण सेट पर लागू होता है, लेकिन परीक्षण सेट में नहीं है, तो यह अच्छी तरह से नहीं होगा। हालाँकि, ARIMA के विपरीत, RNN गैर-वैज्ञानिक सीखने में सक्षम हैं, और LSTM नोड्स जैसे विशेष नोड्स इस पर और भी बेहतर हैं। विशेष रूप से, लंबी अवधि की निर्भरता सीखने में LSTM और GRU बहुत अच्छे हैं। उदाहरण के लिए इस ब्लॉग पोस्ट को देखें । प्रभावी रूप से इसका मतलब यह है कि आरएनएन के साथ 'स्थिरता' का मतलब कम भंगुर है, इसलिए यह कुछ हद तक चिंता का विषय है। हालांकि, दीर्घकालिक निर्भरता सीखने में सक्षम होने के लिए, आपको प्रशिक्षित करने के लिए बहुत सारे डेटा की आवश्यकता होती है।
अंततः प्रमाण पुडिंग में है। यही है, जैसे आप किसी अन्य मशीन लर्निंग प्रोजेक्ट के साथ मॉडल सत्यापन करते हैं। यदि आपका मॉडल होल्ड-आउट डेटा के लिए अच्छी तरह से भविष्यवाणी करता है, तो आप इसका उपयोग करने में कुछ हद तक आत्मविश्वास महसूस कर सकते हैं। लेकिन किसी भी अन्य एमएल प्रोजेक्ट की तरह - यदि आपका परीक्षण डेटा आपके प्रशिक्षण डेटा की तुलना में कभी बहुत अलग है, तो आपका मॉडल अच्छा प्रदर्शन नहीं करेगा।