क्या समय श्रृंखला पूर्वानुमान को स्वचालित करना संभव है?


17

मैं एक एल्गोरिथ्म का निर्माण करना चाहूंगा जो किसी भी समय श्रृंखला का विश्लेषण करने में सक्षम हो और "स्वचालित रूप से" विश्लेषण किए गए समय श्रृंखला डेटा के लिए सबसे अच्छा पारंपरिक / सांख्यिकीय पूर्वानुमान विधि (और इसके मापदंडों) का चयन करें।

क्या ऐसा कुछ करना संभव होगा? यदि हाँ, तो क्या आप मुझे कुछ सुझाव दे सकते हैं कि यह कैसे किया जा सकता है?


3
नहीं, यह उचित रूप से हासिल नहीं किया जा सकता है। अक्सर, दो उचित मॉडल के बीच अंतर करने के लिए पर्याप्त डेटा नहीं होता है, कभी भी सभी संभव मॉडल को ध्यान में नहीं रखते हैं। सर्वश्रेष्ठ मॉडल प्राप्त करने के लिए आवश्यक होगा कि भौतिकी निरपेक्ष रूप से जानी जाए, और बहुत बार मॉडलिंग की धारणाओं को भी नहीं जाना जाता है, और / या अप्राप्य / अप्राप्य हैं।
कार्ल

3
नहीं, यह निर्धारित करने का कोई तरीका नहीं है कि कौन सा मॉडल सबसे अच्छा है। इस चर्चा में अजगर प्रासंगिक नहीं है। फिर भी अच्छे परिणाम के साथ प्रयास हैं। उदाहरण के लिए github.com/facebook/prophet प्रोजेक्ट। इसमें पायथन बंधन भी है।
कैगदास ओजेंक

3
मैं खुले में छोड़ने के लिए मतदान कर रहा हूं क्योंकि मुझे लगता है कि यह एक उचित सवाल है - भले ही जवाब "नहीं" हो। मैं शीर्षक से अजगर को हटाने का सुझाव देता हूं, क्योंकि यह प्रासंगिक या विशेष रूप से यहां विषय पर नहीं है।
mkt -

1
मैंने सुझाव के अनुसार अजगर को शीर्षक से हटा दिया है। आपके जवाबों के लिये धन्यवाद।
स्टैट्सन्यूबिजाई 12

2
"नो लंच लंच" प्रमेय देखें।
एडमों

जवाबों:


19

पहले आपको यह ध्यान देने की आवश्यकता है कि आयरिशस्टैट द्वारा उल्लिखित दृष्टिकोण एआरआईएमए मॉडल के लिए विशिष्ट है, न कि मॉडल के किसी सामान्य सेट के लिए।

अपने मुख्य प्रश्न का उत्तर देने के लिए "क्या समय श्रृंखला पूर्वानुमान को स्वचालित करना संभव है?":

हाँ यही है। पूर्वानुमान के पूर्वानुमान के मेरे क्षेत्र में, अधिकांश वाणिज्यिक पूर्वानुमान पैकेज ऐसा करते हैं। कई खुले स्रोत पैकेज ऐसा करते हैं, विशेष रूप से रोब हंडमैन के ऑटो.रिमा () (स्वचालित एआरआईएमए पूर्वानुमान) और ईटीएस () (स्वचालित घातीय चौरसाई पूर्वानुमान) आर में खुले स्रोत पूर्वानुमान पैकेज से कार्य इन दो कार्यों के विवरण पर यहां देखें। । ऑटो पिरामिड का पायथन कार्यान्वयन भी है जिसे पिरामिड कहा जाता है , हालांकि मेरे अनुभव में यह आर संकुल के रूप में परिपक्व नहीं है।

दोनों वाणिज्यिक उत्पाद जिनका मैंने उल्लेख किया है और खुले स्रोत पैकेजों का मैंने उल्लेख किया है, सर्वोत्तम पूर्वानुमान चुनने के लिए सूचना मानदंड का उपयोग करने के विचार के आधार पर काम करते हैं: आप मॉडल का एक गुच्छा फिट करते हैं, और फिर सबसे कम एआईसी, बीआईसी, एआईसीसी, के साथ मॉडल का चयन करते हैं, आदि .... (आमतौर पर यह नमूना सत्यापन के बदले में किया जाता है)।

हालांकि एक प्रमुख चेतावनी है: ये सभी विधियाँ मॉडलों के एकल परिवार के भीतर काम करती हैं। वे ARIMA मॉडल के सेट के बीच सबसे अच्छा संभव मॉडल चुनते हैं, या घातीय चौरसाई मॉडल के सेट के बीच सबसे अच्छा संभव मॉडल।

यदि आप मॉडल के विभिन्न परिवारों में से चुनना चाहते हैं तो ऐसा करना अधिक चुनौतीपूर्ण है, उदाहरण के लिए यदि आप ARIMA, एक्सपोनेंशियल स्मूथिंग और थीटा पद्धति से सर्वश्रेष्ठ मॉडल चुनना चाहते हैं। सिद्धांत रूप में, आप एक ही तरीके से ऐसा कर सकते हैं कि आप मॉडल के एकल परिवार के भीतर करते हैं, अर्थात सूचना मानदंड का उपयोग करके। हालांकि व्यवहार में, आपको एआईसी या बीआईसी की गणना उसी तरह से करनी चाहिए, जिस तरह से सभी मॉडलों पर विचार किया जाता है, और यह एक महत्वपूर्ण चुनौती है। सूचना मापदंड के बजाय समय श्रृंखला क्रॉस-सत्यापन , या नमूना सत्यापन से बाहर का उपयोग करना बेहतर हो सकता है, लेकिन यह अधिक कम्प्यूटेशनल रूप से गहन (और कोड के लिए थकाऊ) होगा।

फेसबुक का पैगंबर पैकेज सामान्य एडिटिव मॉडल के आधार पर पूर्वानुमान पीढ़ी को स्वचालित करता है विवरण के लिए यहां देखें । हालाँकि पैगंबर केवल एक ही मॉडल फिट बैठता है, कई मापदंडों के साथ एक बहुत ही लचीला मॉडल। पैगंबर की निहित धारणा यह है कि एक GAM "उन सभी पर शासन करने वाला एक मॉडल है", जो सैद्धांतिक रूप से उचित नहीं हो सकता है लेकिन वास्तविक दुनिया के परिदृश्यों के लिए बहुत व्यावहारिक और उपयोगी है।

एक और चेतावनी जो उपर्युक्त सभी विधियों पर लागू होती है: संभवतः आप स्वचालित समय श्रृंखला पूर्वानुमान करना चाहते हैं क्योंकि आप कई बार श्रृंखला का पूर्वानुमान करना चाहते हैं, बहुत अधिक मैन्युअल रूप से विश्लेषण करने के लिए। अन्यथा आप केवल अपने स्वयं के प्रयोग कर सकते हैं और अपने दम पर सबसे अच्छा मॉडल ढूंढ सकते हैं। आपको यह ध्यान रखने की आवश्यकता है कि एक स्वचालित पूर्वानुमान दृष्टिकोण कभी भी प्रत्येक और हर बार श्रृंखला के लिए सबसे अच्छा मॉडल खोजने वाला नहीं है - यह सभी समय श्रृंखला में औसतन एक अच्छा मॉडल देने जा रहा है, लेकिन यह अभी भी संभव है कि कुछ उन समय श्रृंखला में स्वचालित पद्धति द्वारा चुने गए लोगों की तुलना में बेहतर मॉडल होंगे। इस पोस्ट को देखेंइसके उदाहरण के लिए। इसे सीधे शब्दों में कहें, अगर आप स्वचालित पूर्वानुमान के साथ जाने वाले हैं - तो आपको हर बार श्रृंखला के लिए सर्वोत्तम संभव पूर्वानुमानों के बजाय "अच्छे पर्याप्त" पूर्वानुमानों को सहन करना होगा।


इस तरह के एक सुखद जवाब के लिए धन्यवाद। ईमानदारी से मेरा प्रारंभिक विचार जब यह सवाल पूछा गया था कि मॉडल के विभिन्न परिवारों से चुनने में सक्षम होना चाहिए।
StatsNewbie123

क्या होगा यदि एल्गोरिदम को एक अधिक विशिष्ट डोमेन पर लागू किया जाना चाहिए, जैसे व्यवसाय पूर्वानुमान (उदाहरण के लिए उत्पादन योजना और सूची प्रबंधन के लिए)? क्या आपको लगता है कि यह बेहतर परिणाम प्राप्त कर सकता है?
स्टैट्सन्यूबिजाई 12

2
@JoanaClaudino हाँ जो आसान होगा - वह यह है कि व्यावसायिक मांग पूर्वानुमान पैकेज क्या करते हैं। लेकिन यह आसान है क्योंकि आम तौर पर जब आप अपने आप को एक विशिष्ट व्यवसाय डोमेन तक सीमित कर लेते हैं तो आप अपने आप को एक विशिष्ट परिवार के मॉडल तक सीमित कर सकते हैं (एक ही व्यापार डोमेन से आने वाली श्रृंखला मौसमी, डेटा घनत्व, आदि के संदर्भ में समान विशेषताएं होंगी ...) । यह मान लेना सुरक्षित है कि एक परिवार उन सभी के लिए उपयुक्त होगा)
स्केंडर एच।

ठीक है, मैं इसे अभी प्राप्त करता हूं। इतनी बड़ी मदद के लिए एक बार फिर धन्यवाद।
स्टट्सन्यूबिजाई १२

10

मेरे सुझाए गए दृष्टिकोण में मॉडल शामिल हैं जो ARIMA से बहुत अधिक सामान्य हैं क्योंकि उनमें मौसमी डमी की क्षमता शामिल है जो समय के साथ बदल सकती है, कई स्तर, कई रुझान, पैरामीटर जो समय के साथ बदल सकते हैं और यहां तक ​​कि त्रुटि परिवर्तन भी हो सकते हैं। इस परिवार को अधिक सटीक रूप से ARMAX मॉडल कहा जाता है, लेकिन पूरी पारदर्शिता के लिए एक (दुर्लभ) संस्करण को बाहर रखा गया है जिसमें गुणन संरचना है।

आपने सुझाव मांगे और मेरा मानना ​​है कि यह एक अच्छी शुरुआत हो सकती है।

मेरा सुझाव है कि आप इस फ़्लोचार्ट / वर्कफ़्लो का अनुसरण / अनुकरण करने के लिए कोड लिखें। "सबसे अच्छा मॉडल" उस मानदंड का मूल्यांकन करके पाया जा सकता है जिसे आप निर्दिष्ट करते हैं ... यह फिट किए गए डेटा का एमएसई / एआईसी हो सकता है या यह रोकें गए डेटा का एमएपीई / एसएमएपीई या आपकी पसंद का कोई भी मानदंड हो सकता है।

इन चरणों में से प्रत्येक के विवरण के रूप में अवगत रहें यदि आप कुछ विशिष्ट आवश्यकताओं / उद्देश्यों / समय श्रृंखला विश्लेषण की बाधाओं से अनजान हैं तो यह काफी सरल हो सकता है लेकिन यदि आप गहरी समझ रखते हैं तो यह अधिक जटिल हो सकता है! संपूर्ण समय श्रृंखला विश्लेषण में मौजूद जटिलताओं / अवसरों की सीख / प्रशंसा।

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

मुझे आगे की दिशा प्रदान करने के लिए कहा गया है कि किसी को स्वचालित श्रृंखला समय मॉडलिंग के बारे में कैसे जाना चाहिए (या सामान्य रूप से मॉडलिंग) /stats//search?q=peeling+an+onion में मेरा कुछ मार्गदर्शन है "छीलने वाले प्याज" और संबंधित कार्य।

AUTOBOX वास्तव में अंतरिम चरणों का विवरण देता है और दिखाता है क्योंकि यह एक उपयोगी मॉडल बनाता है और इस संबंध में एक उपयोगी शिक्षक हो सकता है। संपूर्ण वैज्ञानिक विचार "जोड़ना है जो प्रतीत होता है की जरूरत है" और "क्या उपयोगी से कम प्रतीत होता है हटाएं"। यह पहले के समय में बॉक्स और बेकन द्वारा सुझाई गई पुनरावृत्ति प्रक्रिया है।

मॉडलों को पर्याप्त रूप से जटिल होना चाहिए (फैंसी पर्याप्त) लेकिन बहुत जटिल (फैंसी) नहीं। यह मानते हुए कि सरल तरीके जटिल समस्याओं के साथ काम करते हैं, रोजर बेकन और बेकन के अनुयायियों के टन के बाद वैज्ञानिक विधि के अनुरूप नहीं है। जैसा कि रोजर बेकन ने एक बार कहा था और मैंने अक्सर कहा है: विज्ञान को दोहराया पैटर्न की खोज करना है। विसंगतियों का पता लगाने के लिए उन मूल्यों की पहचान करना है जो दोहराया पैटर्न का पालन नहीं करते हैं। जो कोई भी जानता है कि प्रकृति के तरीके अधिक आसानी से उसके विचलन को नोटिस करेंगे और दूसरी ओर, जो कोई भी जानता है कि उसके विचलन उसके तरीकों का अधिक सटीक वर्णन करेंगे। वर्तमान नियमों के विफल होने पर एक व्यक्ति नियमों का पालन करता है। वर्तमान में पहचाने गए "सर्वश्रेष्ठ मॉडल / सिद्धांत" की पहचान करते हुए स्पार्ट पीएफ बेकन में अपर्याप्तता है तो "बेहतर प्रतिनिधित्व" करने के लिए पुनरावृति हो सकती है।

मेरे शब्दों में, "टके ने प्रस्तावित खोजपूर्ण डेटा विश्लेषण (EDA) प्रस्तावित किया जिसमें डेटा द्वारा सुझाई गई स्पष्ट मॉडल की कमी के आधार पर मॉडल शोधन की योजनाएँ सुझाई गईं"। यह AUTOBOX और विज्ञान का दिल है। EDA यह देखने के लिए है कि डेटा हमें औपचारिक मॉडलिंग या परिकल्पना परीक्षण कार्य से परे क्या बता सकता है।

एक स्वचालित मॉडलिंग कार्यक्रम का लिटमस परीक्षण काफी सरल है। क्या यह ओवर-फिटिंग के बिना सिग्नल और शोर को अलग करता है? अनुभवजन्य साक्ष्य बताते हैं कि यह किया जा सकता है और किया गया है। भविष्यवाणियों का अनुमान लगाना अक्सर भ्रामक होता है क्योंकि भविष्य भूतकाल के लिए जवाबदेह नहीं होता है और आप किस आधार पर परिणाम चुनते हैं और भिन्न हो सकते हैं।


बहुत बहुत धन्यवाद। आपका जवाब बेहद मददगार है!
स्टैट्सन्यूबिजाई 12

धन्यवाद, आयरिशस्टैट। यह व्यावहारिक है। क्या हम कभी पैरामीटर को "पैरामीटर को हटाने" के विपरीत रखने के लिए उचित हैं, पैरामीटर के सांख्यिकीय रूप से महत्वपूर्ण नहीं होने के बावजूद?
कलरस्टैटिस्टिक्स

1
हाँ। यदि यह आपको अधिक "मनभावन उत्तर" देता है। एक ढलान गुणांक जो 0.0 से भिन्न नहीं है, एक अधिक यथार्थवादी प्रदान कर सकता है (यदि सांख्यिकीय रूप से महत्वपूर्ण नहीं है) पूर्वानुमान, अन्यथा अतिरिक्त गुणांक ले जाना अतार्किक है और विचरण के पूर्वानुमान में अनिश्चितता बढ़ जाती है। कुछ लेखक आवश्यकता और पर्याप्तता के परीक्षणों से आँख बंद करके / भोलेपन से यह मानने में असमर्थ हैं कि मॉडल पहचान 1 चरण की प्रक्रिया है जबकि बॉक्स और जेनकिंस (और बाकी सब!) मॉडल को आवश्यकतानुसार जटिल बनाने के लिए चिंतित हैं लेकिन अत्यधिक जटिल नहीं हैं .. इस पर अधिक के लिए अल्बर्ट ई।, जेडब्ल्यू तुके एट अल।
आयरिशस्टैट

3
"यह सुझाव दिया गया है कि स्वचालित पूर्वानुमान दृष्टिकोण प्रत्येक और हर बार श्रृंखला के लिए सबसे अच्छा मॉडल खोजने के लिए जा रहा है, जो मॉडल के रूप में सिलाई करता है यानी इसे एक अनुकूलित सूट की तरह अनुकूलित करता है।" यह एक बहुत मजबूत कथन है - यदि सटीक है, तो इसका मतलब है कि यह दृष्टिकोण एम 3, एम 4 प्रतियोगिताओं को जीत लेगा। पास है?
स्कैंडल एच।

1
@ जोना-क्लॉडिनो मुझे आपकी ISEG परियोजना में विशेष रूप से दिलचस्पी है क्योंकि मैं भी अपने सुझाए गए प्रक्रियाओं के पायथन संस्करण को विकसित करने में दिलचस्पी रखता हूं। यह निश्चित रूप से एसई से साइट बंद होगा।
आयरिशस्टैट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.