कम समय-श्रृंखला के लिए सर्वश्रेष्ठ विधि


35

मेरे पास मॉडलिंग से संबंधित एक सवाल है, लघु-श्रृंखला। यह एक सवाल नहीं है कि अगर उन्हें मॉडल करना है , लेकिन कैसे। मॉडलिंग के लिए आप क्या विधि सुझाएंगे (बहुत) छोटी समय-श्रृंखला (लंबाई )? "सबसे अच्छा" से मेरा मतलब है कि यहां सबसे मजबूत एक है, जो सीमित संख्या में टिप्पणियों के तथ्य के कारण त्रुटियों के लिए सबसे कम संभावना है। लघु श्रृंखला के साथ एकल अवलोकन पूर्वानुमान को प्रभावित कर सकते हैं, इसलिए विधि को पूर्वानुमान से जुड़ी त्रुटियों और संभावित परिवर्तनशीलता का सतर्क अनुमान प्रदान करना चाहिए। मैं आमतौर पर अनिवारीट टाइम-सीरीज़ में दिलचस्पी रखता हूं, लेकिन अन्य तरीकों के बारे में जानना भी दिलचस्प होगा।T20


समय इकाई क्या है? क्या आप डेटा पोस्ट कर सकते हैं?
दिमित्री वी। मास्टरोव

8
आप जो भी धारणाएँ बनाते हैं - मौसमी, स्थिरता, और सी के विषय में। - थोड़े समय की श्रृंखला आपको केवल सबसे प्रमुख उल्लंघन का पता लगाने का मौका देगी; इसलिए डोमेन ज्ञान में मान्यताओं को अच्छी तरह से स्थापित किया जाना चाहिए। क्या आपको केवल मॉडल बनाने या पूर्वानुमान लगाने की आवश्यकता है? एम 3 प्रतियोगिता की तुलना में विभिन्न "स्वचालित" भविष्यवाणी श्रृंखला पर डोमेन, जैसा कि कुछ की एक किस्म से तरीकों कम के रूप में 20
Scortchi - को पुनः स्थापित मोनिका

5
+1 से @ स्कोर्टची की टिप्पणी। संयोग से, 3,003 एम 3 श्रृंखला में से ( Mcompआर के लिए पैकेज में उपलब्ध ), 504 में 20 या उससे कम अवलोकन हैं, विशेष रूप से वार्षिक श्रृंखला का 55%। तो आप मूल प्रकाशन को देख सकते हैं और देख सकते हैं कि वार्षिक डेटा के लिए क्या अच्छा काम किया है। या यहां तक ​​कि एम 3 प्रतियोगिता के लिए प्रस्तुत मूल पूर्वानुमानों के माध्यम से खुदाई करें, जो Mcompपैकेज (सूची M3Forecast) में उपलब्ध हैं ।
एस। कोलासा - मोनिका

नमस्ते, मैं उत्तर के लिए कुछ भी नहीं जोड़ूंगा, लेकिन बस सवाल के बारे में कुछ साझा करता हूं, जो मुझे उम्मीद है कि यह दूसरों को यहां समस्या को समझने में मदद कर सकता है: जब आप मजबूत कहते हैं , तो सीमित तथ्य के कारण त्रुटियों के लिए सबसे कम संभावना है टिप्पणियों की संख्या । मेरा मानना ​​है कि मजबूती आँकड़ों में एक महत्वपूर्ण अवधारणा है और यहाँ यह महत्वपूर्ण है क्योंकि बहुत कम डेटा किसी भी मॉडलिंग फिट के लिए दृढ़ता से मॉडल या खुद के अनुमानों पर निर्भर करेगा। मजबूती के साथ आप इस अवरोध को कम मजबूत बनाते हैं, अपने परिणामों को सीमित करने के लिए धारणा को अनुमति नहीं देते हैं। आशा है कि ये आपकी मदद करेगा।
टॉमसो गुरेरिन

2
@TommasoGuerrini मजबूत तरीके कम धारणाएं नहीं बनाते हैं, वे अलग-अलग धारणाएं बनाते हैं।
टिम

जवाबों:


31

यह बहुत ही सरल पूर्वानुमान विधियों के लिए बहुत आम है जैसे "ऐतिहासिक औसत का पूर्वानुमान" और अधिक जटिल तरीकों को बेहतर बनाने के लिए। कम समय की श्रृंखला के लिए यह और भी अधिक संभावना है। हां, सिद्धांत रूप में आप एक ARIMA या उससे भी अधिक जटिल मॉडल को 20 या उससे कम टिप्पणियों के लिए फिट कर सकते हैं, लेकिन आपको बहुत खराब पूर्वानुमान प्राप्त करने और प्राप्त करने की संभावना होगी।

तो: एक साधारण बेंचमार्क के साथ शुरू करें, जैसे,

  • ऐतिहासिक अर्थ
  • जोड़ा मजबूती के लिए ऐतिहासिक मंझला
  • यादृच्छिक चलना (अंतिम अवलोकन बाहर पूर्वानुमान)

आउट-ऑफ-सैंपल डेटा पर इनका आकलन करें। इन बेंचमार्क के लिए किसी भी अधिक जटिल मॉडल की तुलना करें। आप यह देखकर आश्चर्यचकित हो सकते हैं कि इन सरल तरीकों को बेहतर बनाना कितना कठिन है। इसके अलावा, इन सरल लोगों के लिए विभिन्न तरीकों की मजबूती की तुलना करें, उदाहरण के लिए, अपने पसंदीदा त्रुटि माप का उपयोग करके न केवल औसत सटीकता आउट-ऑफ-सैंपल, बल्कि त्रुटि विचरण का भी आकलन करें

हाँ, के रूप में रोब Hyndman अपनी पोस्ट में लिखते हैं कि करने के लिए मेरे लिंक , बाहर के नमूना परीक्षण छोटी श्रृंखला के लिए अपने आप में एक समस्या है - लेकिन वास्तव में कोई अच्छा विकल्प नहीं है। ( इन-सैंपल फिट का उपयोग करें, जो सटीकता का अनुमान लगाने के लिए कोई मार्गदर्शक नहीं है ।) एआईसी आपको मंझला और यादृच्छिक चलने में मदद नहीं करेगा। हालांकि, आप समय-श्रृंखला के क्रॉस-वैरिफिकेशन का उपयोग कर सकते हैं , जो एआईसी वैसे भी अनुमानित करता है।


बस अपना उत्तर (+1) खोजा। मैंने एक और टिप्पणी की, उस स्थिति में जब आप रुचि रखते हैं और स्पष्ट करना चाहेंगे।
१३:५१ पर --le

17

मैं फिर से एक सवाल का उपयोग कर रहा हूं कि समय श्रृंखला के बारे में अधिक जानने का अवसर - मेरी रुचि के (कई) विषयों में से एक। एक संक्षिप्त शोध के बाद, यह मुझे लगता है कि लघु समय श्रृंखला की मॉडलिंग की समस्या के लिए कई दृष्टिकोण मौजूद हैं।

पहला दृष्टिकोण मानक / रैखिक समय श्रृंखला मॉडल (एआर, एमए, एआरएमए, आदि) का उपयोग करना है, लेकिन कुछ मानकों पर ध्यान देना है, जैसा कि रोब हंडमैन द्वारा इस पोस्ट में वर्णित है , जिन्हें किसी परिचय की आवश्यकता नहीं है। समय श्रृंखला और पूर्वानुमान दुनिया। दूसरा दृष्टिकोण, जिसे मैंने संबंधित अधिकांश साहित्य द्वारा संदर्भित किया है, गैर-रेखीय समय श्रृंखला मॉडल का उपयोग करने का सुझाव देता है , विशेष रूप से, थ्रेशोल्ड मॉडल [2], जिसमें थ्रेशोल्ड ऑटोर्रिजिव मॉडल (टीएआर) , स्व-एक्साइटिंग टीएआर शामिल हैं। SETAR) , थ्रेशोल्ड ऑटोरेग्रेसिव मूविंग एवरेज मॉडल (TARMA) , और TARMAX मॉडल, जो TAR को बढ़ाता हैexogenous समय श्रृंखला के लिए मॉडल। थ्रेशोल्ड मॉडल सहित गैर-रैखिक समय श्रृंखला मॉडल के उत्कृष्ट साक्षात्कार , इस पेपर [3] और इस पत्र [4] में पाए जा सकते हैं ।

अंत में, एक और IMHO संबंधित शोध पत्र [5] एक दिलचस्प दृष्टिकोण है, जो पर आधारित है का वर्णन करता है Volterra-वेनर गैर रेखीय प्रणालियों के प्रतिनिधित्व - देखना यह [6] और यह [7]। इस दृष्टिकोण को लघु और शोर समय श्रृंखला के संदर्भ में अन्य तकनीकों से बेहतर होने का तर्क दिया जाता है ।

संदर्भ

  1. हयंडमैन, आर। (4 मार्च 2014)। कम समय श्रृंखला के लिए फिटिंग मॉडल। [ब्लॉग पोस्ट]। Http://robjhyndman.com/hyndsight/short-time-series से लिया गया
  2. पेंसिल्वेनिया स्टेट यूनिवर्सिटी। (2015)। थ्रेसहोल्ड मॉडल। [ऑनलाइन पाठ्यक्रम सामग्री]। STAT 510, एप्लाइड टाइम सीरीज विश्लेषण। Https://onlinecourses.science.psu.edu/stat510/node/82 से लिया गया
  3. ज़िवेट, ई। (2006)। गैर-रैखिक समय श्रृंखला मॉडल। [क्लास नोट्स]। ECON 584, टाइम सीरीज़ इकोनोमेट्रिक्स। वाशिंगटन विश्वविद्यालय। Http://facademy.washington.edu/ezivot/econ584/notes/nonlinear.pdf से लिया गया
  4. चेन, सीडब्ल्यूएस, सो, एमकेपी, और लियू, एफ-सी। (2011)। वित्त में दहलीज समय श्रृंखला मॉडल की समीक्षा। सांख्यिकी और इसका इंटरफ़ेस, 4 , 167–181। Http://intlpress.com/site/pub/files/_fulltext/journals/sii/2011/0004/0002/SII-2011-0004-0002-a012.pdf से लिया गया
  5. बाराहोना, एम।, और पून, सी। -एस। (1996)। शॉर्ट, नॉइज़ टाइम सीरीज़ के नॉनलाइनियर डायनामिक्स की जांच प्रकृति, 381 , 215-217। Http://www.bg.ic.ac.uk/research/m.barahona/nonlin_detec_nature.PDF से लिया गया
  6. फ्रांज, एमओ (2011)। वोल्त्रा और वीनर श्रृंखला। स्कॉलरपीडिया, 6 (10): 11307। Http://www.scholarpedia.org/article/Volterra_and_Wiener_series से लिया गया
  7. फ्रांज, एमओ, और शोलकोफ़, बी (एनडी)। वीनर और वोल्टेरे सिद्धांत और बहुपद कर्नेल प्रतिगमन का एक एकीकृत दृष्टिकोण। Http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/nc05_%5B0%5D.pdf से लिया गया

4
+1 क्या आप अपने उत्तर में इन पत्रों के संदर्भों को लिखना चाहेंगे? हमें हाल ही में पता चला है कि कागज के कई लिंक थोड़ी देर के बाद सड़ जाते हैं, आखिरकार उन्हें लगभग बेकार कर दिया जाता है जब तक कि कागज के लेखक, शीर्षक आदि का भी पाठ में उल्लेख नहीं किया जाता है।
whuber

2
@ शुभकर्ता: धन्यवाद। कोई समस्या नहीं है, मैं आज शाम संदर्भ के साथ अपने जवाब को अपडेट करूंगा।
हांग्जो बेलेख

2
रोब हंडमैन की पोस्ट के लिंक के लिए +1। (हालांकि, मुझे जटिल मॉडलों के लिए -1 का लालच दिया गया है। मैं 20 से कम टिप्पणियों की समय श्रृंखला पर दहलीज या किसी भी अन्य nonlinear समय श्रृंखला विधियों का उपयोग करने से बेहद सावधान हूं । आप ओवरफिट के लिए लगभग निश्चित हैं, जो सीधे काउंटर पर जाता है। ओपी को एक मजबूत विधि की आवश्यकता ।)
एस। कोलासा -

3
[२,३,४] कम समय श्रृंखला का उल्लेख नहीं करते हैं, और [२]: १२० टिप्पणियों में भूखंडों को देखें। [४] वित्त पर ध्यान केंद्रित करता है, जहाँ आपके पास २० से अधिक अवलोकन हैं। [५] "शॉर्ट टाइम सीरीज़ के बारे में लिखते हैं, आम तौर पर १००० अंक लंबे" (पृष्ठ २१६)। मैं <20 टिप्पणियों के साथ मज़बूती से और मज़बूती से एक TAR या समान मॉडल, या आपके द्वारा लिंक किए जाने वाले किसी भी अधिक जटिल तरीके से फिट होने का कोई रास्ता नहीं देखता हूं। (बीटीडब्लू: मैं पक्ष में कुछ अनुमानात्मक आंकड़े भी करता हूं, और 20 से कम टिप्पणियों के साथ, आप वास्तव में मतलब से अधिक और एक और पैरामीटर का अनुमान नहीं लगा सकते हैं।)
एस। कोलासा -

5
आपका स्वागत है;; मेरा अनुमान है कि टेकअवे का मतलब है कि "शॉर्ट" बहुत संदर्भ पर निर्भर है: सेंसर रीडिंग सीरीज़ के लिए या वित्त में, 1000 डेटा पॉइंट "शॉर्ट" है - लेकिन सप्लाई चेन मैनेजमेंट में, 20 मासिक अवलोकन लगभग सामान्य हैं , और "लघु" केवल 12 या उससे कम टिप्पणियों पर शुरू होगा।
एस। कोलासा - मोनिका

11

टी20

निम्नलिखित गुणात्मक तरीके बहुत कम या बिना डेटा के व्यवहार में अच्छी तरह से काम करते हैं:

  • समग्र पूर्वानुमान
  • सर्वेक्षण
  • डेल्फी विधि
  • परिदृश्य निर्माण
  • सादृश्य द्वारा पूर्वानुमान
  • कार्यकारी राय

सबसे अच्छी विधियों में से एक जो मुझे पता है कि बहुत अच्छी तरह से संरचित उपमाओं का उपयोग होता है (ऊपर दी गई सूची में 5 वें स्थान पर) जहाँ आप उस श्रेणी के समान / अनुरूप उत्पादों की तलाश करते हैं जिन्हें आप पूर्वानुमान लगाने की कोशिश कर रहे हैं और उनका उपयोग अल्पकालिक पूर्वानुमान का पूर्वानुमान लगाने के लिए करते हैं। । उदाहरण के लिए इस लेख को देखें , और एसएएस पेपर "कैसे" पर यह कोर्स एसएएस का उपयोग करना है। एक सीमा यह है कि एनालॉग द्वारा पूर्वानुमान केवल आप के लिए अच्छा एनालॉग होगा, अन्यथा आप निर्णय के पूर्वानुमान पर भरोसा कर सकते हैं। सादृश्य द्वारा पूर्वानुमान लगाने के लिए फोरप्रो जैसे उपकरण का उपयोग करने के बारे में पूर्वानुमान सॉफ्टवेयर से एक और वीडियो यहां दिया गया है । सादृश्य चुनना विज्ञान की तुलना में अधिक कला है और आपको अनुरूप उत्पादों / स्थितियों का चयन करने के लिए डोमेन विशेषज्ञता की आवश्यकता होती है।

छोटे या नए उत्पाद पूर्वानुमान के लिए दो उत्कृष्ट संसाधन:

  • आर्मस्ट्रांग द्वारा पूर्वानुमान का सिद्धांत
  • काहन द्वारा नया उत्पाद पूर्वानुमान

निम्नलिखित उदाहरण के उद्देश्य के लिए है। मैंने सिगनल और शोर को पढ़ना समाप्त कर दिया हैनैट सिल्वर द्वारा, इसमें अमेरिका और जापानी (अमेरिकी बाजार के अनुरूप) आवास बाजार के बुलबुले और भविष्यवाणी का एक अच्छा उदाहरण है। नीचे दिए गए चार्ट में यदि आप 10 डेटा बिंदुओं पर रुकते हैं और एक्सट्रपलेशन तरीकों (घातीय स्मूटिंग / ईटीएस / एरीमा ...) में से एक का उपयोग करते हैं और देखें कि यह आपको कहां ले जाता है और वास्तविक समाप्त हो गया है। एक बार फिर मैंने जो उदाहरण प्रस्तुत किया है, वह साधारण प्रवृत्ति के एक्सट्रपलेशन की तुलना में बहुत अधिक जटिल है। यह केवल सीमित डेटा बिंदुओं का उपयोग करके ट्रेंड एक्सट्रपलेशन के जोखिमों को उजागर करना है। इसके अलावा यदि आपके उत्पाद में मौसमी पैटर्न है, तो आपको पूर्वानुमान के लिए अनुरूप उत्पादों की स्थिति के कुछ प्रकार का उपयोग करना होगा। मैंने जर्नल ऑफ बिज़नेस रिसर्च में एक लेख पढ़ा है जिसमें कहा गया है कि यदि आपके पास फार्मास्यूटिकल्स में उत्पाद की बिक्री के 13 सप्ताह हैं, तो आप अनुरूप उत्पादों का उपयोग करके अधिक सटीकता के साथ डेटा की भविष्यवाणी कर सकते हैं।

यहाँ छवि विवरण दर्ज करें


एक अलग दृष्टिकोण को इंगित करने के लिए धन्यवाद! और मैं मानता हूं, नैट सिल्वर्स पुस्तक महान है।
टिम

5

यह धारणा कि टिप्पणियों की संख्या महत्वपूर्ण है, एक मॉडल की पहचान करने के लिए न्यूनतम नमूना आकार के बारे में GEP बॉक्स द्वारा एक ऑफ-हैंड टिप्पणी से आया है। जहाँ तक मेरा सवाल है, एक और अति सूक्ष्म उत्तर यह है कि मॉडल की पहचान की समस्या / गुणवत्ता पूरी तरह से नमूना आकार पर आधारित नहीं है, बल्कि शोर के संकेत का अनुपात जो डेटा में है। यदि आपके पास शोर अनुपात के लिए एक मजबूत संकेत है, तो आपको कम टिप्पणियों की आवश्यकता होती है। यदि आपके पास कम s / n है तो आपको पहचानने के लिए अधिक नमूनों की आवश्यकता है। यदि आपका डेटा सेट मासिक है और आपके पास 20 मान हैं, तो मौसमी मॉडल की पहचान करना संभव नहीं है HOWEVER महत्व के परीक्षण) या तो अपने संरचनात्मक रूप से कमी वाले मॉडल को कम करने या बढ़ाने के लिए


5

बहुत सीमित डेटा के साथ, मैं बायेसियन तकनीकों का उपयोग करके डेटा को फिट करने के लिए अधिक इच्छुक हूं।

बेयसियन टाइम सीरीज़ के मॉडल्स के साथ काम करते समय स्टेशनरिटी थोड़ी मुश्किल हो सकती है। एक विकल्प मापदंडों पर बाधाओं को लागू करना है। या, आप नहीं कर सके। यह ठीक है यदि आप केवल मापदंडों के वितरण को देखना चाहते हैं। हालांकि, यदि आप पश्चवर्ती भविष्यवाणियां उत्पन्न करना चाहते हैं, तो आपके पास बहुत सारे पूर्वानुमान हो सकते हैं जो विस्फोट करते हैं।

स्टेन प्रलेखन कुछ उदाहरण प्रदान करता है जहां वे स्थिरता सुनिश्चित करने के लिए समय श्रृंखला मॉडल के मापदंडों पर अड़चन डालते हैं। यह अपेक्षाकृत सरल मॉडलों के लिए संभव है जो वे उपयोग करते हैं, लेकिन अधिक जटिल समय श्रृंखला के मॉडल में यह बहुत असंभव हो सकता है। यदि आप वास्तव में स्थानिकता को लागू करना चाहते हैं, तो आप एक मेट्रोपोलिस-हेस्टिंग्स एल्गोरिथ्म का उपयोग कर सकते हैं और किसी भी गुणांक को फेंक सकते हैं जो अनुचित हैं। हालाँकि, इसके लिए गणना के लिए बहुत सारे ईजेंवल की आवश्यकता होती है, जो चीजों को धीमा कर देगा।


0

समस्या जैसा कि आपने समझदारी से इंगित किया है, "निर्धारित सूची-आधारित प्रक्रियाओं के कारण" ओवरफिटिंग "है। स्मार्ट तरीका यह है कि जब आपके पास डेटा की नगण्य राशि हो, तो समीकरण को सरल रखने की कोशिश करें। मैंने कई चंद्रमाओं के बाद पाया है कि यदि आप केवल एक एआर (1) मॉडल का उपयोग करते हैं और डेटा चीजों के लिए अनुकूलन (दर गुणांक) की दर को यथोचित रूप से अच्छी तरह से काम कर सकते हैं। उदाहरण के लिए यदि अनुमानित ar गुणांक शून्य के करीब है इसका मतलब यह है कि समग्र मतलब उचित होगा। यदि गुणांक +1.0 के पास है, तो इसका मतलब है कि अंतिम मान (एक स्थिरांक के लिए समायोजित अधिक उपयुक्त है। यदि गुणांक -1.0 के करीब है, तो अंतिम मान का नकारात्मक (स्थिर के लिए समायोजित) सबसे अच्छा पूर्वानुमान होगा। यदि गुणांक अन्यथा है तो इसका मतलब है कि हाल के अतीत का एक भारित औसत उपयुक्त है।

यह ठीक वही है जो AUTOBOX के साथ शुरू होता है और फिर विसंगतियों को दूर करता है क्योंकि यह अनुमानित पैरामीटर को ठीक करता है जब "टिप्पणियों का छोटा" सामना होता है।

यह "पूर्वानुमान की कला" का एक उदाहरण है जब एक शुद्ध डेटा संचालित दृष्टिकोण अनुचित हो सकता है।

निम्नलिखित विसंगतियों के लिए चिंता किए बिना 12 डेटा बिंदुओं के लिए एक स्वचालित मॉडल विकसित किया गया है। यहाँ छवि विवरण दर्ज करेंवास्तविक / फ़िट और पूर्वानुमान के साथ यहाँ यहाँ छवि विवरण दर्ज करेंऔर अवशिष्ट भूखंडयहाँ छवि विवरण दर्ज करें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.