समय श्रृंखला की पूर्वानुमान क्षमता का आकलन करना


11

मान लीजिए, मेरे पास Jan'05 से दिसम्बर 11 तक फैले 20.000 मासिक समय की श्रृंखला है। इनमें से प्रत्येक एक अलग उत्पाद के लिए वैश्विक बिक्री डेटा का प्रतिनिधित्व करते हैं। क्या होगा अगर, उनमें से हर एक के लिए पूर्वानुमान पूर्वानुमान के बजाय, मैं केवल कुछ उत्पादों पर ध्यान केंद्रित करना चाहता था जो "वास्तव में बात करते हैं"?

मैं कुल वार्षिक राजस्व द्वारा उन उत्पादों को रैंक कर सकता हूं और शास्त्रीय पारेतो का उपयोग करके सूची को ट्रिम कर सकता हूं। फिर भी यह मुझे लगता है कि, हालांकि वे नीचे की रेखा में ज्यादा योगदान नहीं देते हैं, कुछ उत्पादों को पूर्वानुमान करना इतना आसान है कि उन्हें छोड़ना खराब न्याय होगा। एक उत्पाद जो पिछले 10 वर्षों से प्रत्येक महीने 50 डॉलर मूल्य पर बेचा जाता है, वह ज्यादा आवाज नहीं कर सकता है, लेकिन भविष्य की बिक्री के बारे में भविष्यवाणियों को उत्पन्न करने के लिए बहुत कम प्रयास की आवश्यकता होती है जो कि मैं भी कर सकता हूं।

तो मान लें कि मैं अपने उत्पादों को चार श्रेणियों में विभाजित करता हूं: उच्च राजस्व / पूर्वानुमान के लिए आसान - कम राजस्व / पूर्वानुमान के लिए आसान - उच्च राजस्व / पूर्वानुमान के लिए कठिन - कम राजस्व / पूर्वानुमान के लिए कठिन।

मुझे लगता है कि चौथे समूह से संबंधित केवल उन श्रृंखलाओं को पीछे छोड़ना उचित होगा। लेकिन मैं वास्तव में "पूर्वानुमानशीलता" का मूल्यांकन कैसे कर सकता हूं?

भिन्नता का गुणांक एक अच्छा प्रारंभिक बिंदु जैसा लगता है (मुझे कुछ समय पहले इसके बारे में कुछ कागज देखकर भी याद है)। लेकिन क्या होगा अगर मेरी टाइम सीरीज़ सीज़निटी / लेवल शिफ्ट्स / कैलेंडर इफेक्ट्स / स्ट्रॉन्ग ट्रेंड्स का प्रदर्शन करें?

मुझे लगता है कि मुझे अपने मूल्यांकन को केवल यादृच्छिक घटक की परिवर्तनशीलता पर आधारित करना चाहिए, न कि "कच्चे" डेटा में से एक। या क्या मैं कुछ न कुछ भूल रहा हूं?

क्या किसी ने पहले भी इसी तरह की समस्या पर ठोकर खाई है? आप लोग इसके बारे में कैसे जायेंगे?

हमेशा की तरह, किसी भी मदद की बहुत सराहना की है!

जवाबों:


9

यहाँ एक दूसरा विचार है जो stl पर आधारित है।

आप प्रत्येक श्रृंखला के लिए एक stl अपघटन फिट कर सकते हैं, और फिर किसी भी आंशिक वर्षों की अनदेखी कर रहे मूल डेटा के माध्यम से शेष घटक की मानक त्रुटि की तुलना कर सकते हैं। पूर्वानुमान के लिए आसान सीरीज़ का मतलब (डेटा) से से (शेष) का एक छोटा अनुपात होना चाहिए।

आंशिक वर्षों की अनदेखी करने का कारण यह है कि मौसमी डेटा के माध्यम को अन्यथा प्रभावित करेगा। प्रश्न में उदाहरण में, सभी श्रृंखलाओं के सात पूर्ण वर्ष हैं, इसलिए यह कोई मुद्दा नहीं है। लेकिन अगर श्रृंखला ने 2012 में हिस्सा बढ़ाया, तो मेरा सुझाव है कि इस बीच के मौसमी प्रदूषण से बचने के लिए 2011 के अंत तक ही गणना की जाती है।

यह विचार मानता है कि माध्य (डेटा) समझ में आता है - वह यह है कि डेटा माध्य स्थिर (मौसमी के अलावा) हैं। यह शायद मजबूत रुझानों या इकाई जड़ों वाले डेटा के लिए अच्छी तरह से काम नहीं करेगा।

यह भी माना जाता है कि एक अच्छा एसटीएल फिट अच्छे पूर्वानुमानों में तब्दील हो जाता है, लेकिन मैं एक उदाहरण के बारे में नहीं सोच सकता कि यह सच नहीं होगा, इसलिए यह शायद एक अच्छी धारणा है।


हाय रोब, मुझे वापस पाने के लिए धन्यवाद। मुझे लगता है कि आप इसे पसंद करते हैं तो मैं इसे आज़माऊंगा और देखूंगा कि क्या यह फ़िल्टरिंग का वांछित स्तर प्रदान करता है। बस एक और बात, क्या माध्य (शेष) से ​​अधिक माध्य (डेटा) का उपयोग करने का कोई विशेष कारण है? मुझे डर है कि मेरी कुछ समय श्रृंखला कुछ हद तक मजबूत हो सकती है। एसटीएल विघटित श्रृंखला, इसके बजाय, नहीं करना चाहिए। क्या आपको भी लगता है कि पूर्वानुमान क्षमता / स्पॉटिंग आउटलेर्स का आकलन करने के लिए हमने अभी तक जिस दृष्टिकोण की रूपरेखा तैयार की है, वह एक वास्तविक व्यापार वातावरण में लागू होने के लिए पर्याप्त है? या यह "शौकिया" भी है? क्या आप आम तौर पर बात को बहुत अलग तरीके से करेंगे?
ब्रूडर

माध्य (शेष) शून्य के करीब होगा। आप शोर को डेटा के पैमाने से तुलना करना चाहते हैं, इसलिए माध्य (डेटा) ठीक होना चाहिए। सुनिश्चित नहीं है कि अपने रुझानों से कैसे निपटें। मैं परिणामों पर विश्वास करने से पहले डेटा की एक सीमा पर दृष्टिकोण का परीक्षण करूंगा।
रोब हंडमैन

8

यह पूर्वानुमान में एक काफी सामान्य समस्या है। पारंपरिक समाधान प्रत्येक आइटम पर पूर्ण प्रतिशत त्रुटियों (एमएपीई) की गणना करना है। MAPE को कम, अधिक आसानी से पूर्वानुमानित वस्तु है।

इसके साथ एक समस्या यह है कि कई श्रृंखलाओं में शून्य मान हैं और फिर एमएपीई अपरिभाषित है।

yttT

Q=1T12t=13T|ytyt12|,
qt=(yty^t)/Qy^tyth

श्रृंखला जो पूर्वानुमान के लिए आसान है, में एमएएसई के कम मूल्य होने चाहिए। यहाँ "आसान पूर्वानुमान" मौसमी भोले पूर्वानुमान के सापेक्ष व्याख्या की गई है। कुछ परिस्थितियों में, परिणामों को स्केल करने के लिए वैकल्पिक आधार उपाय का उपयोग करने में अधिक समझदारी हो सकती है।


हाय रोब, अपनी तरह के उत्तर के लिए धन्यवाद। हमेशा की तरह आपका दृष्टिकोण बहुत साफ-सुथरा, सीधा और उचित है। मैं पहले से ही एक मौसमी भोले मॉडल के खिलाफ पूर्वानुमान मूल्य वर्धित ( एफटीवी ) का मूल्यांकन करता हूं, इसलिए समान "आधार माप" का उपयोग करके पूर्वानुमान का आकलन करने का आपका विचार बहुत आकर्षक लगता है। एकमात्र समस्या यह है कि, एमएएसई की गणना करने के लिए, मुझे अपनी 20000 समय-श्रृंखला में से प्रत्येक के लिए एक पूर्वानुमान पद्धति और सिमुलेशन चलाने की आवश्यकता है। मैं उम्मीद कर रहा था कि मैं आसानी से पूर्वानुमान लगाने वाली श्रृंखला को पहले से ही देख सकता हूं, ताकि मैं कम्प्यूटेशनल समय बचा सकूं।
ब्रूडर

किसी कारण से मुझे लगा कि कम सापेक्ष परिवर्तनशीलता (यानी सीवी) के साथ समय-श्रृंखला जरूरी आसान और अधिक सटीक पूर्वानुमान का परिणाम देगी। पूर्वानुमानों की गणना करना और फिर, और उसके बाद ही त्रुटियों को मापना, तरह-तरह के दोष, मुझे लगता है, मेरा उद्देश्य। मुझे लगता है कि मैं जो कहने की कोशिश कर रहा हूं वह यह है कि मैं पूर्वानुमान की माप की तुलना में पूर्वानुमान सटीकता के माप की तरह एमएएसई को अधिक देखता हूं। लेकिन मैं गलत हो सकता हूँ ... :)
ब्रूडर

1
@ ब्रूडर: 2 विचार: 1. आप एक मौसमी पूर्वानुमान के बजाय एक सरल अनुभवहीन पूर्वानुमान देख सकते हैं। एक सरल अनुभवहीन पूर्वानुमान समय श्रृंखला के पिछले मूल्य का उपयोग करता है, और एक मजबूत प्रवृत्ति (1-अवधि के अंतराल के साथ) उठाएगा। 2. एसटीएल अपघटन एक अच्छा विचार है। यदि मौसमी और प्रवृत्ति घटकों की तुलना में अवशेष बहुत छोटे हैं, तो आप शायद श्रृंखला का आसानी से अनुमान लगा सकते हैं।
जच

1
@ रोब - एसटीएल अपघटन के बारे में क्या? क्या मुझे एक पत्थर के साथ दो पक्षी मिल सकते हैं (यानी आउटलेयर को खोलना और पूर्वानुमान का आकलन करना, इसलिए "सही" पूर्वानुमान का आकलन करना)? यह मुझे आश्चर्यचकित करता है कि मैं सिर्फ एसटीएल और एक मौसमी भोले मॉडल के साथ कितनी चीजों को पूरा कर सकता हूं। लेकिन आप जानते हैं कि क्या होता है जब चीजें सच होने के लिए बहुत अच्छी होती हैं ...
ब्रूडर

1
ti

5

आप में रुचि हो सकती है pn

सीआरएएन (फिर से: मैं लेखक हूं) पर एक आर पैकेज फोरसीए उपलब्ध है जो बुनियादी कार्यक्षमता को लागू करता है; अभी यह पूर्वानुमान मापने के लिए कार्यक्षमता का समर्थन करता है functionalityΩ(xt)

लेकिन हो सकता है कि आप कई उप-समूहों में 20,000 के मोटे ग्रिड पृथक्करण बनाने के लिए रोब द्वारा प्रस्तावित MASE उपाय का उपयोग करने की कोशिश कर सकते हैं और फिर प्रत्येक पर अलग से ForeCA लागू कर सकते हैं।


0

यह उत्तर बहुत देर से आया है, लेकिन उन लोगों के लिए जो अभी भी उत्पाद की मांग समय श्रृंखला के लिए पूर्वानुमान का एक उपयुक्त उपाय ढूंढ रहे हैं, मैं अत्यधिक अनुमानित एंट्रोपी को देखने का सुझाव देता हूं

एक समय श्रृंखला में उतार-चढ़ाव के दोहरावदार पैटर्न की उपस्थिति एक समय श्रृंखला की तुलना में इसे अधिक अनुमानित बनाती है जिसमें ऐसे पैटर्न अनुपस्थित हैं। ApEn इस संभावना को दर्शाता है कि टिप्पणियों के समान पैटर्न अतिरिक्त समान टिप्पणियों का पालन नहीं करेंगे। []] कई दोहराव वाले पैटर्न वाली एक समय श्रृंखला में अपेक्षाकृत छोटा एपन होता है; एक कम भविष्यवाणी की प्रक्रिया में एक उच्च ApEn है।

उत्पाद की मांग में बहुत मजबूत मौसमी घटक होता है, जो भिन्नता (सीवी) के गुणांक को अनुचित बनाता है। ApEn (m, r) इसे सही ढंग से संभालने में सक्षम है। मेरे मामले में, चूंकि मेरे डेटा में एक मजबूत साप्ताहिक मौसमी है, इसलिए मैंने यहां अनुशंसित एम = 7 और आर = 0.2 * एसटी के मापदंडों को निर्धारित किया है


u

uu
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.