समय श्रृंखला की पूर्वानुमान क्षमता का निर्धारण कैसे करें?


10

पूर्वानुमान द्वारा सामना किए जा रहे महत्वपूर्ण मुद्दों में से एक यह है कि क्या दी गई श्रृंखला का पूर्वानुमान लगाया जा सकता है या नहीं?

मैं पीटर कैट द्वारा " एंट्रोपी फॉर ए ए प्रियोरी इंडिकेटर ऑफ फोरकास्टीबिलिटी " नामक एक लेख पर अड़ गया, जो किसी दिए गए समय श्रृंखला के निर्धारण के लिए एक सापेक्ष माप के रूप में अनुमानित एंट्रोपी (एपन) का उपयोग करता है।

लेख कहता है,

"छोटे एपन मान अधिक संभावना को इंगित करते हैं कि डेटा का एक सेट समान डेटा (नियमितता) द्वारा पीछा किया जाएगा। इसके विपरीत, एपन का एक बड़ा मूल्य समान डेटा के दोहराए जाने (अनियमितता) के कम अवसर को इंगित करता है। इसलिए, बड़ा विकार अधिक विकार को दर्शाता है। , यादृच्छिकता और सिस्टम जटिलता। "

और ApEn की गणना के लिए गणितीय सूत्रों का पालन किया जाता है। यह एक दिलचस्प दृष्टिकोण है क्योंकि यह एक संख्यात्मक मूल्य प्रदान करता है जिसका उपयोग सापेक्ष अर्थों में पूर्वानुमान का आकलन करने के लिए किया जा सकता है। मुझे नहीं पता कि अनुमानित एंट्रोपी का क्या मतलब है, मैं इसके बारे में अधिक पढ़ रहा हूं।

इसमें एक पैकेज है, जिसे प्रैक्मा कहा जाता है R, जिससे आप ApEn की गणना कर सकते हैं। एक उदाहरण के उद्देश्य से, मैंने 3 अलग-अलग समय श्रृंखलाओं का उपयोग किया और एपन संख्याओं की गणना की।

  1. श्रृंखला 1: प्रसिद्ध AirPassenger समय श्रृंखला - अत्यधिक निर्धारक है और हमें आसानी से पूर्वानुमान करने में सक्षम होना चाहिए।
  2. श्रृंखला 2: सनस्पॉट टाइम सीरीज - बहुत अच्छी तरह से परिभाषित है लेकिन श्रृंखला 1 की तुलना में कम पूर्वानुमान योग्य होना चाहिए।
  3. श्रृंखला 3: रैंडम संख्या इस श्रृंखला का पूर्वानुमान लगाने का कोई तरीका नहीं है।

इसलिए यदि हम ApEn की गणना करते हैं, तो श्रंखला 1, श्रृंखला 2 से कम होनी चाहिए, श्रृंखला 3 बहुत कम होनी चाहिए।

नीचे आर स्निपेट है जो तीनों श्रृंखलाओं के लिए एपन की गणना करता है।

library("pracma")
> series1 <- approx_entropy(AirPassengers)
> series1
[1] 0.5157758
> series2 <- approx_entropy(sunspot.year)
> series2
[1] 0.762243
> series3 <- approx_entropy(rnorm(1:30))
> series3
[1] 0.1529609

यह वह नहीं है जिसकी मुझे उम्मीद थी। यादृच्छिक श्रृंखला में अच्छी तरह से परिभाषित AirPassenger श्रृंखला की तुलना में कम संख्या है। यहां तक ​​कि अगर मैं यादृच्छिक संख्या को 100 तक बढ़ाता हूं, तो मुझे अभी भी निम्नलिखित मिलता है जो अच्छी तरह से परिभाषित श्रृंखला 2 / Sunspot.yeall श्रृंखला से कम है।

> series3 <- approx_entropy(rnorm(1:100))
> series3
[1] 0.747275

नीचे मेरे सवाल हैं:

  1. ApEn ( mऔर r) की गणना करने में 2 पैरामीटर हैं ? उन्हें कैसे निर्धारित किया जाए। Rऊपर दिए गए कोड में Iused चूक ।
  2. मैं जो गलत कर रहा हूं, वह गलत तरीके से दिखा रहा है कि ApEn यादृच्छिक संख्या बनाम एक अच्छी तरह से परिभाषित श्रृंखला जैसे कि sunspot.yearly बनाम के लिए कम है।
  3. क्या मुझे सीरीज़ को डिसेंसेलाइज़ / डिसेंड करना चाहिए और फिर ApEn का अनुमान लगाना चाहिए। लेखक ने हालांकि ApEn को सीधे श्रृंखला में लागू किया है।
  4. क्या यह निर्धारित करने का कोई अन्य तरीका है कि क्या श्रृंखला पूर्वानुमान योग्य है?

जैसा कि लेख में कहा गया है कि अनुमानित एन्ट्रापी का उपयोग लघु समय श्रृंखला, एन <200 पर नहीं किया जाना चाहिए। इससे भी महत्वपूर्ण बात, लेख नमूना एन्ट्रापी का उपयोग करता है लगभग अनुमानित एन्ट्रॉपी नहीं। परकम्मा में दोनों होते हैं। धन्यवाद

क्या यह व्याख्यात्मक चर के लिए खाता है? उदाहरण के लिए, यदि आप किसी फर्म के खाता अटैचमेंट का पूर्वानुमान लगा रहे हैं, तो इसका विपणन खर्च के साथ संबंध हो सकता है, और खर्च अत्यधिक पूर्वानुमान योग्य है, वास्तव में, यह महीनों पहले की योजना है। प्रस्तावित दृष्टिकोण में यह कैसे होगा?
अक्कल

@ अक्षल, कोई व्याख्यात्मक चर नहीं है। मैं बड़े पैमाने पर अविभाज्य (कोई व्याख्यात्मक चर) समय श्रृंखला पूर्वानुमान की तलाश कर रहा था जहां हमें पूर्वानुमान का आकलन करने के लिए एक उद्देश्य उपाय की आवश्यकता हो। इसके अलावा, कई उदाहरणों में, यूनीवेरिएट फोरकास्टिंग व्याख्यात्मक चर के साथ बनाए गए मॉडल की तुलना में बहुत अधिक सटीक है।
फोरकास्टर

1
के संभावित डुप्लिकेट समय श्रृंखला का आकलन forecastability
टिम

1
मेरा भाव यह है कि सुझाए गए डुप्लिकेट की तुलना में यह बहुत संकीर्ण प्रश्न है। मतदान खुला छोड़ दें, लेकिन सुझाव है कि ओपी दोनों को भ्रमित करने से बचने के लिए अधिक विशिष्ट शीर्षक पर विचार करें। कहो, " अनुमानित एन्ट्रोपी का उपयोग करके समय श्रृंखला की पूर्वानुमानशीलता का निर्धारण कैसे करें ?"
शॉन ईस्टर

जवाबों:


7

पैरामीटर mऔर r, समय श्रृंखला के अनुमानित एन्ट्रापी (ApEn) की गणना में शामिल हैं, खिड़की (अनुक्रम) लंबाई और सहिष्णुता (फ़िल्टर मूल्य) हैं , तदनुसार। वास्तव में, के मामले में m, rके साथ-साथ N(डेटा बिंदुओं की संख्या), Apen है परिभाषित के रूप में "लंबाई का दोहराव पैटर्न के रिश्तेदार प्रसार का प्राकृतिक लघुगणक mलंबाई के उन लोगों की तुलना में m + 1" (Balasis, Daglis, Anastasiadis और Eftaxias, 2011 , पृष्ठ 215):

ApEn(m,r,N)=Φm(r)Φm+1(r),

where 

Φm(r)=ΣilnCim(r)/(Nm+1)

इसलिए, ऐसा प्रतीत होता है कि सहिष्णुता को बदलने से समय श्रृंखला 'एन्ट्रापी' के निर्धारण rकी (अस्थायी) ग्रैन्युलैरिटी को नियंत्रित करने की अनुमति मिलती है । फिर भी, पैकेज के एन्ट्रापी फंक्शन कॉल में पैरामीटर mऔर rपैरामीटर दोनों के लिए डिफ़ॉल्ट मान का उपयोग करना pracmaठीक रहता है। एकमात्र फिक्स जो तीनों समय श्रृंखला के लिए सही एन्ट्रापी मूल्यों के संबंध को देखने के लिए किया जाना चाहिए (अधिक अच्छी तरह से परिभाषित श्रृंखला के लिए कम एन्ट्रापी, अधिक यादृच्छिक डेटा के लिए उच्च एन्ट्रापी) यादृच्छिक डेटा वेक्टर की लंबाई बढ़ाने के लिए है :

 library(pracma)
 set.seed(10)
 all.series <- list(series1 = AirPassengers,
                    series2 = sunspot.year,
                    series3 = rnorm(500)) # <== size increased
 sapply(all.series, approx_entropy)
  series1   series2   series3 
  0.5157758 0.7622430 1.4741971 

परिणाम अपेक्षित हैं - जैसा कि उतार-चढ़ाव की पूर्वानुमेयता सबसे निर्धारित series1से सबसे यादृच्छिक तक घट जाती है series 3, उनके एन्ट्रापी परिणाम बढ़ सकते हैं ApEn(series1) < ApEn(series2) < ApEn(series3):।

पूर्वानुमानशीलता के अन्य उपायों के संबंध में , आप औसत मापी गई त्रुटियों (एमएएसई) की जांच करना चाहते हैं - अधिक जानकारी के लिए इस चर्चा को देखें। पूर्वानुमान योग्य घटक विश्लेषण भी समय श्रृंखला की पूर्वानुमानशीलता का निर्धारण करने के लिए एक दिलचस्प और नया दृष्टिकोण प्रतीत होता है । और, उम्मीद है, इसके लिए एक पैकेज है, साथ ही - फॉरसीएएR

library(ForeCA)
sapply(all.series,
       Omega, spectrum.control = list(method = "wosa"))
 series1   series2   series3 
 41.239218 25.333105  1.171738 

यहां में पूर्वानुमान है, जहां पर और ।Ω ( डब्ल्यू एच मैं टी एन मैं रों ) = 0 % Ω ( एस मैं एन यू एस मैं ) = 100 %Ω[0,1]Ω(whitenoise)=0%Ω(sinusoid)=100%

संदर्भ

बालासिस, जी।, डाग्लिस, आईए, अनास्तासीडिस, ए।, और एफ्टाक्सियास, के। (2011)। एन्ट्रापी अवधारणाओं और rescaled रेंज विश्लेषण का उपयोग करते हुए Dst समय sSeries में गतिशील जटिलता का पता लगाना। डब्ल्यू। लियू और एम। फुजिमोटो (ईडीएस) में, द डायनेमिक मैग्नेटोस्फीयर, आईएजीए स्पेशल सोप्रोन बुक, सीरीज़ 3, 211. डू : 10.1007 / 978-94-007-0501-2_12। स्प्रिंगर। Http://members.noa.gr/anastasi/papers/B29.pdf से लिया गया

जॉर्ज एम। गोर्ग (2013): पूर्वानुमान योग्य घटक विश्लेषण। जेएमएलआर, डब्ल्यू एंड सीपी (2) 2013: 64-72। http://machinelearning.wustl.edu/mlpapers/papers/goerg13


मैंने pracma::sample_entropy()फ़ंक्शन का भी परीक्षण किया और समय श्रृंखला में सही परिणाम के संबंध उस परिदृश्य में भी हैं।
०१:१६ पर ०१०१le का हांग्जो बलेक

@forecaster: आपका स्वागत है।
११ बजे

1
इस पेपर को भी देखें। notsoirrational.files.wordpress.com/2015/04/schulz15.pdf जो कि प्रायोगिक डेटा का उपयोग करता है, ताकि वे पूर्वानुमान के उनके उपायों को सही ठहरा सकें। यह इस पोस्ट में बताए गए कुछ कामों जैसे कि फॉरएआरसीए से संबंधित है
जॉर्ज एम। गोर्ग

@ GeorgM.Goerg: सुझाव, लिंक और संपादन के लिए धन्यवाद।
अलेक्सांद्र ब्लेक

@forecaster: मेरी खुशी।
अलेक्सांद्र ब्लेक जूल

0

हर बार श्रृंखला 3 घटकों से बनी होती है: ट्रेंड, सीज़निटी, और रैंडम। यदि डेटा एक मजबूत प्रवृत्ति प्रदर्शित करता है और या अत्यधिक मौसमी है, तो भविष्यवाणी अपेक्षाकृत आसान होगी। यदि डेटा ज्यादातर यादृच्छिक है, तो परिभाषा के अनुसार आप कुछ भी भविष्यवाणी नहीं कर सकते।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.