दो समय श्रृंखला के बीच संबंध: ARIMA


12

निम्नलिखित दो समय श्रृंखला ( एक्स , वाई ; नीचे देखें) को देखते हुए, इस डेटा में दीर्घकालिक रुझानों के बीच संबंध को मॉडल करने का सबसे अच्छा तरीका क्या है?

दोनों समय श्रृंखला में महत्वपूर्ण डर्बिन-वाटसन परीक्षण होते हैं जब समय के एक समारोह के रूप में मॉडलिंग की जाती है और न ही स्थिर होते हैं (जैसा कि मैं शब्द को समझता हूं, या इसका मतलब यह है कि इसे केवल अवशिष्ट में स्थिर होना चाहिए?)। मुझे बताया गया है कि इसका मतलब है कि मुझे प्रत्येक समय श्रृंखला के पहले-क्रम का अंतर (कम से कम, शायद 2 वाँ क्रम) भी लेना चाहिए, इससे पहले कि मैं एक दूसरे के कार्य के रूप में मॉडल बना सकूं, अनिवार्य रूप से एक अरिमा (1,1,0) ), अरिमा (1,2,0) आदि।

मुझे समझ में नहीं आता है कि आपको उन्हें मॉडल करने से पहले उन्हें अलग करने की आवश्यकता क्यों है। मैं ऑटो-सहसंबंध को मॉडल करने की आवश्यकता को समझता हूं, लेकिन मुझे समझ नहीं आता कि अलग-अलग होने की आवश्यकता क्यों है। मेरे लिए, यह ऐसा प्रतीत होता है जैसे विभेदों से अलग होते हुए डेटा में प्राथमिक संकेतों (इस मामले में दीर्घकालिक रुझान) को हटा रहा है जिसे हम रुचि रखते हैं और उच्च-आवृत्ति "शोर" (शब्द शोर का उपयोग करके) छोड़ रहे हैं। वास्तव में, सिमुलेशन में जहां मैं एक समय श्रृंखला और दूसरे के बीच एक पूर्ण संबंध बनाता हूं, जिसमें कोई ऑटोकॉर्लेशन नहीं होता है, समय श्रृंखला में अंतर करने से मुझे ऐसे परिणाम मिलते हैं जो रिश्ते का पता लगाने के उद्देश्यों के लिए प्रतिगामी होते हैं, उदाहरण के लिए,

a = 1:50 + rnorm(50, sd = 0.01)
b = a + rnorm(50, sd = 1)
da = diff(a); db = diff(b)
summary(lmx <- lm(db ~ da))

इस मामले में, बी दृढ़ता से संबंधित है , लेकिन बी में अधिक शोर है। मेरे लिए यह दिखाता है कि विभिन्न आवृत्ति कम आवृत्ति संकेतों के बीच संबंधों का पता लगाने के लिए एक आदर्श मामले में काम नहीं करती हैं। मैं समझता हूं कि आमतौर पर समय-श्रृंखला विश्लेषण के लिए विभेदन का उपयोग किया जाता है, लेकिन यह उच्च-आवृत्ति संकेतों के बीच संबंधों को निर्धारित करने के लिए अधिक उपयोगी प्रतीत होता है। मैं क्या खो रहा हूँ?

उदाहरण डेटा

df1 <- structure(list(
x = c(315.97, 316.91, 317.64, 318.45, 318.99, 319.62, 320.04, 321.38, 322.16, 323.04, 324.62, 325.68, 326.32, 327.45, 329.68, 330.18, 331.08, 332.05, 333.78, 335.41, 336.78, 338.68, 340.1, 341.44, 343.03, 344.58, 346.04, 347.39, 349.16, 351.56, 353.07, 354.35, 355.57, 356.38, 357.07, 358.82, 360.8, 362.59, 363.71, 366.65, 368.33, 369.52, 371.13, 373.22, 375.77, 377.49, 379.8, 381.9, 383.76, 385.59, 387.38, 389.78), 
y = c(0.0192, -0.0748, 0.0459, 0.0324, 0.0234, -0.3019, -0.2328, -0.1455, -0.0984, -0.2144, -0.1301, -0.0606, -0.2004, -0.2411, 0.1414, -0.2861, -0.0585, -0.3563, 0.0864, -0.0531, 0.0404, 0.1376, 0.3219, -0.0043, 0.3318, -0.0469, -0.0293, 0.1188, 0.2504, 0.3737, 0.2484, 0.4909, 0.3983, 0.0914, 0.1794, 0.3451, 0.5944, 0.2226, 0.5222, 0.8181, 0.5535, 0.4732, 0.6645, 0.7716, 0.7514, 0.6639, 0.8704, 0.8102, 0.9005, 0.6849, 0.7256, 0.878),
ti = 1:52), 
.Names = c("x", "y", "ti"), class = "data.frame", row.names = 110:161)

ddf<- data.frame(dy = diff(df1$y), dx = diff(df1$x))
ddf2<- data.frame(ddy = diff(ddf$dy), ddx = diff(ddf$dx))
ddf$ti<-1:length(ddf$dx); ddf2$year<-1:length(ddf2$ddx)
summary(lm0<-lm(y~x, data=df1))      #t = 15.0
summary(lm1<-lm(dy~dx, data=ddf))    #t = 2.6
summary(lm2<-lm(ddy~ddx, data=ddf2)) #t = 2.6

जवाबों:


6

मैट, आप उन चिंताओं में बहुत सही हैं जिन्हें आपने अनावश्यक विभेदक संरचना का उपयोग करने के संबंध में उठाया है। यहाँ छवि विवरण दर्ज करेंअपने डेटा के लिए एक उपयुक्त मॉडल की पहचान करने के लिए यहाँ छवि विवरण दर्ज करेंएक ACF के साथ एक गाऊसी त्रुटि प्रक्रिया प्रदान करते हुए महत्वपूर्ण संरचना का निर्माणयहाँ छवि विवरण दर्ज करेंट्रांसफर फंक्शन आइडेंटिफिकेशन मॉडलिंग प्रोसेस के लिए (इस मामले में) सरोगेट सीरीज़ बनाने के लिए उपयुक्त विभेदक की आवश्यकता होती है जो कि स्थिर हो और इस तरह से रिलेशनशिप की पहचान करने में सक्षम हो। इसमें पहचान के लिए अलग-अलग आवश्यकताओं की एक्स के लिए दोहरी भिन्नता और वाई के लिए एकल भिन्नता है। इसके अतिरिक्त दोहरे भिन्न एक्स के लिए एक एआरआईएमए फ़िल्टर को एआर (1) पाया गया। इस ARIMA फ़िल्टर (केवल पहचान के उद्देश्यों के लिए!) को दोनों स्थिर श्रृंखला में लागू करने से निम्नलिखित क्रॉस-सहसंबंधी संरचना निकली। यहाँ छवि विवरण दर्ज करेंएक सरल समसामयिक संबंध का सुझाव देना। यहाँ छवि विवरण दर्ज करें। ध्यान दें कि जबकि मूल श्रृंखला गैर-स्थैतिकता का प्रदर्शन करती है, यह जरूरी नहीं है कि कारण मॉडल में भिन्नता की आवश्यकता होती है। अंतिम मॉडल यहाँ छवि विवरण दर्ज करेंऔर अंतिम acf इसका समर्थन करते हैंयहाँ छवि विवरण दर्ज करें। एक समान रूप से पहचाने गए स्तर की बदलाव (वास्तव में अवरोधन परिवर्तन) से अंतिम समीकरण को बंद करने में है

 Y(t)=-4.78 + .192*X(t) - .177*X(t-1) which is NEARLY equal to 

 Y(t)=-4.78 + .192*[X(t)-X(t-1)] which means that changes in X effect the level of Y

अंत में सुझाए गए मॉडल की विशेषताओं पर ध्यान दें।यहाँ छवि विवरण दर्ज करें

लेवल शिफ्ट सीरीज़ (0,0,0,0,0,0,0,0,0,1,1, ........., 1) से पता चलता है कि यदि अनुपचारित मॉडल अवशिष्टों को छोड़ दिया जाए तो एक स्तर प्रदर्शित होगा समय-समय पर या उसके आसपास की अवधि 10 पहले 10 अवशिष्टों और अंतिम 42 के बीच एक सामान्य अवशिष्ट माध्य की परिकल्पना की एक परीक्षा है, जो "= -4.10 के टी परीक्षण" के आधार पर अल्फा = .0002 पर महत्वपूर्ण होगी। ध्यान दें कि एक निरंतर गारंटी शामिल करने से अवशिष्टों का कुल मतलब शून्य से महत्वपूर्ण रूप से भिन्न नहीं होता है लेकिन यह सभी सबसेट समय अंतरालों के लिए जरूरी नहीं है। निम्नलिखित ग्राफ यह स्पष्ट रूप से दिखाता है (यह देखते हुए कि आपको कहा गया था!)। वास्तविक / फिट / पूर्वानुमान काफी रोशन है यहाँ छवि विवरण दर्ज करें। सांख्यिकी लैम्पपोस्ट की तरह होती हैं, कुछ उन्हें दूसरों पर झुकाने के लिए उपयोग करते हैं, रोशनी के लिए उनका उपयोग करते हैं।


व्यापक विश्लेषण डेव के लिए धन्यवाद। बस इसलिए मैं सुनिश्चित करता हूं कि मैं समझ रहा हूं, 2 x वैरिएबल है, 3 लैग -1 के साथ एक्स वैरिएबल है, और 4 लेवल शिफ्ट है? कोई अरिमा विनिर्देश नहीं है?
मैट अल्ब्रेक्ट

@MattAlbrecht Y आश्रित है (आपका y मानों के साथ .0192, - 0748 ...); X1 आपका x मान 315.97 है; X2 एक डमी वैरिएबल 0,0,0,0,0,0,0,0,0,1,1,1, ... 1 है। एक्स 1 वैरिएबल में गुणांक [.192 और -.177 क्रमशः] के साथ एक समकालीन और अंतराल प्रभाव है। अंतिम पूर्ण समीकरण है
आयरिशस्टैट

@MattAlbrecht Y आश्रित है (आपका y मानों के साथ .0192, - 0748 ...); X1 आपका x मान 315.97 है; X2 एक डमी वैरिएबल 0,0,0,0,0,0,0,0,0,1,1,1, ... 1 है। एक्स 1 वैरिएबल का गुणांक [.192 और -.177 क्रमशः] के साथ एक समकालीन और अंतराल दोनों प्रभाव है। अंतिम पूर्ण समीकरण में 4 गुणांक हैं; निरंतर ; आपके x और a
आयरिशस्टैट

1

मुझे वह सलाह समझ में नहीं आती। विभेदक बहुपद प्रवृत्तियों को दूर करता है। यदि श्रृंखला के रुझान समान होने के कारण समान हैं तो अनिवार्य रूप से उस रिश्ते को हटा दिया जाता है। आप केवल यही करेंगे कि यदि आप संबंधित घटकों से संबंधित होने की अपेक्षा करते हैं। यदि अलग-अलग क्रमों के एक ही क्रम में अवशेषों के लिए acfs होता है, तो ऐसा लगता है कि वे एक स्थिर ARMA मॉडल से हो सकते हैं जिसमें सफेद शोर भी शामिल है जो यह संकेत दे सकता है कि दोनों श्रृंखलाओं में समान या समान बहुपद रुझान हैं।


जब कोई रुझान नहीं होता है तो गैर-स्थिरता को मापने के लिए विभेदक का उपयोग किया जा सकता है। अनुचित उपयोग के रूप में आप सही ढंग से इंगित करने के लिए सांख्यिकीय / अर्थमितीय बकवास बना सकते हैं।
आयरिशस्टैट

1

जिस तरह से मैं इसे समझता हूं, विभेद करना क्रॉस-सहसंबंध समारोह में स्पष्ट जवाब देता है। तुलना ccf(df1$x,df1$y)और ccf(ddf$dx,ddf$dy)


मैं सहमत हूं कि क्रॉस संबंध परस्पर भिन्न श्रृंखला के बीच क्या संबंध है, लेकिन मेरा कहना है कि ये श्रृंखला मुख्य रूप से उन रुझानों के कारण संबंधित हैं जो भिन्नता को हटाते हैं।
माइकल आर। चेरिक

क्या आप अपने प्रश्न का उत्तर नहीं देते हैं? एक आम चलन है, हम उस पर सहमत हैं। विभेदीकरण प्रवृत्ति को देखने की अनुमति देता है: प्रवृत्ति के आसपास उतार-चढ़ाव कैसे होते हैं? इस स्थिति में, x और y के बीच संबंध lag 0 और 8. के ​​साथ होता है। lag 8 पर प्रभाव ddf $ dy के स्वतःसंरचना में भी दिखाई देता है। आपको यह पता नहीं होगा कि विभेद किए बिना।
कीस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.