निम्नलिखित दो समय श्रृंखला ( एक्स , वाई ; नीचे देखें) को देखते हुए, इस डेटा में दीर्घकालिक रुझानों के बीच संबंध को मॉडल करने का सबसे अच्छा तरीका क्या है?
दोनों समय श्रृंखला में महत्वपूर्ण डर्बिन-वाटसन परीक्षण होते हैं जब समय के एक समारोह के रूप में मॉडलिंग की जाती है और न ही स्थिर होते हैं (जैसा कि मैं शब्द को समझता हूं, या इसका मतलब यह है कि इसे केवल अवशिष्ट में स्थिर होना चाहिए?)। मुझे बताया गया है कि इसका मतलब है कि मुझे प्रत्येक समय श्रृंखला के पहले-क्रम का अंतर (कम से कम, शायद 2 वाँ क्रम) भी लेना चाहिए, इससे पहले कि मैं एक दूसरे के कार्य के रूप में मॉडल बना सकूं, अनिवार्य रूप से एक अरिमा (1,1,0) ), अरिमा (1,2,0) आदि।
मुझे समझ में नहीं आता है कि आपको उन्हें मॉडल करने से पहले उन्हें अलग करने की आवश्यकता क्यों है। मैं ऑटो-सहसंबंध को मॉडल करने की आवश्यकता को समझता हूं, लेकिन मुझे समझ नहीं आता कि अलग-अलग होने की आवश्यकता क्यों है। मेरे लिए, यह ऐसा प्रतीत होता है जैसे विभेदों से अलग होते हुए डेटा में प्राथमिक संकेतों (इस मामले में दीर्घकालिक रुझान) को हटा रहा है जिसे हम रुचि रखते हैं और उच्च-आवृत्ति "शोर" (शब्द शोर का उपयोग करके) छोड़ रहे हैं। वास्तव में, सिमुलेशन में जहां मैं एक समय श्रृंखला और दूसरे के बीच एक पूर्ण संबंध बनाता हूं, जिसमें कोई ऑटोकॉर्लेशन नहीं होता है, समय श्रृंखला में अंतर करने से मुझे ऐसे परिणाम मिलते हैं जो रिश्ते का पता लगाने के उद्देश्यों के लिए प्रतिगामी होते हैं, उदाहरण के लिए,
a = 1:50 + rnorm(50, sd = 0.01)
b = a + rnorm(50, sd = 1)
da = diff(a); db = diff(b)
summary(lmx <- lm(db ~ da))
इस मामले में, बी दृढ़ता से संबंधित है , लेकिन बी में अधिक शोर है। मेरे लिए यह दिखाता है कि विभिन्न आवृत्ति कम आवृत्ति संकेतों के बीच संबंधों का पता लगाने के लिए एक आदर्श मामले में काम नहीं करती हैं। मैं समझता हूं कि आमतौर पर समय-श्रृंखला विश्लेषण के लिए विभेदन का उपयोग किया जाता है, लेकिन यह उच्च-आवृत्ति संकेतों के बीच संबंधों को निर्धारित करने के लिए अधिक उपयोगी प्रतीत होता है। मैं क्या खो रहा हूँ?
उदाहरण डेटा
df1 <- structure(list(
x = c(315.97, 316.91, 317.64, 318.45, 318.99, 319.62, 320.04, 321.38, 322.16, 323.04, 324.62, 325.68, 326.32, 327.45, 329.68, 330.18, 331.08, 332.05, 333.78, 335.41, 336.78, 338.68, 340.1, 341.44, 343.03, 344.58, 346.04, 347.39, 349.16, 351.56, 353.07, 354.35, 355.57, 356.38, 357.07, 358.82, 360.8, 362.59, 363.71, 366.65, 368.33, 369.52, 371.13, 373.22, 375.77, 377.49, 379.8, 381.9, 383.76, 385.59, 387.38, 389.78),
y = c(0.0192, -0.0748, 0.0459, 0.0324, 0.0234, -0.3019, -0.2328, -0.1455, -0.0984, -0.2144, -0.1301, -0.0606, -0.2004, -0.2411, 0.1414, -0.2861, -0.0585, -0.3563, 0.0864, -0.0531, 0.0404, 0.1376, 0.3219, -0.0043, 0.3318, -0.0469, -0.0293, 0.1188, 0.2504, 0.3737, 0.2484, 0.4909, 0.3983, 0.0914, 0.1794, 0.3451, 0.5944, 0.2226, 0.5222, 0.8181, 0.5535, 0.4732, 0.6645, 0.7716, 0.7514, 0.6639, 0.8704, 0.8102, 0.9005, 0.6849, 0.7256, 0.878),
ti = 1:52),
.Names = c("x", "y", "ti"), class = "data.frame", row.names = 110:161)
ddf<- data.frame(dy = diff(df1$y), dx = diff(df1$x))
ddf2<- data.frame(ddy = diff(ddf$dy), ddx = diff(ddf$dx))
ddf$ti<-1:length(ddf$dx); ddf2$year<-1:length(ddf2$ddx)
summary(lm0<-lm(y~x, data=df1)) #t = 15.0
summary(lm1<-lm(dy~dx, data=ddf)) #t = 2.6
summary(lm2<-lm(ddy~ddx, data=ddf2)) #t = 2.6