आर में आउटलेर का पता लगाने के साथ पूर्वानुमान कैसे करें? - समय श्रृंखला विश्लेषण प्रक्रिया और विधि

मेरे पास मासिक समय श्रृंखला डेटा है, और आउटलेर्स का पता लगाने के साथ पूर्वानुमान करना चाहते हैं।

यह मेरे डेटा सेट का नमूना है:

       Jan   Feb   Mar   Apr   May   Jun   Jul   Aug   Sep   Oct   Nov   Dec
2006  7.55  7.63  7.62  7.50  7.47  7.53  7.55  7.47  7.65  7.72  7.78  7.81
2007  7.71  7.67  7.85  7.82  7.91  7.91  8.00  7.82  7.90  7.93  7.99  7.93
2008  8.46  8.48  9.03  9.43 11.58 12.19 12.23 11.98 12.26 12.31 12.13 11.99
2009 11.51 11.75 11.87 11.91 11.87 11.69 11.66 11.23 11.37 11.71 11.88 11.93
2010 11.99 11.84 12.33 12.55 12.58 12.67 12.57 12.35 12.30 12.67 12.71 12.63
2011 12.60 12.41 12.68 12.48 12.50 12.30 12.39 12.16 12.38 12.36 12.52 12.63

मैंने पूर्वानुमान के विभिन्न मॉडल की एक श्रृंखला करने के लिए, टाइम्स विश्लेषण विश्लेषण प्रक्रिया और आर का उपयोग करने के तरीकों का उल्लेख किया है , हालांकि यह सटीक नहीं लगता है। अतिरिक्त रूप से, मुझे यकीन नहीं है कि tsoutliers को इसमें कैसे शामिल किया जाए।

मुझे tsoutliers और arima मॉडलिंग और यहाँ पर प्रक्रिया के बारे में मेरी जांच के बारे में एक और पोस्ट मिली है ।

तो ये वर्तमान में मेरा कोड है, जो लिंक नंबर 1 के समान है।

कोड:

product<-ts(product, start=c(1993,1),frequency=12)

#Modelling product Retail Price

#Training set
product.mod<-window(product,end=c(2012,12))
#Test set
product.test<-window(product,start=c(2013,1))
#Range of time of test set
period<-(end(product.test)[1]-start(product.test)[1])*12 + #No of month * no. of yr
(end(product.test)[2]-start(product.test)[2]+1) #No of months
#Model using different method
#arima, expo smooth, theta, random walk, structural time series
models<-list(
#arima
product.arima<-forecast(auto.arima(product.mod),h=period),
#exp smoothing
product.ets<-forecast(ets(product.mod),h=period),
#theta
product.tht<-thetaf(product.mod,h=period),
#random walk
product.rwf<-rwf(product.mod,h=period),
#Structts
product.struc<-forecast(StructTS(product.mod),h=period)
)

##Compare the training set forecast with test set
par(mfrow=c(2, 3))
for (f in models){
    plot(f)
    lines(product.test,col='red')
}

##To see its accuracy on its Test set, 
#as training set would be "accurate" in the first place
acc.test<-lapply(models, function(f){
    accuracy(f, product.test)[2,]
})
acc.test <- Reduce(rbind, acc.test)
row.names(acc.test)<-c("arima","expsmooth","theta","randomwalk","struc")
acc.test <- acc.test[order(acc.test[,'MASE']),]

##Look at training set to see if there are overfitting of the forecasting
##on training set
acc.train<-lapply(models, function(f){
    accuracy(f, product.test)[1,]
})
acc.train <- Reduce(rbind, acc.train)
row.names(acc.train)<-c("arima","expsmooth","theta","randomwalk","struc")
acc.train <- acc.train[order(acc.train[,'MASE']),]

 ##Note that we look at MAE, MAPE or MASE value. The lower the better the fit.

यह मेरे अलग पूर्वानुमान की साजिश है, जो लाल "परीक्षण सेट", और नीले "पूर्वानुमानित" सेट की तुलना के माध्यम से बहुत विश्वसनीय / सटीक नहीं लगता है। अलग-अलग पूर्वानुमान का प्लॉट

परीक्षण और प्रशिक्षण सेट के संबंधित मॉडल की विभिन्न सटीकता

Test set
                    ME      RMSE       MAE        MPE     MAPE      MASE      ACF1 Theil's U
theta      -0.07408833 0.2277015 0.1881167 -0.6037191 1.460549 0.2944165 0.1956893 0.8322151
expsmooth  -0.12237967 0.2681452 0.2268248 -0.9823104 1.765287 0.3549976 0.3432275 0.9847223
randomwalk  0.11965517 0.2916008 0.2362069  0.8823040 1.807434 0.3696813 0.4529428 1.0626775
arima      -0.32556886 0.3943527 0.3255689 -2.5326397 2.532640 0.5095394 0.2076844 1.4452932
struc      -0.39735804 0.4573140 0.3973580 -3.0794740 3.079474 0.6218948 0.3841505 1.6767075

Training set
                     ME      RMSE       MAE         MPE     MAPE      MASE    ACF1 Theil's U
theta      2.934494e-02 0.2101747 0.1046614  0.30793753 1.143115 0.1638029  0.2191889194        NA
randomwalk 2.953975e-02 0.2106058 0.1050209  0.31049479 1.146559 0.1643655  0.2190857676        NA
expsmooth  1.277048e-02 0.2037005 0.1078265  0.14375355 1.176651 0.1687565 -0.0007393747        NA
arima      4.001011e-05 0.2006623 0.1079862 -0.03405395 1.192417 0.1690063 -0.0091275716        NA
struc      5.011615e-03 1.0068396 0.5520857  0.18206018 5.989414 0.8640550  0.1499843508        NA

मॉडल सटीकता से, हम देख सकते हैं कि सबसे सटीक मॉडल थीटा मॉडल होगा। मुझे यकीन नहीं है कि पूर्वानुमान बहुत गलत क्यों है, और मुझे लगता है कि इसका एक कारण यह होगा कि, मैंने अपने डेटा सेट में "आउटलेयर" का इलाज नहीं किया, जिसके परिणामस्वरूप सभी मॉडल के लिए एक खराब पूर्वानुमान है।

यह मेरा आउटलेयर प्लॉट है

आउटलेयर प्लॉट

tsoutliers आउटपुट

ARIMA(0,1,0)(0,0,1)[12]                    

Coefficients:
        sma1    LS46    LS51    LS61    TC133   LS181   AO183   AO184   LS185   TC186    TC193    TC200
      0.1700  0.4316  0.6166  0.5793  -0.5127  0.5422  0.5138  0.9264  3.0762  0.5688  -0.4775  -0.4386
s.e.  0.0768  0.1109  0.1105  0.1106   0.1021  0.1120  0.1119  0.1567  0.1918  0.1037   0.1033   0.1040
       LS207    AO237    TC248    AO260    AO266
      0.4228  -0.3815  -0.4082  -0.4830  -0.5183
s.e.  0.1129   0.0782   0.1030   0.0801   0.0805

sigma^2 estimated as 0.01258:  log likelihood=205.91
AIC=-375.83   AICc=-373.08   BIC=-311.19

 Outliers:
    type ind    time coefhat  tstat
1    LS  46 1996:10  0.4316  3.891
2    LS  51 1997:03  0.6166  5.579
3    LS  61 1998:01  0.5793  5.236
4    TC 133 2004:01 -0.5127 -5.019
5    LS 181 2008:01  0.5422  4.841 
6    AO 183 2008:03  0.5138  4.592
7    AO 184 2008:04  0.9264  5.911
8    LS 185 2008:05  3.0762 16.038
9    TC 186 2008:06  0.5688  5.483
10   TC 193 2009:01 -0.4775 -4.624
11   TC 200 2009:08 -0.4386 -4.217
12   LS 207 2010:03  0.4228  3.746
13   AO 237 2012:09 -0.3815 -4.877
14   TC 248 2013:08 -0.4082 -3.965
15   AO 260 2014:08 -0.4830 -6.027
16   AO 266 2015:02 -0.5183 -6.442

मैं जानना चाहता हूं कि मैं अपने डेटा का कैसे "विश्लेषण" / पूर्वानुमान कर सकता हूं, इन प्रासंगिक डेटा सेट और आउटलेयर का पता लगाने, आदि के साथ कृपया मेरे बाहरी लोगों के इलाज में मेरी मदद करें और साथ ही साथ मेरा पूर्वानुमान भी करें।

अंत में, मैं जानना चाहूंगा कि अलग-अलग मॉडल पूर्वानुमान को एक साथ कैसे जोड़ा जाए, जैसा कि @forecaster ने लिंक नंबर 1 में बताया था, अलग-अलग मॉडल के संयोजन से सबसे बेहतर पूर्वानुमान / भविष्यवाणी का परिणाम होगा।

संपादित

मैं अन्य मॉडलों में आउटलेर को शामिल करना चाहता हूं।

मैंने कुछ कोड की कोशिश की है, जैसे।

forecast.ets( res$fit ,h=period,xreg=newxreg)
Error in if (object$components[1] == "A" & is.element(object$components[2], : argument is of length zero

forecast.StructTS(res$fit,h=period,xreg=newxreg)
Error in predict.Arima(object, n.ahead = h) : 'xreg' and 'newxreg' have different numbers of columns

कुछ त्रुटियां उत्पन्न हुई हैं, और मैं बाहरी लोगों को रजिस्टरों के रूप में शामिल करने के लिए सही कोड के बारे में अनिश्चित हूं। इसके अलावा, मैं ttaf या rwf के साथ कैसे काम करूं, क्योंकि कोई पूर्वानुमान नहीं हैं।

— टेड
स्रोत

शायद आपको मदद पाने के लिए एक और तरीका अपनाना चाहिए क्योंकि लगातार री-एडिटिंग से काम नहीं

— चलता है

मैं @irishstat से सहमत हूं, नीचे दिए गए दोनों उत्तर आपके प्रश्न का सीधा उत्तर प्रदान करते हैं, और लगता है कि थोड़ा ध्यान दिया गया है।

— फोरकास्ट

उन विशिष्ट फ़ंक्शंस के दस्तावेज़ीकरण को पढ़ने का प्रयास करें जो आपको त्रुटियां दे रहे हैं, ईटीएस और टीटीएफ़ में रजिस्टरों को संभालने की क्षमता नहीं है।

— फोरकास्ट

जवाबों:

यह उत्तर आपके अन्य प्रश्न के अंक 6 और 7 से भी संबंधित है ।

आउटलेयर को उन टिप्पणियों के रूप में समझा जाता है जिन्हें मॉडल द्वारा समझाया नहीं गया है, इसलिए पूर्वानुमानों में उनकी भूमिका इस अर्थ में सीमित है कि नए आउटलेर्स की उपस्थिति की भविष्यवाणी नहीं की जाएगी। आपको बस इन समीकरणों को पूर्वानुमान समीकरण में शामिल करना है।

एडिटिव आउटलीयर (जो एकल अवलोकन को प्रभावित करता है) के मामले में, इस आउटलाइन वाले वेरिएबल को केवल शून्य से भरा जाएगा, क्योंकि नमूने में अवलोकन के लिए आउटलाइन का पता लगाया गया था; एक स्तर बदलाव (डेटा में एक स्थायी परिवर्तन) के मामले में, पूर्वानुमान में बदलाव को रखने के लिए चर को लोगों से भर दिया जाएगा।

अगला, मैं दिखाता हूँ कि 'tsoutliers' द्वारा पता लगाए गए आउटलेयर के साथ ARIMA मॉडल में R पर पूर्वानुमान कैसे प्राप्त किया जाए। कुंजी को तर्क को ठीक से परिभाषित करना है newxregजिसे पारित किया गया है predict।

(यह केवल आपके प्रश्न के उत्तर का वर्णन करने के बारे में है कि पूर्वानुमान करते समय आउटलेर का इलाज कैसे किया जाए, मैं इस मुद्दे को संबोधित नहीं करता हूं कि परिणामी मॉडल या पूर्वानुमान सबसे अच्छा समाधान है या नहीं।)

require(tsoutliers)
x <- c(
  7.55,  7.63,  7.62,  7.50,  7.47,  7.53,  7.55,  7.47,  7.65,  7.72,  7.78,  7.81,
  7.71,  7.67,  7.85,  7.82,  7.91,  7.91,  8.00,  7.82,  7.90,  7.93,  7.99,  7.93,
  8.46,  8.48,  9.03,  9.43, 11.58, 12.19, 12.23, 11.98, 12.26, 12.31, 12.13, 11.99,
 11.51, 11.75, 11.87, 11.91, 11.87, 11.69, 11.66, 11.23, 11.37, 11.71, 11.88, 11.93,
 11.99, 11.84, 12.33, 12.55, 12.58, 12.67, 12.57, 12.35, 12.30, 12.67, 12.71, 12.63,
 12.60, 12.41, 12.68, 12.48, 12.50, 12.30, 12.39, 12.16, 12.38, 12.36, 12.52, 12.63)
x <- ts(x, frequency=12, start=c(2006,1))
res <- tso(x, types=c("AO","LS","TC"))

# define the variables containing the outliers for
# the observations outside the sample
npred <- 12 # number of periods ahead to forecast 
newxreg <- outliers.effects(res$outliers, length(x) + npred)
newxreg <- ts(newxreg[-seq_along(x),], start = c(2012, 1))

# obtain the forecasts
p <- predict(res$fit, n.ahead=npred, newxreg=newxreg)

# display forecasts
plot(cbind(x, p$pred), plot.type = "single", ylab = "", type = "n", ylim=c(7,13))
lines(x)
lines(p$pred, type = "l", col = "blue")
lines(p$pred + 1.96 * p$se, type = "l", col = "red", lty = 2)  
lines(p$pred - 1.96 * p$se, type = "l", col = "red", lty = 2)  
legend("topleft", legend = c("observed data", 
  "forecasts", "95% confidence bands"), lty = c(1,1,2,2), 
  col = c("black", "blue", "red", "red"), bty = "n")

संपादित करें

predictउपरोक्त ARMA मॉडल, ARIMA (2,0,0) के आधार पर दिए गए रिटर्न फोरकास्ट के रूप में उपयोग किए गए फ़ंक्शन res$fitऔर पता लगाए गए आउटलेयर में संग्रहीत किए गए हैं res$outliers। हमारे पास इस तरह एक मॉडल समीकरण है:

y_{टी} = Σ_{जे = 1}^{म} ω_{जे} {एल}_{जे} (बी) {मैं}_{टी} ({टी}_{जे}) + \frac{θ (बी)}{φ (बी) α (बी)} ε_{टी}, ε_{टी} ~ एन मैं डी (0, σ^{2}),

$y_t = \sum_{j=1}^m \omega_j L_j(B) I_t(t_j) + \frac{\theta(B)}{\phi(B) \alpha(B)} \epsilon_t \,, \quad \epsilon_t \sim NID(0, \sigma^2) \,,$

$L_j$ $j$ tsoutliers $I_t$

— javlacalle
स्रोत

तो आपने जो किया वह "न्यूएक्सग्राम" तर्क में आउटलेयर को जोड़ना था। क्या इसे रेजिस्टर कहा जाता है? क्या मैं regressor के उपयोग को जान सकता हूँ? अतिरिक्त में, "भविष्यवाणी" फ़ंक्शन में regressor के उपयोग के माध्यम से, यह अभी भी ARIMA का उपयोग करता है? या यह अलग-अलग पूर्वानुमान विधि है? Tsoutliers के उपयोग में आपकी मदद के लिए बहुत बहुत धन्यवाद। = डी

— टेड

क्या बाहरी मॉडल में पूर्वानुमान के रूप में उपयोग किए जाने के लिए आउटलेर को शामिल करना संभव है? जैसे बेसिक स्ट्रक्चरल मॉडल, थीटा, रैंडम वॉक और आदि?

— टेड

@ टेड हां, पूर्वानुमान एक ARMA मॉडल पर आधारित हैं। मैंने इस बारे में कुछ विवरणों के साथ अपना उत्तर संपादित किया है।

— javlacalle

आप लेवल शिफ्ट, एडिटिव आउटलेर जैसे प्रभाव वाले रेजिस्टर वेरिएबल को शामिल कर सकते हैं ... अन्य मॉडलों में भी, जैसे, रैंडम वॉक, स्ट्रक्चरल टाइम सीरीज़ मॉडल, ... यदि आप पूछ रहे हैं कि कुछ सॉफ्टवेयर का उपयोग कैसे करें, तो आप शायद एक और पोस्ट में यह पूछने के लिए और विचार करें कि क्या सवाल बेहतर की तरह अन्य साइटों के लिए उपयुक्त है चाहिए stackoverflow ।

— javlacalle

ओह ठीक। एक और सवाल यह होगा कि क्या आप जानते हैं कि भविष्यवाणी और पूर्वानुमान का उपयोग करने के बीच कोई अंतर है ? अगर वहाँ है, तो क्या अंतर हैं

— टेड

सॉफ्टवेयर के एक टुकड़े का उपयोग करने से जो मैंने आपके 72 अवलोकनों के लिए एक उचित मॉडल विकसित करने में मदद की है उसमें एक बिजली रूपांतरण (लॉग) शामिल होगा क्योंकि त्रुटि विचरण अपेक्षित मूल्य से जुड़ा होता है। यह मूल साजिश से भी काफी स्पष्ट है जहां आंख उच्च स्तर पर बढ़े हुए विचरण का पता लगा सकती है। वास्तविक.फिट / वनस्टॉक और अंतिम अवशेषों के एक भूखंड के साथ । बिजली रूपांतरण को ध्यान में रखते हुए अधिक यथार्थवादी आत्मविश्वास की सीमाओं पर ध्यान दें। हालांकि यह प्रतिक्रिया आर का उपयोग नहीं करती है लेकिन यह बार को बढ़ाता है क्योंकि आर का उपयोग करने वाला एक उचित मॉडल क्या शामिल हो सकता है।

— IrishStat
स्रोत