आर में एआईआईएमए अवशिष्ट के लिए लजंग-बॉक्स सांख्यिकी: भ्रामक परीक्षण परिणाम


15

मेरे पास एक समय श्रृंखला है जिसका मैं पूर्वानुमान लगाने की कोशिश कर रहा हूं, जिसके लिए मैंने मौसमी ARIMA (0,0,0) (0,1,0) [12] मॉडल (= fit2) का उपयोग किया है। यह अलग है कि आर ने ऑटो के साथ क्या सुझाव दिया है। आरिमा (आर गणना की एआरआईएमए (0,1,1) (0,1,0) [12] एक बेहतर फिट होगी, मैंने इसे फिट 1 नाम दिया है)। हालांकि, मेरी समय श्रृंखला के पिछले 12 महीनों में मेरा मॉडल (फिट 2) समायोजित होने पर एक बेहतर फिट प्रतीत होता है (यह कालानुक्रमिक पक्षपाती था, मैंने अवशिष्ट माध्य जोड़ दिया है और नया फिट मूल समय श्रृंखला के आसपास अधिक सुकून से बैठने लगता है यहां दोनों फिट के लिए 12 सबसे हाल के महीनों के लिए पिछले 12 महीनों और एमएपीई का उदाहरण है:

fit1, fit2 और मूल डेटा

समय श्रृंखला इस तरह दिखती है:

मूल समय श्रृंखला

अब तक सब ठीक है। मैंने दोनों मॉडलों के लिए अवशिष्ट विश्लेषण किया है, और यहाँ भ्रम है।

अकफ (रेसिड (फिट 1)) बहुत अच्छा दिखता है, बहुत सफेद-नोइसी:

फ़िट का acf

हालाँकि, Ljung-Box परीक्षण अच्छा नहीं लगता है, उदाहरण के लिए, 20 lags:

    Box.test(resid(fit1),type="Ljung",lag=20,fitdf=1)

मुझे निम्नलिखित परिणाम मिले:

    X-squared = 26.8511, df = 19, p-value = 0.1082

मेरी समझ से, यह पुष्टि है कि अवशिष्ट स्वतंत्र नहीं हैं (स्वतंत्रता मूल्य परिकल्पना के साथ रहने के लिए पी-मूल्य बहुत बड़ा है)।

हालांकि, अंतराल 1 के लिए सब कुछ बहुत अच्छा है:

    Box.test(resid(fit1),type="Ljung",lag=1,fitdf=1)

मुझे परिणाम देता है:

    X-squared = 0.3512, df = 0, p-value < 2.2e-16

या तो मैं परीक्षण को नहीं समझ रहा हूं, या यह थोड़ा सा विरोधाभासी है कि मैं एक्यूफ प्लॉट पर क्या देख रहा हूं। स्वायत्तता की हँसी कम होती है।

तब मैंने फिट 2 की जाँच की। स्वायत्तता समारोह इस तरह दिखता है:

acf fit2

कई प्रथम लैग्स में इस तरह के स्पष्ट निरंकुशता के बावजूद, Ljung-Box परीक्षण ने मुझे फिट के मुकाबले 20 लैग्स पर बहुत बेहतर परिणाम दिए:

    Box.test(resid(fit2),type="Ljung",lag=20,fitdf=0)

का परिणाम :

    X-squared = 147.4062, df = 20, p-value < 2.2e-16

जबकि lag1 पर सिर्फ autocorrelation की जाँच करना, मुझे अशक्त-परिकल्पना की पुष्टि भी देता है!

    Box.test(resid(arima2.fit),type="Ljung",lag=1,fitdf=0)
    X-squared = 30.8958, df = 1, p-value = 2.723e-08 

क्या मैं परीक्षण को सही ढंग से समझ रहा हूं? अवशिष्ट स्वतंत्रता की शून्य परिकल्पना की पुष्टि करने के लिए पी-मान 0.05 से कम होना चाहिए। पूर्वानुमान के लिए उपयोग करने के लिए कौन सा फिट बेहतर है, fit1 या fit2?

अतिरिक्त जानकारी: fit1 के अवशेष सामान्य वितरण प्रदर्शित करते हैं, जो fit2 के नहीं हैं।


2
आप पी-मानों को नहीं समझते हैं, और उन्हें गलत तरीके से गोल करने की व्याख्या कर रहे हैं।
Scortchi - को पुनः स्थापित मोनिका

हां, यह समझने का सवाल हो सकता है। क्या आप कृपया विस्तार कर सकते हैं? उदाहरण के लिए, यदि पी-मान 0.5 से बड़ा है तो इसका क्या मतलब है? मैंने पी-वैल्यू की परिभाषा पढ़ी है (आंकड़े प्राप्त करने की संभावना कम से कम चरम पर है जैसे कि परीक्षण परिकल्पना दी गई है जो अशक्त परिकल्पना रखती है)। यह Ljung- बॉक्स परीक्षण पर कैसे लागू होता है? क्या "कम से कम चरम" का मतलब "एक्स चुकता से बड़ा" है? मैं अपने डेटा के साथ उदाहरण के लिए आभारी रहूंगा, क्योंकि महत्व परीक्षण मेरे लिए समझने के लिए चुनौतीपूर्ण रहा है।
ज़ीमा

6
Ljung-Box परीक्षण आँकड़ा ( X-squared) बड़ा हो जाता है क्योंकि अवशिष्ट के नमूना ऑटो-सहसंबंध बड़े हो जाते हैं (इसकी परिभाषा देखें), और इसका p- मान एक मान प्राप्त करने की संभावना है जितना कि शून्य से नीचे या उससे अधिक बड़ा। परिकल्पना है कि असली नवाचार स्वतंत्र हैं। इसलिए एक छोटा पी-मूल्य स्वतंत्रता के खिलाफ सबूत है ।
Scortchi - को पुनः स्थापित मोनिका

@Scortchi, मुझे लगता है कि मुझे मिल गया। लेकिन यह भी फिट 1 के लिए मेरा परीक्षण लैग = 1 पर करता है। यह कैसे समझाया जा सकता है? मुझे लैग = 1 पर कोई भी निरंकुशता नहीं दिखती। क्या इस परीक्षण के कुछ प्रकार की अतिसूक्ष्मता बहुत कम संख्या में होती है (बहुत छोटा नमूना)?
ज़ीमा

3
बॉक्स-लजंग आपके द्वारा निर्दिष्ट सभी लैग्स पर स्वतंत्रता का एक सर्वव्यापी परीक्षण है। इस्तेमाल की जाने वाली स्वतंत्रता की डिग्री नहीं है। लैग्स माइनस नं। एआर और एमए पैरामीटर ( fitdf) तो आप शून्य डिग्री के साथ चि-स्क्वेर वितरण के खिलाफ परीक्षण कर रहे थे।
Scortchi - को पुनः स्थापित मोनिका

जवाबों:


34

आपने परीक्षण की गलत व्याख्या की है। यदि पी मान 0.05 से अधिक है तो अवशिष्ट स्वतंत्र हैं जो हम चाहते हैं कि मॉडल सही हो। यदि आप नीचे दिए गए कोड का उपयोग करके एक सफेद शोर समय श्रृंखला का अनुकरण करते हैं और इसके लिए उसी परीक्षण का उपयोग करते हैं तो पी मान 0.05 से अधिक होगा।

m = c(ar, ma)
w = arima.sim(m, 120)
w = ts(w)
plot(w)
Box.test(w, type="Ljung-Box")

3
एक छोटी और साफ व्याख्या। कोड उदाहरण के लिए +1।
Dawny33

1
आपकी व्याख्या सही नहीं है। 0.05 के पी-मान का मतलब है कि आपके पास एक त्रुटि करने का 5% मौका है यदि आप अपने मामले में आदेश 1 तक बिना किसी ऑटो-सहसंबंध के शून्य परिकल्पना को अस्वीकार करते हैं।
डीजेजे

8

कई सांख्यिकीय परीक्षणों का उपयोग कुछ अशक्त परिकल्पना को अस्वीकार करने के लिए किया जाता है। इस विशेष मामले में Ljung-Box परीक्षण कुछ मूल्यों की स्वतंत्रता को अस्वीकार करने की कोशिश करता है। इसका क्या मतलब है?

  • यदि पी-मान <0.05 1 : आप एक गलत अनुमान लगाने की 5% संभावना मानते हुए अशक्त परिकल्पना को अस्वीकार कर सकते हैं। तो आप मान सकते हैं कि आपके मूल्य एक-दूसरे पर निर्भरता दिखा रहे हैं।

  • यदि p-value> 0.05 1 : आपके पास अशक्त परिकल्पना को अस्वीकार करने के लिए पर्याप्त सांख्यिकीय प्रमाण नहीं हैं। इसलिए आप यह नहीं मान सकते कि आपके मूल्य निर्भर हैं। इसका मतलब यह हो सकता है कि आपके मूल्य वैसे भी निर्भर हैं या इसका मतलब यह हो सकता है कि आपके मूल्य स्वतंत्र हैं। लेकिन आप किसी भी विशिष्ट संभावना को साबित नहीं कर रहे हैं, आपके परीक्षण ने वास्तव में क्या कहा है कि आप मूल्यों की निर्भरता पर जोर नहीं दे सकते हैं, न ही आप मूल्यों की स्वतंत्रता पर जोर दे सकते हैं।

सामान्य तौर पर, यहां जो महत्वपूर्ण है, उसे ध्यान में रखना है कि पी-मान <0.05 आपको अशक्त-परिकल्पना को अस्वीकार करने देता है, लेकिन एक पी-मान> 0.05 आपको अशक्त-परिकल्पना की पुष्टि नहीं करने देता है।

विशेष रूप से, आप Ljung-Box परीक्षण का उपयोग करके टाइम सीरीज़ के मूल्यों की स्वतंत्रता का प्रमाण नहीं दे सकते। आप केवल निर्भरता को साबित कर सकते हैं।


α=0.05


α=0.05

0

एसीएफ ग्राफ़ के अनुसार, यह स्पष्ट है कि फिट 1 बेहतर है क्योंकि लैग के (के> 1) पर सहसंबंध गुणांक तेजी से गिरता है, और 0 के करीब है।


0

यदि आप एसीएफ के साथ न्याय कर रहे हैं तो फिट 1 अधिक उपयुक्त है। Ljung परीक्षण पर भ्रमित होने के बजाय आप अभी भी उपयुक्त 1 और fit2 के बीच सबसे अच्छा फिट का पता लगाने के लिए अवशेषों के कोरलोग्राम का उपयोग कर सकते हैं


1
मुझे यह उत्तर समझ में नहीं आता है।
माइकल आर। चेरिक

जब हम Ljung बॉक्स के आंकड़ों का दौरा करते हैं, तो हम मॉडल डायग्नोस्टिक चेक I, मॉडल पर्याप्तता में रुचि रख सकते हैं ..... यदि इसका उपयोग करना आपको भ्रमित कर रहा है तो मॉडल पर्याप्तता की जांच करने के अन्य तरीके हैं जो मैंने ऊपर कहा था। आप डाटा अवशिष्ट के कोरलोग्राम I, ACF और PACF को प्लॉट कर सकते हैं और फिर श्रृंखला की सीमा की जाँच कर सकते हैं यदि यह सफेद शोर है ...... यह Ljung बॉक्स परीक्षण का उपयोग नहीं करना चाहिए
विंसेंट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.