यादृच्छिक डेटा के साथ महत्वपूर्ण मौसमी भिन्नता देते हुए stl फ़ंक्शन क्यों होता है


11

मैं stl के साथ निम्नलिखित कोड के साथ साजिश रची (Loess द्वारा समय श्रृंखला के मौसमी अपघटन) समारोह:

plot(stl(ts(rnorm(144), frequency=12), s.window="periodic"))

यह ऊपर कोड (rnorm फ़ंक्शन) में यादृच्छिक डेटा के साथ साइनफ़िसेंट मौसमी भिन्नता दिखाता है। हर बार इसे चलाने के दौरान साइनफ़िक रूप से भिन्नता देखी जाती है, हालांकि पैटर्न अलग है। इस तरह के दो पैटर्न नीचे दिखाए गए हैं:

यहां छवि विवरण दर्ज करें

यहां छवि विवरण दर्ज करें

जब हम मौसमी बदलाव दिखाते हैं तो हम कुछ आंकड़ों पर stl फ़ंक्शन पर कैसे भरोसा कर सकते हैं। क्या इस मौसमी भिन्नता को कुछ अन्य मापदंडों के मद्देनजर देखने की जरूरत है? आपकी अंतर्दृष्टि के लिए धन्यवाद।

इस पृष्ठ से कोड लिया गया है: क्या यह सुसाइड काउंट डेटा में मौसमी प्रभावों के परीक्षण के लिए एक उपयुक्त तरीका है?


1
ऐसा इसलिए होता है क्योंकि यादृच्छिक डेटा में "पैटर्न" होते हैं, यदि आपकी फिटिंग तकनीक में पर्याप्त पैरामीटर हैं।
बिल_080

3
यहां "महत्वपूर्ण" शब्द किसी भी प्रकार के महत्व के परीक्षण को प्रतिबिंबित नहीं करता है।
निक कॉक्स

1
एसएलएल एक गैरपारंपरिक डेटा संचालित विधि है, इसलिए महत्व परीक्षण के माध्यम से मौसमी अनिश्चितताओं की उपस्थिति की अनुपस्थिति को निर्धारित करने का कोई तरीका नहीं है।
फोरकास्टर

जवाबों:


12

ढीले अपघटन का उद्देश्य डेटा को औसत लागू करके श्रृंखला को चिकना करना है ताकि यह घटकों में ढल जाए, जैसे कि प्रवृत्ति या मौसमी, जो डेटा के विश्लेषण के लिए दिलचस्प हैं। लेकिन इस पद्धति का उद्देश्य मौसमी की उपस्थिति के लिए एक औपचारिक परीक्षण करना नहीं है ।

यद्यपि आपके उदाहरण stlमें मौसमी आवधिकता का एक सुस्पष्ट पैटर्न है, यह पैटर्न श्रृंखला की गतिशीलता की व्याख्या करने के लिए प्रासंगिक नहीं है। यह देखने के लिए, हम मूल श्रृंखला के विचरण के संबंध में प्रत्येक घटक के विचरण की तुलना कर सकते हैं।

set.seed(123)
x <- ts(rnorm(144, sd=1), frequency=12)
a <- stl(x, s.window="periodic")
apply(a$time.series, 2, var) / var(x)
#   seasonal      trend  remainder 
# 0.07080362 0.07487838 0.81647852 

हम देख सकते हैं कि यह शेष है जो डेटा में अधिकांश विचरण को स्पष्ट करता है (जैसा कि हम एक सफेद शोर प्रक्रिया के लिए उम्मीद करेंगे)।

यदि हम सीज़नसिटी के साथ एक सीरीज़ लेते हैं, तो मौसमी घटक का सापेक्षिक विचरण बहुत अधिक प्रासंगिक है (हालांकि हमारे पास इसका परीक्षण करने का एक सीधा तरीका नहीं है क्योंकि लस पैरामीट्रिक नहीं है)।

y <- diff(log(AirPassengers))
b <- stl(y, s.window="periodic")
apply(b$time.series, 2, var) / var(y)
#    seasonal       trend   remainder 
# 0.875463620 0.001959407 0.117832537 

सापेक्ष रूपांतरों से संकेत मिलता है कि मौसमी श्रृंखला की गतिशीलता को समझाने वाला मुख्य घटक है।


से भूखंड पर एक लापरवाह देखो stlभ्रामक हो सकता है। अच्छा रिटर्न पैटर्न stlहमें यह सोचने पर मजबूर कर सकता है कि डेटा में एक प्रासंगिक मौसमी पैटर्न की पहचान की जा सकती है, लेकिन करीब से पता चल सकता है कि वास्तव में ऐसा नहीं है। यदि उद्देश्य मौसमी की उपस्थिति पर निर्णय लेना है, तो कम सड़न प्रारंभिक दृष्टिकोण के रूप में उपयोगी हो सकता है लेकिन इसे अन्य उपकरणों के साथ पूरक होना चाहिए।


आपके एयरस्पेस यात्रियों के उदाहरण में, आउटपुट में आने का कोई रुझान नहीं है, जबकि प्लॉट (एयरपासर्स) पर एक स्पष्ट रुझान है। प्रवृत्ति 0.86 (केवल 0.1 के मौसमी के साथ) आती है अगर "अंतर (लॉग (एयरपासर्स)))" स्टेटमेंट हटा दिया जाता है। क्या किया जाए?
rnso

मैंने एक उदाहरण दिया जो संख्यात्मक रूप से स्पष्ट है। व्यवहार में, बस चिकने घटकों के विचरण की तुलना करके, मौसमी की उपस्थिति के बारे में किसी निष्कर्ष पर पहुंचने के लिए पर्याप्त नहीं हो सकता है। उदाहरण के लिए, जैसा कि आपने इस मामले में पाया है, यदि रुझान को मतभेदों को दूर नहीं किया जाता है, तो प्रवृत्ति का विचलन मौसमी घटक के विचरण पर हावी होता है। सवाल यह है कि क्या इस घटक को प्रासंगिक मानने के लिए 0.1 का सापेक्ष रूपांतर पर्याप्त है? समस्या यह है कि, लोस के आधार पर, यह जांचने के लिए एक सीधा तरीका नहीं है कि घटक का प्रसरण महत्वपूर्ण है या नहीं।
javlacalle

जैसा मैंने कहा, हमें इसमें क्या करना चाहिए और अन्य मामलों में मौसमी की उपस्थिति के परीक्षण के लिए अन्य तरीकों का उपयोग करना है। उदाहरण के लिए मेरे उत्तर के दूसरे भाग को यहाँ देखें । एक बार जब हमने यह निष्कर्ष निकाला है कि मौसमी डेटा में मौजूद है, तो हम इस घटक के पैटर्न को प्राप्त करने के लिए loess का उपयोग कर सकते हैं।
javlacalle

अधिक स्पष्टीकरण के लिए, सापेक्ष विचलन कैसे दिखाता है कि अपघटन का एक हिस्सा समग्र डेटा में कितना खेलता है? IE 70% मौसमी, 20% प्रवृत्ति। आदि
टेड मोस्बी

1
@TedMosby विचरण डेटा में परिवर्तनशीलता / फैलाव का एक उपाय है। घटकों के प्रकार (जैसे, प्रवृत्ति, मौसमी) और शेष के विचरण का योग मूल श्रृंखला के विचरण को जोड़ते हैं। इस तरह, मूल श्रृंखला के विचरण के साथ एक घटक के विचरण की तुलना करके, हम यह अनुमान लगा सकते हैं कि घटक कितना प्रासंगिक है (यानी, घटक द्वारा डेटा में परिवर्तनशीलता की कितनी व्याख्या की गई है)।
javlacalle

2

इसी तरह की एक नस में मैंने फ़ॉयर मॉडल के गैर-मौसमी डेटा का उपयोग देखा है, एक मौसमी संरचना को फिट और पूर्वानुमान मूल्यों में मजबूर किया है, जिससे एक समान (हांफता) परिणाम होता है। प्रकल्पित मॉडल को रखने से उपयोगकर्ता को यह पता चलता है कि वह क्या लगा रहा है / प्रकल्पित कर रहा है जो हमेशा ऐसा नहीं होता है जो अच्छा विश्लेषण सुझाएगा / वितरित करेगा।


1
stl()फूरियर विचारों पर आधारित नहीं है। यद्यपि मुझे अभी तक किसी को भी "नासमझ" विश्लेषण की वकालत करते हुए देखना है, ध्यान दें कि फिट किए गए किसी भी मॉडल परिवार को लगाया या माना जा सकता है। सवाल यह है कि कोई भी प्रक्रिया उपयोगकर्ताओं के लिए यह महसूस करने की गुंजाइश प्रदान करती है कि क्या यह किसी विशेष डेटासेट के लिए बुरी तरह से काम करता है या नहीं।
निक कॉक्स

@ नाइकॉक्स काफी सच है ....
आयरिशस्टैट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.