डेटा में मौसमी का पता लगाने के लिए किस पद्धति का उपयोग किया जा सकता है?


56

मैं उन आंकड़ों में मौसमी का पता लगाना चाहता हूं जो मुझे प्राप्त हैं। कुछ विधियाँ हैं जो मुझे मौसमी सबज़रीज प्लॉट और ऑटोक्रेलेशन प्लॉट की तरह मिली हैं, लेकिन बात यह है कि मुझे समझ नहीं आ रहा है कि ग्राफ को कैसे पढ़ें, क्या कोई मदद कर सकता है? दूसरी बात यह है कि क्या ग्राफ़ में अंतिम परिणाम के साथ या इसके बिना मौसमी का पता लगाने के अन्य तरीके हैं?


1
आप वास्तविक ग्राफ को शामिल कर सकते हैं जिसे समझने में आपको परेशानी हो रही है।
कार्ल

अधिमानतः मूल डेटा जो "परेशानी" ACF उत्पन्न करने के लिए उपयोग किया जा सकता है।
आयरिशस्टैट


1
देखें: journalnals.ametsoc.org/doi/abs/10.1175/JCLI-D-10-05012.1 कियान, सी।, जेड वू, सी फू और डी वांग, 2011: अल नीनो बदलने पर: समय-बदलती वार्षिक से एक दृश्य चक्र, पारस्परिक परिवर्तनशीलता और माध्य अवस्था। जे। जलवायु, 24 (24), 6486-6500

जवाबों:


70

डेटा की किसी भी नियमित श्रृंखला में आवधिकता का पता लगाने का एक अच्छा तरीका किसी भी समग्र प्रवृत्ति को हटाने के बाद अपने पावर स्पेक्ट्रम का निरीक्षण करना है । (यह पूरी तरह से स्वचालित स्क्रीनिंग के लिए अच्छी तरह से उधार देता है जब कुल शक्ति को एक मानक मूल्य के लिए सामान्यीकृत किया जाता है, जैसे कि एकता।) प्रारंभिक व्यवहार को हटाने और (धारावाहिक सहसंबंध को हटाने के लिए वैकल्पिक भिन्नता) अन्य व्यवहारों के साथ भ्रमित अवधि से बचने के लिए आवश्यक है।

पावर स्पेक्ट्रम मूल श्रृंखला के उचित रूप से सुचारू संस्करण के ऑटोकोविरियन फ़ंक्शन का असतत फूरियर रूपांतरण है। यदि आप एक भौतिक तरंग के नमूने के रूप में समय श्रृंखला के बारे में सोचते हैं, तो आप अनुमान लगा सकते हैं कि प्रत्येक आवृत्ति के भीतर तरंग की कुल शक्ति कितनी होती है। पावर स्पेक्ट्रम (या पीरियोडोग्राम ) पावर बनाम फ्रीक्वेंसी को प्लॉट करता है। चक्रीय (यानी, दोहराव या मौसमी पैटर्न) उनकी आवृत्तियों पर स्थित बड़े स्पाइक्स के रूप में दिखाई देंगे।

एक उदाहरण के रूप में, एक वर्ष (365 मूल्यों) के लिए ली गई दैनिक माप से अवशिष्टों की इस (सिम्युलेटेड) समय श्रृंखला पर विचार करें।

अवशिष्टों की श्रृंखला

0

यहां एक ही डेटा का एक और प्लॉट है, जो हमें संभव आवधिक पैटर्न देखने में मदद करने के लिए तैयार है।

अवशेषों की श्रृंखला, 0 से भरा

यदि आप वास्तव में कठिन दिखते हैं , तो आप 11 से 12 बार होने वाले एक शोर लेकिन दोहराव वाले पैटर्न को समझने में सक्षम हो सकते हैं। ऊपर-शून्य और नीचे-शून्य मानों के लंबे-लंबे क्रम कुछ सकारात्मक ऑटोक्रेलेशन का सुझाव देते हैं, यह श्रृंखला पूरी तरह से यादृच्छिक नहीं है।

यहाँ अवधि, 91 (कुल श्रृंखला लंबाई का एक-चौथाई) तक आवृत्तियों के लिए दिखाया गया है। यह एक वेल्च खिड़की के साथ बनाया गया था और इकाई क्षेत्र के लिए सामान्यीकृत किया गया था (पूरे अवधि के लिए, न कि केवल यहां दिखाया गया हिस्सा)।

periodogram

बिजली "सफेद शोर" (छोटे यादृच्छिक उतार-चढ़ाव) और दो प्रमुख स्पाइक्स की तरह दिखती है। उन्हें याद करना मुश्किल है, क्या वे नहीं हैं? बड़ा 12 की अवधि में होता है और 52 की अवधि में छोटा होता है। इस पद्धति ने इन आंकड़ों में एक मासिक चक्र और एक साप्ताहिक चक्र का पता लगाया है । वास्तव में यही सब कुछ है। चक्रों ("सीज़न") का पता लगाने के लिए, अपेक्षाकृत बड़ी मैक्सिमा के लिए केवल पीरियडोग्राम (जो मूल्यों की सूची है) को स्कैन करें।

यह प्रकट करने का समय है कि ये डेटा कैसे बनाए गए थे।

सिग्नल प्लस शोर में डेटा विघटित हो गया

मान दो साइन तरंगों के योग से उत्पन्न होते हैं, जिनमें से आवृत्ति 12 (वर्ग आयाम 3/4 की) और दूसरी आवृत्ति 52 (वर्ग आयाम 1/4 की) के साथ होती है। ये वही हैं जो पीरियडोग्राम में स्पाइक्स का पता चला है। उनकी राशि को मोटी काली वक्र के रूप में दिखाया गया है। विचरण 2 के सामान्य सामान्य शोर को तब जोड़ा गया था, जैसा कि काले ग्रे से लाल डॉट्स तक फैली हुई हल्के भूरे रंग की पट्टियों द्वारा दिखाया गया है। इस शोर ने पीरियडोग्राम के निचले स्तर के निचले हिस्सों को पेश किया, जो अन्यथा सिर्फ एक फ्लैट होगा। मूल्यों में कुल भिन्नता का पूरी तरह से दो-तिहाई गैर-आवधिक और यादृच्छिक है, जो बहुत शोर है: यही कारण है कि इतना मुश्किल सिर्फ डॉट्स को देखकर आवधिकता को बाहर करना है। फिर भी (भाग में, क्योंकि इतना डेटा है) पीरियडोग्राम के साथ आवृत्तियों को ढूंढना आसान है और परिणाम स्पष्ट है।

संख्यात्मक पीरियड्स साइट पर कंप्यूटिंग पीरियड्स के लिए निर्देश और अच्छी सलाह : एफएफटी का उपयोग करते हुए "पावर स्पेक्ट्रम आकलन" पर अनुभाग देखें। Rहै periodogram आकलन के लिए कोड । इन चित्रों को गणितज्ञ 8 में बनाया गया था ; पीरियडोग्राम की गणना "फूरियर" के साथ की गई थी।


2
"किसी भी समग्र प्रवृत्ति को हटाने के बाद" धारणा एच्लीस हील है क्योंकि कई समय के रुझान हो सकते हैं, कई स्तर के बदलाव जो आपके उदाहरण में शामिल नहीं किए गए थे। यह विचार है कि इनपुट श्रृंखला प्रकृति में निर्धारक हैं संभव के चेहरे पर मक्खियों मौसमी और नियमित ARIMA संरचना की उपस्थिति। अनुपचारित असामान्य समय-सीमा मान किसी भी पीरियडोग्राम-आधारित पहचान योजना को विकृत कर देगा, जो कि पीरियड्स के अनुमान से कम होने वाले पूर्वाग्रह के कारण पीरियड्स के आधार पर घटता है। यदि साप्ताहिक और / या मासिक प्रभाव अतीत में कुछ बिंदु पर बदल गया तो पीरियोड-आधारित प्रक्रिया विफल हो जाएगी
आयरिशस्टैट

@ मुझे लगता है कि आपकी टिप्पणी कुछ हद तक अतिशयोक्ति हो सकती है। यह "असामान्य वन-टाइम वैल्यूज़" (उर्फ आउटलेर्स) के लिए देखने और इलाज करने के लिए सबसे प्राथमिक है, इसलिए यह केवल इस बात पर जोर देने के लिए उल्लेख करता है कि कुछ समय सीरीज़ के अनुमानक आउटलेर्स के प्रति संवेदनशील हो सकते हैं। "प्रकृति में नियतात्मक" मूल विचारों को गलत तरीके से प्रस्तुत करता है: कोई भी नहीं जानता कि नियतत्ववाद है (जैसा कि सिमुलेशन में शोर की भारी मात्रा से स्पष्ट है)। सिमुलेशन एक निश्चित आवधिक संकेत को एक मॉडल के रूप में शामिल करता है - वास्तविकता में अनुमानित मॉडल - केवल अवधि और मौसम के बीच संबंध को स्पष्ट करने के लिए। (जारी ...)
whuber

2
हां, मौसमी में परिवर्तन पीरियडोग्राम (और एसीएफ, आदि) को अस्पष्ट कर सकते हैं, विशेष रूप से आवृत्ति में परिवर्तन (संभावना नहीं) या चरण (संभव)। मेरी पोस्ट के संदर्भों को संभालने के लिए एक समाधान दिया गया है: वे पीरियोडोग्राम आकलन के लिए एक चलती खिड़की का उपयोग करने की सलाह देते हैं । इसके लिए एक कला है, और स्पष्ट रूप से नुकसान हैं, इसलिए जब आप वकालत करते हैं तो बहुत समय श्रृंखला विश्लेषण से विशेषज्ञ उपचार से लाभ होगा। लेकिन सवाल पूछता है कि क्या "मौसमी का पता लगाने के अन्य तरीके" हैं और निर्विवाद रूप से पीरियड्स एक सांख्यिकीय रूप से शक्तिशाली, कम्प्यूटेशनल रूप से कुशल, आसानी से व्याख्या योग्य विकल्प है।
whuber

मेरी दुनिया में साइन / कोसाइन का उपयोग कर वर्ष के महीने के महीनों की तरह "नियतात्मक प्रभाव" होता है। किसी भी पूर्व-निर्दिष्ट मॉडल को फिट करना उपयोगकर्ता-निर्दिष्ट पैटर्न के लिए फिट किए गए मानों को प्रतिबंधित करता है, अक्सर उप-मानक। डेटा को "सुने" के रूप में विश्लेषक / उन्नत कंप्यूटर सॉफ्टवेयर को निश्चित और स्टोकेस्टिक इनपुट के बीच प्रभावी ढंग से विचार करने में मदद करने के लिए होना चाहिए। नायब मैं ARIMA लैग संरचनाओं को स्टोचस्टिक या एडेप्टिव "ड्राइवरों" के रूप में संदर्भित करता हूं क्योंकि इतिहास में परिवर्तन के लिए समायोजित / अनुकूल करने के रूप में "चालकों" का उपयोग किया जाता है। श्रृंखला का। मेरी राय में
पीरियडोग्राम

2
@whuber एक ही चीज़ को दोहराना उपयोगी नहीं हो सकता है। हालाँकि, यह अच्छा हो सकता है कि स्प्रेड को ठीक करने के लिए पीरियडोग्राम के नीचे पैराग्राफ को ठीक किया जाए क्योंकि स्पाइक्स "प्रति वर्ष 12 और 52 बार की आवृत्ति" पर स्थित होते हैं, न कि "अवधि" के। "अवधि" के बजाय "फ़्रीक्वेंसी" कहने के लिए प्लॉट को ठीक करना भी अच्छा हो सकता है यदि आपको लगता है कि यह बहुत कष्टप्रद नहीं है।
सेलेलिबी

19

यहां न्यू जर्सी में एक शहर से लॉग बेरोजगारी के दावों पर मासिक डेटा का उपयोग करके एक उदाहरण है (केवल स्टाटा से, क्योंकि यही मैंने मूल रूप से इन आंकड़ों का विश्लेषण किया है)। मौसमी ACF

लाइनों की ऊँचाई एक चर और स्वयं के sth अंतराल के बीच सहसंबंध को दर्शाती है; ग्रे क्षेत्र आपको यह समझ देता है कि क्या यह सहसंबंध महत्वपूर्ण है (यह सीमा केवल एक मार्गदर्शक है और महत्व का परीक्षण करने का सबसे विश्वसनीय तरीका नहीं है)। यदि यह सहसंबंध अधिक है, तो सीरियल संबंध का प्रमाण है। 12, 24, और 36 के आस-पास होने वाले कूबड़ पर ध्यान दें। चूंकि यह मासिक डेटा है, इससे यह पता चलता है कि जब आप पीरियड्स को 1, 2 या 3 साल पहले देखते हैं, तो सहसंबंध मजबूत हो जाता है। यह मासिक ऋतुचक्र का प्रमाण है।

आप मौसमी घटक --- यहाँ, महीने की डमी को दर्शाते हुए डमी वैरिएबल पर वैरिएबल को पुनः प्राप्त करके इन संबंधों को सांख्यिकीय रूप से परख सकते हैं। आप सीज़न के लिए परीक्षण करने के लिए उन डमीज़ के संयुक्त महत्व का परीक्षण कर सकते हैं।

यह प्रक्रिया काफी सही नहीं है, क्योंकि परीक्षण के लिए यह आवश्यक है कि त्रुटि शब्द क्रमिक रूप से सहसंबद्ध न हों। इसलिए, इन सीज़नसिटी डमीज़ का परीक्षण करने से पहले, हमें शेष सीरियल सहसंबंध (आमतौर पर चर के अंतराल सहित) को हटाने की आवश्यकता है। दालों, ब्रेक, और अन्य सभी समय श्रृंखला की समस्याएं हो सकती हैं जिन्हें आपको परीक्षण से उचित परिणाम प्राप्त करने के लिए सही करने की आवश्यकता है। आपने उन लोगों के बारे में नहीं पूछा, इसलिए मैं विस्तार में नहीं जाऊंगा (इसके अलावा, उन विषयों पर बहुत सारे सीवी प्रश्न हैं)। (बस अपनी जिज्ञासा को खिलाने के लिए, इस श्रृंखला में महीने के डमी, खुद के एक ही अंतराल, और धारावाहिक संबंध से छुटकारा पाने के लिए एक शिफ्ट घटक की आवश्यकता है।)


4

समय के साथ मौसमी परिवर्तन हो सकता है और इस प्रकार संरचना का पता लगाने के लिए सारांश उपाय काफी अपर्याप्त हो सकते हैं। ARIMA गुणांकों में क्षणिकता के लिए परीक्षण करने की आवश्यकता है और अक्सर "मौसमी डमीज़" में परिवर्तन होता है। उदाहरण के लिए 10 साल के क्षितिज में पहले के वर्षों के लिए जून प्रभाव नहीं हो सकता है, लेकिन पिछले 10-के वर्षों में एक जून प्रभाव का प्रमाण है। एक साधारण मिश्रित जून प्रभाव गैर-महत्वपूर्ण हो सकता है क्योंकि प्रभाव समय के साथ स्थिर नहीं था। इसी तरह से एक मौसमी ARIMA घटक भी बदल सकता है। स्थानीय स्तर की बदलावों और स्थानीय समय के रुझानों को शामिल करते हुए देखभाल की जानी चाहिए, यह सुनिश्चित करते हुए कि त्रुटियों का विचलन समय के साथ स्थिर रहा है। किसी को जीएलएस / भारित वर्गों या लॉग्स / वर्गमूल जैसे बिजली परिवर्तनों का मूल्यांकन नहीं करना चाहिए। मूल डेटा पर लेकिन एक अस्थायी मॉडल से त्रुटियों पर। गॉसियन मान्यताओं का अवलोकन डेटा के साथ कुछ भी नहीं करना है, लेकिन सभी मॉडल से त्रुटियों के साथ करना है। यह सांख्यिकीय परीक्षणों के आधार के कारण होता है जो केंद्रीय ची-वर्ग चर में गैर-केंद्रीय ची-वर्ग चर के अनुपात का उपयोग करते हैं।

यदि आप अपनी दुनिया से एक उदाहरण श्रृंखला पोस्ट करना चाहते हैं, तो मुझे आपको और सूची को मौसमी संरचना का पता लगाने के लिए गहन विश्लेषण प्रदान करने में खुशी होगी।


1

चार्ली का जवाब अच्छा है, और यह वह जगह है जहाँ मैं शुरू करूँगा। यदि आप ACF रेखांकन का उपयोग नहीं करना चाहते हैं, तो आप वर्तमान समय के लिए k-1 डमी चर बना सकते हैं। फिर आप देख सकते हैं कि डमी वैरिएबल डमी चर के साथ एक प्रतिगमन में महत्वपूर्ण हैं (और एक प्रवृत्ति अवधि की संभावना है)।

यदि आपका डेटा त्रैमासिक है: डमी Q2 1 है यदि यह दूसरी तिमाही है, तो 0 डमी क्यू 3 1 है यदि यह तीसरी तिमाही है, तो 0 डमी क्यू 4 1 है अगर यह चौथी तिमाही है, तो 0 से अधिक 1 नोट क्वार्टर 1 है। आधार मामला (सभी 3 डमी शून्य)

आप मिनिटैब में "टाइम सीरीज़ अपघटन" भी देख सकते हैं - जिसे अक्सर "शास्त्रीय अपघटन" कहा जाता है। अंत में, आप कुछ और आधुनिक उपयोग करना चाह सकते हैं, लेकिन यह शुरू करने के लिए एक सरल स्थान है।


0

मैं अपनी वास्तविक विश्व उदाहरण श्रृंखला में आयरिशस्टैट उपयोगकर्ता या किसी और से मदद का प्रस्ताव लेना चाहूंगा। मैं कच्चे तेल के वायदा कीमतों के अंतिम 5 वर्षों के आधार पर एक मौसमी सूचकांक का उत्पादन करने की कोशिश कर रहा हूं। मैंने एक साधारण औसत मौसमी का उत्पादन करने के लिए प्रबंधन किया है जिसे यहां देखा जा सकता है

हालांकि, मैं एक वार्षिक वार्षिक मौसमी ग्राफ को पुन: प्रस्तुत करना चाहूंगा (मैं अनुमान लगा रहा हूं कि रोलिंग का अर्थ वर्ष के लिए शुरुआत और अंत एक ही मूल्य है) और शून्य से 100 के पैमाने पर है जैसा कि चित्र bellow में दिखाया गया है: यहाँ छवि विवरण दर्ज करें

थ्रेडशीट में दैनिक मूल्य स्तर के डेटा की 15 वर्ष की सीमाएँ डाउनलोड की जा सकती हैं। उदाहरण या किसी भी संकेत पर कि कैसे ऊपर प्राप्त करने के लिए बहुत सराहना की जाएगी।


-1

मैं अपने आप को आर के लिए थोड़ा नया हूं, लेकिन एसीएफ फ़ंक्शन के बारे में मेरी समझ यह है कि यदि ऊर्ध्वाधर रेखा शीर्ष धराशायी रेखा से ऊपर या नीचे धराशायी रेखा से ऊपर जाती है, तो कुछ ऑटोरेर्गन (मौसमी सहित) है। साइन का वेक्टर बनाने का प्रयास करें।


फिटिंग साइन / कोजाइन आदि कुछ भौतिक / विद्युत समय श्रृंखला के लिए उपयोगी हो सकते हैं, लेकिन आपको MSB, मॉडल विनिर्देशन पूर्वाग्रह के बारे में पता होना चाहिए।
आयरिशस्टैट

1
निरंकुशता का अर्थ मौसमीता नहीं है।
जेन्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.