दो समय श्रृंखलाओं की सांख्यिकीय रूप से तुलना कैसे करें?


43

मेरे पास दो टाइम सीरीज़ हैं, जो नीचे दिए गए प्लॉट में दिखाई गई हैं:

समय श्रृंखला प्लॉट

कथानक दोनों समय श्रृंखलाओं का पूरा विवरण दिखा रहा है, लेकिन जरूरत पड़ने पर मैं इसे केवल संयोग से कम कर सकता हूं।

मेरा प्रश्न है: समय श्रृंखला के बीच के अंतर का आकलन करने के लिए मैं किन सांख्यिकीय तरीकों का उपयोग कर सकता हूं?

मुझे पता है कि यह एक काफी व्यापक और अस्पष्ट प्रश्न है, लेकिन मुझे इस पर कहीं भी बहुत अधिक परिचयात्मक सामग्री नहीं मिल सकती है। जैसा कि मैं इसे देख सकता हूं, आकलन करने के लिए दो अलग-अलग चीजें हैं:

1. क्या मूल्य समान हैं?

2. क्या रुझान समान हैं?

इन सवालों का आकलन करने के लिए आप किस तरह के सांख्यिकीय परीक्षणों का सुझाव देंगे? प्रश्न 1 के लिए मैं स्पष्ट रूप से विभिन्न डेटासेट के साधनों का आकलन कर सकता हूं और वितरण में महत्वपूर्ण अंतर देख सकता हूं, लेकिन क्या ऐसा करने का एक तरीका है जो डेटा की समय-श्रृंखला प्रकृति को ध्यान में रखता है?

प्रश्न 2 के लिए - क्या मान-केंडल परीक्षणों की तरह कुछ है जो दो रुझानों के बीच समानता की तलाश करता है? मैं दोनों डेटासेट के लिए मान-केंडल परीक्षण कर सकता था और तुलना कर सकता था, लेकिन मुझे नहीं पता कि क्या चीजें करने का एक वैध तरीका है, या क्या कोई बेहतर तरीका है?

मैं आर में यह सब कर रहा हूं, इसलिए यदि आपके द्वारा सुझाए गए परीक्षणों में आर पैकेज है तो कृपया मुझे बताएं।


9
कथानक अस्पष्ट प्रतीत होता है कि इन श्रृंखलाओं के बीच एक महत्वपूर्ण अंतर क्या हो सकता है: उन्हें विभिन्न आवृत्तियों पर नमूना लिया जा सकता है। काली रेखा (एरोनेट) को लगभग 20 बार और लाल रेखा (दृश्यता) को सैकड़ों बार या उससे अधिक बार नमूना किया गया लगता है। एक अन्य महत्वपूर्ण कारक नमूने की नियमितता, या इसके अभाव हो सकता है: एरोनेट टिप्पणियों के बीच का समय थोड़ा भिन्न होता है। सामान्य तौर पर, यह कनेक्टिंग लाइनों को मिटाने और वास्तविक डेटा के अनुरूप केवल बिंदुओं को प्रदर्शित करने में मदद करता है , ताकि दर्शक इन चीजों को नेत्रहीन रूप से निर्धारित कर सके।
whuber

यहां असमान रूप से समय श्रृंखला विश्लेषण के लिए एक पायथन लाइब्रेरी है।
kjetil b halvorsen

जवाबों:


27

जैसा कि दूसरों ने कहा है, आपको माप की एक सामान्य आवृत्ति (यानी टिप्पणियों के बीच का समय) की आवश्यकता है। उस जगह के साथ मैं एक सामान्य मॉडल की पहचान करूंगा जो प्रत्येक श्रृंखला का अलग-अलग वर्णन करेगा। यह एक ARIMA मॉडल या संभव स्तर की शिफ्ट या एक समग्र मॉडल हो सकता है जिसमें मेमोरी (ARIMA) और डमी चर दोनों को एकीकृत किया जा सकता है। इस आम मॉडल को विश्व स्तर पर और प्रत्येक दो श्रृंखलाओं के लिए अलग-अलग अनुमान लगाया जा सकता है और फिर कोई भी मापदंडों के एक सामान्य सेट की परिकल्पना का परीक्षण करने के लिए एफ परीक्षण का निर्माण कर सकता है।


1
खैर, आपको वास्तव में दोनों श्रृंखलाओं के लिए समान आवृत्ति की आवश्यकता नहीं है। यह सिर्फ इतना है कि इतना किराया अन्य मामलों के लिए बहुत कम सॉफ़्टवेयर है, लेकिन निशान देखें ।readthedocs.io/en/latest । ऐसा लगता है कि खगोल विज्ञान की पत्रिकाओं और वित्त और भूभौतिकी में अन्य मामलों के बारे में बहुत कुछ पबलीहेड है ... en.wikipedia.org/wiki/Unevenly_spaced_time_series
Kjetil b halvorsen

12

पर विचार करें grangertest()में lmtest पुस्तकालय।

यह देखने के लिए एक परीक्षण है कि क्या एक समय श्रृंखला दूसरे का अनुमान लगाने में उपयोगी है।

आपको शुरू करने के लिए कुछ संदर्भ:

https://spia.uga.edu/faculty_pages/monogan/teaching/ts/

https://spia.uga.edu/faculty_pages/monogan/teaching/ts/Kgranger.pdf

http://en.wikipedia.org/wiki/Granger_causality


1
उसका नमूना आकार <10 डेटापॉइंट बनाम उन मापदंडों की मात्रा के साथ बहुत छोटा होगा जिन्हें आपको ग्रेंजर में फिट करने की आवश्यकता है।
जस

1
@fionn, आपके उत्तर के लिंक मृत हैं। क्या आप अपना जवाब अपडेट कर सकते हैं?
जोसफोविक

0

बस इसी के साथ आया था। आपका पहला जवाब हमें दो साजिशों को देखने के लिए अंतर को देखने के लिए एक ही स्केल (टाइमवाइज) सेट करने की तैयारी कर रहा है। आपने यह कर लिया है और आसानी से देख सकते हैं कि कुछ स्पष्ट अंतर हैं। अगला कदम सरल सहसंबंध विश्लेषण का उपयोग करना है ... और देखें कि सहसंबंध गुणांक (आर) का उपयोग करके वे कितनी अच्छी तरह से संबंधित हैं। यदि आर छोटा है, तो आपका निष्कर्ष यह होगा कि वे कमजोर रूप से संबंधित हैं और इसलिए कोई वांछनीय तुलना नहीं है और यदि आर दो श्रृंखला के बीच अच्छी तुलना का सुझाव देते हैं तो एक बड़ा मूल्य होगा। तीसरा चरण जहां अच्छा सहसंबंध है, आर के सांख्यिकीय महत्व का परीक्षण करना है। यहां आप शापिरो वेल्च परीक्षण का उपयोग कर सकते हैं जो मान लेगा कि दो श्रृंखला सामान्य रूप से वितरित की गई हैं (शून्य परिकल्पना) या नहीं (वैकल्पिक परिकल्पना)। ऐसे अन्य परीक्षण हैं जो आप कर सकते हैं लेकिन मुझे आशा है कि मेरा उत्तर मदद करता है।


1
समय श्रृंखला की तुलना करते समय यह आटोक्लेररेशन है और संभवत: फिटिंग श्रृंखला श्रृंखला मॉडल। जैसे कि ARIMA मॉडल यह निर्धारित करने में मदद कर सकते हैं कि वे कितने समान हैं। एक ही स्टोकेस्टिक प्रक्रिया के दो अहसास जरूरी नहीं हैं जब उन्हें साजिश रचने के समान हो।
माइकल चेरिक

-2

पॉलीफ़िट का उपयोग करके दोनों समय श्रृंखला संकेतों के लिए एक सीधी रेखा फिट करें। फिर दोनों लाइनों के लिए रूट-मीन-स्क्वायर-एरर (RMSE) की गणना करें। रेड-लाइन के लिए प्राप्त मूल्य ग्रे लाइन के लिए प्राप्त की तुलना में काफी कम होगा।

कुछ सामान्य आवृत्ति पर रीडिंग भी बनाएं।


2
आपका स्वागत है क्रॉस वेलिडेट और आपके पहले उत्तर के लिए धन्यवाद! मैं हालांकि इस बात से चिंतित हूं कि आप सीधे सवाल का जवाब नहीं दे रहे हैं - प्रस्तावित दृष्टिकोण वास्तव में यह पूछने में मदद करेगा कि मान और / या रुझान समान हैं?
मार्टिन मोद्रक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.