समय श्रृंखला में लापता डेटा कैसे भरें?


16

मेरे पास प्रदूषण के आंकड़ों का एक बड़ा समूह है जो 2 साल के कोर्स के लिए हर 10 मिनट में रिकॉर्ड किया गया है, हालांकि डेटा में कई अंतराल हैं (कुछ में जो एक समय में कुछ हफ्तों के लिए जाते हैं)।

डेटा काफी मौसमी प्रतीत होता है और रात की तुलना में दिन के दौरान एक बड़ा बदलाव होता है जिसमें मूल्यों में अधिक भिन्नता नहीं होती है और डेटा बिंदु कम होते हैं।

मैंने दिन के समय और रात के समय को अलग-अलग करने के लिए एक loess मॉडल को अलग करने पर विचार किया है (जैसा कि उनके बीच एक स्पष्ट अंतर है) और फिर लापता डेटा के मूल्यों की भविष्यवाणी करना और इन बिंदुओं को भरना।

मैं सोच रहा था कि क्या यह इस समस्या से निपटने का एक उपयुक्त तरीका है, और यह भी कि अगर अनुमानित अंकों में स्थानीय भिन्नता को जोड़ने की आवश्यकता है।

जवाबों:


20

इसका जवाब आपके अध्ययन के डिजाइन (जैसे, क्रॉस-सेक्शनल टाइम सीरीज़; कोहोर्ट टाइम सीरीज़, सीरियल कॉर्टोर्ट्स टाइम सीरीज़?) पर निर्भर करेगा। ऑनरेकर और किंग ने एक दृष्टिकोण विकसित किया है जो क्रॉस-सेक्शनल टाइम सीरीज़ के लिए उपयोगी है (संभवतः आपकी मान्यताओं के आधार पर, सीरियल कोहॉर्ट्स टाइम सीरीज़ के लिए उपयोगी है), जिसमें इस तरह के डेटा को इंप्रूव करने के लिए आर पैकेज अमेलिया II भी शामिल है । इस बीच स्प्रैट एंड को। एक अलग दृष्टिकोण का वर्णन किया है जिसका उपयोग कुछ कोहर्ट टाइम श्रृंखला डिजाइनों में किया जा सकता है, लेकिन सॉफ्टवेयर कार्यान्वयन पर विरल है।

एक क्रॉस-सेक्शनल टाइम सीरीज़ डिज़ाइन (उर्फ पैनल स्टडी डिज़ाइन) वह है जिसमें एक जनसंख्या (ओं) को बार-बार सैंपल किया जाता है (जैसे, हर साल), एक ही स्टडी प्रोटोकॉल (उदाहरण के लिए, एक ही वेरिएबल, इंस्ट्रूमेंट, आदि) का उपयोग करना। )। यदि नमूनाकरण रणनीति प्रतिनिधि है, तो इस प्रकार के डेटा अध्ययन में प्रत्येक आबादी के लिए उन चर के वितरण का एक वार्षिक चित्र (प्रति प्रतिभागी या विषय) का उत्पादन करते हैं।

एक कॉरहोट टाइम सीरीज़ डिज़ाइन (उर्फ कोहोर्ट्स स्टडी डिज़ाइन, अनुदैर्ध्य अध्ययन डिज़ाइन, जिसे कभी-कभी एक पैनल स्टडी डिज़ाइन भी कहा जाता है) दोहराया जाता है, जिसमें से एक है विश्लेषण की अलग-अलग इकाइयाँ एक बार नमूना लेती हैं और एक लंबे समय तक चलती हैं। व्यक्तियों को एक या अधिक आबादी से प्रतिनिधि फैशन में नमूना लिया जा सकता है। हालाँकि, एक प्रतिनिधि कोहोर्ट टाइम सीरीज़ का नमूना समय बीतने के साथ लक्ष्य आबादी (कम से कम मानव आबादी में) का एक तेजी से गरीब प्रतिनिधि बन जाएगा , क्योंकि लोग पैदा होते हैं या लक्ष्य की आबादी में उम्र बढ़ने के साथ, और इससे बाहर मर जाते हैं या उम्र बढ़ने लगते हैं। आव्रजन और उत्प्रवास के साथ।

एक सीरियल कोहॉर्ट्स टाइम सीरीज़ डिज़ाइन (उर्फ दोहराया, मल्टी-, और मल्टीपल कॉहोर्ट्स, या पैनल स्टडी डिज़ाइन) वह है जिसमें एक जनसंख्या (ओं) को बार-बार सैंपल किया जाता है (जैसे, हर साल), उसी स्टडी प्रोटोकॉल का उपयोग करके ( उदाहरण के लिए, समान चर, उपकरण, आदि), जो परिवर्तन की दर के उपाय बनाने के लिए अवधि के दौरान (जैसे, वर्ष के दौरान) दो लोगों की आबादी के भीतर विश्लेषण की अलग-अलग इकाइयों को मापता है। यदि नमूनाकरण रणनीति प्रतिनिधि है, तो इस प्रकार के डेटा अध्ययन में प्रत्येक आबादी के लिए उन चरों में परिवर्तन की दरों की वार्षिक तस्वीर तैयार करते हैं।

संदर्भ
Honaker, जे और राजा, जी (2010)। समय-श्रृंखला क्रॉस-सेक्शन डेटा में लापता मानों के बारे में क्या करना हैअमेरिकन जर्नल ऑफ पॉलिटिकल साइंस , 54 (2): 561-581।

स्प्रैट, एम।, बढ़ई, जे। स्टर्न, जेएसी, कार्लिन, जेबी, हेरोन, जे।, हेंडरसन, जे। और टिलिंग, के। (2010)। अनुदैर्ध्य अध्ययन में कई आरोपण के लिए रणनीतियाँअमेरिकन जर्नल ऑफ एपिडेमियोलॉजी , 172 (4): 478-4876।


आपके जवाब के लिए धन्यवाद। यदि आप इस प्रकार के अध्ययन के लिए अपेक्षाकृत नए हैं और इससे पहले इन पदों पर नहीं आए हैं तो मैं सोच रहा था कि क्या आप विभिन्न प्रकार की टाइम सीरीज़ (कॉहोर्ट, क्रॉस-सेक्शनल इत्यादि) को परिभाषित कर सकते हैं।
जेम्सम 131

@ Jamesm131 मेरा संपादित उत्तर देखें।
एलेक्सिस

7

आप R में imputeTS पैकेज का उपयोग कर सकते हैं । मेरा मानना ​​है कि आप जिस डेटा पर काम कर रहे हैं, वह uni-varate time series है। imputeTS पैकेज (univariate) टाइम सीरीज़ imputation पर माहिर है। यह कई अलग-अलग इंपोटेशन एल्गोरिथ्म कार्यान्वयन प्रदान करता है। प्रतिरूपण एल्गोरिदम से परे पैकेज भी लापता डेटा आँकड़ों के प्लॉटिंग और प्रिंटिंग फ़ंक्शंस प्रदान करता है। वैसे मैं आपको मिसिंग वैल्यू के लिए स्टेट स्पेस मॉडल देखने की सलाह देता हूं । इस पैकेज में आपको अपने विश्लेषण में मदद करनी चाहिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.