टाइम सीरीज़ में मिसिंग वैल्यूज़ लगाने के लिए कलमन फ़िल्टर का उपयोग करना


12

मुझे इस बात में दिलचस्पी है कि कैसे कलामन फ़िल्टर का उपयोग टाइम सीरीज़ डेटा में गुम मूल्यों को लागू करने के लिए किया जा सकता है। क्या यह तब भी लागू होता है जब कुछ लगातार समय बिंदु गायब होते हैं? मुझे इस विषय पर बहुत कुछ नहीं मिल रहा है। किसी भी स्पष्टीकरण, टिप्पणियों और लिंक का स्वागत और सराहना की जाती है!


आपको इस पोस्ट में रुचि हो सकती है । यह कलमन फिल्टर के माध्यम से लापता मूल्यों को लागू करने के लिए एक ARIMA मॉडल के राज्य-अंतरिक्ष प्रतिनिधित्व के आधार पर एक उदाहरण देता है।
javlacalle

@javlacalle धन्यवाद, मैं पहले से ही इस पोस्ट को जानता था और यह एक ठोस कार्यान्वयन के लिए एक महान उदाहरण है। लेकिन मुझे सैद्धांतिक पृष्ठभूमि में दिलचस्पी है।
GS9

जवाबों:


9

अपराधियों: कलमन फ़िल्टरिंग :

कलमन फिल्टर फॉर्म के राज्य-स्थान के मॉडल पर काम करते हैं (इसे लिखने के कई तरीके हैं; यह डर्बिन और कोपमैन (2012) पर आधारित एक आसान है ; निम्नलिखित सभी उस पुस्तक पर आधारित है, जो उत्कृष्ट है):

yt=Zαt+εtεtN(0,H)αt1=Tαt+ηtηtN(0,Q)α1N(a1,P1)

जहां देखी गई श्रंखला है (संभवत: लापता मानों के साथ), लेकिन पूरी तरह से है। पहला समीकरण ("माप" समीकरण) कहता है कि मनाया गया डेटा एक विशेष तरीके से बिना पढ़े राज्यों से संबंधित है। दूसरा समीकरण ("संक्रमण" समीकरण) कहता है कि अप्रमाणित राज्य एक विशेष तरीके से समय के साथ विकसित होते हैं।ytαt

Kalman फ़िल्टर ( का इष्टतम अनुमान लगाने के लिए संचालित होता है जिसे सामान्य माना जाता है: , इसलिए फ़िल्टर वास्तव में जो करता है वह वितरण के लिए सशर्त माध्य और विचरण की गणना करना है। समय पर टिप्पणियों पर सशर्त )।αtαtαtN(at,Pt)αtt

विशिष्ट स्थिति में (जब अवलोकन उपलब्ध होते हैं) फ़िल्टर वर्तमान स्थिति के अनुमान का उपयोग करता है और वर्तमान अवलोकन सबसे अच्छा करने के लिए अगले राज्य का अनुमान लगा सकता है , इस प्रकार है:ytαt+1

at+1=Tat+Kt(ytZαt)Pt+1=TPt(TKtZ)+Q

जहाँ " लाभ" है।Kt

जब कोई अवलोकन नहीं होता है, तो कलमन फ़िल्टर अभी भी सर्वोत्तम तरीके से और गणना करना चाहता है । चूंकि अनुपलब्ध है, इसलिए यह माप समीकरण का उपयोग नहीं कर सकता है, लेकिन यह अभी भी संक्रमण समीकरण का उपयोग कर सकता है । इस प्रकार, जब गायब है, इसके बजाय फ़िल्टर की गणना करता है:at+1Pt+1ytyt

at+1=TatPt+1=TPtT+Q

अनिवार्य रूप से, यह कहता है कि दिए गए , मेरा सबसे अच्छा अनुमान बिना डेटा के में है, यह संक्रमण समीकरण में निर्दिष्ट विकास है। यह लापता डेटा के साथ किसी भी समय अवधि के लिए किया जा सकता है।αtαt+1

अगर वहाँ है डेटा , तो समीकरणों को छानने का पहला सेट डेटा के बिना सर्वोत्तम अनुमान लेते हैं, और पर कितना अच्छा पिछले अनुमान था आधारित में एक "सुधार" जोड़ने के लिए,।yt


विवादित डेटा :

एक बार जब कलमन फ़िल्टर पूरे समय सीमा पर लागू किया गया है, तो आपके पास लिए राज्यों का इष्टतम अनुमान है । माप समीकरण के माध्यम से इम्प्यूटिंग डेटा तब सरल होता है। विशेष रूप से, आप केवल गणना करते हैं:at,Ptt=1,2,,T

y^t=Zat

एक संदर्भ के लिए, डर्बिन और कोपमैन (2012) उत्कृष्ट हैं; खंड 4.10 लापता टिप्पणियों पर चर्चा करता है।

  • डर्बिन, जे।, और कोपमैन, एसजे (2012)। राज्य अंतरिक्ष विधियों (नंबर 38) द्वारा समय श्रृंखला विश्लेषण। ऑक्सफोर्ड यूनिवरसिटि प्रेस।

चिकनी समाधान का उपयोग करने से अधिक समझ में आता है (क्योंकि पहले से ही सभी (गैर-लापता) डेटा है, तो भविष्य के मूल्यों में जानकारी का उपयोग क्यों न करें)
Juho Kokkala

0

पोस्टिंग में जो उदाहरण javlacalle अपनी टिप्पणी में बताते हैं वह लगातार लापता समय बिंदुओं को प्रदर्शित करता है। आप प्रतिरूप (इन-सैंपल फोरकास्ट) मानों के आस-पास के अंतराल में भी रुचि ले सकते हैं, जिसकी गणना इस स्टेट स्पेस पेपर में खंड 2.1 में दिखाई देती है ।

एक और पेपर जो दिलचस्प हो सकता है वह यह है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.