समय श्रृंखला से कैसे निपटें जो मौसम या अन्य पैटर्न में बदलती हैं?


22

पृष्ठभूमि

मैं ऊर्जा मीटर रीडिंग के एक समय श्रृंखला डेटा सेट पर काम कर रहा हूं। श्रृंखला की लंबाई मीटर से भिन्न होती है - कुछ के लिए मेरे पास कई साल हैं, अन्य केवल कुछ महीने हैं, आदि कई महत्वपूर्ण मौसमीता प्रदर्शित करते हैं, और अक्सर कई परतें - दिन, सप्ताह या वर्ष के भीतर।

जिन चीजों पर मैं काम कर रहा हूं उनमें से एक इन टाइम सीरीज़ की क्लस्टरिंग है। मेरा काम फिलहाल अकादमिक है, और जब मैं डेटा का अन्य विश्लेषण भी कर रहा हूं, तो मेरे पास कुछ क्लस्टरिंग करने के लिए एक विशिष्ट लक्ष्य है।

मैंने कुछ प्रारंभिक कार्य किए, जहाँ मैंने विभिन्न विशेषताओं (वीकेंड्स पर उपयोग किए जाने वाले प्रतिशत बनाम कार्यदिवस, अलग-अलग समय ब्लॉकों में उपयोग किए जाने वाले प्रतिशत आदि) की गणना की। मैं तब अलग-अलग श्रृंखलाओं के बीच की दूरी, और अंतर मूल्यों के आधार पर क्लस्टरिंग प्राप्त करने के लिए डायनामिक टाइम वार्पिंग (DTW) का उपयोग करने के लिए आगे बढ़ा, और मुझे इससे संबंधित कई कागजात मिले हैं।

सवाल

क्या एक विशिष्ट श्रृंखला में मौसमी बदलाव से मेरी क्लस्टरिंग गलत हो जाएगी? और यदि हां, तो मैं इससे कैसे निपटूं?

मेरी चिंता यह है कि DTW द्वारा प्राप्त की गई दूरियां उन मामलों में भ्रामक हो सकती हैं जिनमें समय श्रृंखला में पैटर्न बदल गया है। इससे गलत क्लस्टरिंग हो सकती है।

उपरोक्त स्पष्ट होने पर, इन उदाहरणों पर विचार करें:

उदाहरण 1

एक मीटर में मध्यरात्रि से 8 बजे तक कम रीडिंग होती है, फिर रीडिंग अगले घंटे के लिए तेजी से बढ़ जाती है और 9AM से 5PM तक उच्च रहती है, फिर अगले घंटे में तेजी से घट जाती है और फिर 6PM से आधी रात तक कम रहती है। मीटर इस पैटर्न को लगातार हर महीने कई महीनों तक जारी रखता है, लेकिन फिर एक ऐसे पैटर्न में बदल जाता है जहां रीडिंग बस पूरे दिन एक सुसंगत स्तर पर रहती है।

उदाहरण 2

एक मीटर हर महीने लगभग समान मात्रा में ऊर्जा का उपभोग करता है। कई वर्षों के बाद, यह एक ऐसे पैटर्न में बदल जाता है, जहां सामान्य राशि पर लौटने से पहले गर्मी के महीनों के दौरान ऊर्जा का उपयोग अधिक होता है।

संभव निर्देश

  • मुझे आश्चर्य है कि क्या मैं पूरे समय की श्रृंखला की तुलना करना जारी रख सकता हूं, लेकिन उन्हें विभाजित करें और उन्हें एक अलग श्रृंखला के रूप में मानें यदि पैटर्न काफी बदलता है। हालाँकि, ऐसा करने के लिए मुझे ऐसे परिवर्तनों का पता लगाने में सक्षम होना चाहिए। इसके अलावा, मुझे अभी पता नहीं है कि यह एक उपयुक्त तरीका है या डेटा के साथ काम कर रहा है।
  • मैंने डेटा को विभाजित करने और इसे कई अलग-अलग समय श्रृंखलाओं के रूप में भी माना है। उदाहरण के लिए, मैं हर दिन / मीटर संयोजन को एक अलग श्रृंखला के रूप में मान सकता था। हालाँकि, अगर मैं साप्ताहिक / मासिक / वार्षिक पैटर्न पर विचार करना चाहता हूँ तो मुझे भी ऐसा ही करने की आवश्यकता है। मुझे लगता है कि यह काम करेगा, लेकिन यह संभावित रूप से काफी महत्वपूर्ण है और मुझे इस रास्ते से नीचे जाने से नफरत होगी अगर कोई बेहतर तरीका है जो मुझे याद आ रहा है।

आगे के नोट

ये ऐसी चीजें हैं जो टिप्पणियों में आई हैं, या जिन चीजों के बारे में मैंने टिप्पणियों के कारण सोचा है, वे प्रासंगिक हो सकती हैं। मैं उन्हें यहाँ रख रहा हूँ ताकि लोगों को प्रासंगिक जानकारी प्राप्त करने के लिए सब कुछ न पढ़ना पड़े।

  • मैं पायथन में काम कर रहा हूं, लेकिन उन जगहों के लिए खस्ता है जहां आर अधिक उपयुक्त है। मैं जरूरी नहीं कि एक पायथन जवाब की तलाश कर रहा हूं - अगर किसी के पास इसका व्यावहारिक जवाब है कि मुझे क्या करना चाहिए तो मुझे कार्यान्वयन विवरण का पता लगाने में खुशी होगी।
  • मेरे पास बहुत सारे "रफ ड्राफ्ट" कोड काम कर रहे हैं - मैंने कुछ DTW रन किए हैं, मैंने विभिन्न प्रकार के क्लस्टरिंग के एक जोड़े को किया है, आदि मुझे लगता है कि मैं काफी हद तक उस दिशा को समझता हूं जो मैं ले रहा हूं, और मैं ' मी वास्तव में इस बात से संबंधित है कि मैं दूरी खोजने, क्लस्टरिंग चलाने आदि से पहले अपने डेटा को कैसे संसाधित करता हूं, यह देखते हुए, मुझे संदेह है कि उत्तर वही होगा जो श्रृंखला के बीच की दूरी की गणना डीटीडब्ल्यू या एक सरल यूक्लिडियन दूरी (ईडी) के माध्यम से की जाती है।
  • मुझे ये पेपर विशेष रूप से टाइम सीरीज़ और DTW पर सूचनात्मक लगे हैं और यदि विषय क्षेत्र के लिए कुछ पृष्ठभूमि की आवश्यकता हो तो वे मददगार हो सकते हैं: http://www.cs.ucr.edu/~eamonn/selected_publications.htm

+1 बहुत अच्छा सवाल है, और यह बहुत उत्साह देखने के लिए बहुत अच्छा है! मुझे लगता है कि आप अपने सवाल को थोड़ा कम कर सकते हैं, इसलिए दूसरों को पढ़ने के लिए आमंत्रित करना अधिक है, और फिर आपको जवाब देना चाहिए।
रुबेंस

@Rubens धन्यवाद! जब मैं आज शाम को घर आऊंगा, तब मैं फिर से काम करूंगा। मैं देख सकता हूं कि इस बिंदु पर और इस बात के बारे में कुछ और जानकारी शामिल करना उपयोगी होगा कि मैंने यह कैसे और क्यों किया है। मैं इसे बहुत लंबा होने के बारे में चिंतित था, लेकिन मैं पृष्ठभूमि को अलग कर दूंगा और इसे अपठनीय होने से बचाने के लिए थोड़ा और सवाल करूंगा।
जो डोकलाम

यह एक "शुद्ध आँकड़े" प्रश्न नहीं हो सकता है लेकिन इसे शुद्ध आँकड़ों के उत्तर की आवश्यकता है। आप तब तक संघर्ष करेंगे जब तक कि आप इसके बारे में शुद्ध सांख्यिकी शब्दों में नहीं सोच सकते।
स्पेल्डमैन

@Spacedman - जो भी तरीके से लोगों को लगता है कि मैं इसका उत्तर देने का स्वागत करता हूं, इसका जवाब देने का सबसे अच्छा तरीका है कि मेरे पास आगे के प्रश्न हो सकते हैं यदि उत्तर सूत्रों पर भारी है या सांख्यिकीय अवधारणाओं के संदर्भ में जो मुझे अभी तक समझ में नहीं आए हैं।
जो डोकलाम

जो आपको अपने प्रश्न का सही उत्तर मिल गया? मैं उसी स्थिति में हूं और मुझे मदद की जरूरत है। धन्यवाद
LSola

जवाबों:


14

आपके प्रश्न को पढ़ने के बाद, मैं टाइम सीरीज़ क्लस्टरिंग और डायनेमिक टाइम वॉर्पिंग (DTW) के विषय के बारे में उत्सुक हो गया । इसलिए, मैंने एक सीमित खोज की है और बुनियादी समझ (मेरे लिए) और IMHO प्रासंगिक संदर्भों के निम्नलिखित सेट (आपके लिए) के साथ आया है। मुझे आशा है कि आपको यह उपयोगी लगेगा, लेकिन ध्यान रखें कि मैंने जानबूझकर शोध पत्रों को छोड़ दिया है, क्योंकि मैं विषय के व्यावहारिक पहलुओं में अधिक रुचि रखता था ।

संसाधन:


1
इनमें से कई ऐसे संसाधन हैं जिन्हें मैं देख रहा हूं - मैंने उदाहरण के लिए अंक 2 और 4 में काम का एक संशोधित संस्करण लागू किया है - इसलिए हम शायद उसी-इश पृष्ठ पर हैं। और जो मैं जानता हूं उसका अधिकांश हिस्सा ईमोन केओग के कागजात या उन पर आधारित लेखों पर आधारित है। लेकिन यहाँ कुछ हैं जो मैंने पढ़ा नहीं था, और बाइक शेयर समय श्रृंखला श्रृंखला के बारे में एक दिलचस्प है - धन्यवाद! मैं कुछ भी नहीं देख रहा हूं जो विशेष रूप से मेरे प्रश्न का उत्तर देता है, लेकिन पढ़ते समय मैंने कुछ याद किया है तो इसे इंगित करें।
जो डोकलाम

1
इसके अलावा, यदि आप अभी भी यह दिलचस्प पा रहे हैं, तो कोघ के कागजात वास्तव में पढ़ने लायक हैं। वे आश्चर्यजनक रूप से पढ़ने में आसान हैं और कई व्यावहारिक डेटा सेटों का उपयोग करने पर ध्यान केंद्रित करते हैं, और पर्याप्त जानकारी प्रदान करते हैं कि कोई व्यक्ति सभी प्रयोगों को फिर से बना सकता है। सबसे हाल ही में एक दिलचस्प है, और वह है जो मैं अपने तरीके से काम कर रहा था जब मैं अपने प्रश्न से दरकिनार हो गया। cs.ucr.edu/~eamonn/selected_publications.htm
जो डगलस

1
@JoDouglass: आपका स्वागत है! मैंने सीधे आपके प्रश्न का उत्तर देने का इरादा नहीं किया (विषय के मेरे सीमित ज्ञान के कारण), लेकिन उम्मीद है कि यह मददगार होगा, जो कि ऐसा प्रतीत होता है। अच्छी टिप्पणियों और संदर्भ के लिए धन्यवाद - मैं कागजात को ब्राउज़ करूंगा और एक बेहतर विचार प्राप्त करने का प्रयास करूंगा। सीखने के लिए बहुत कुछ है, यह थोड़ा भारी है।
अलेक्सांद्र ब्लेक डेस

1
अभिभूत करना सही है, मैं थोड़ी देर के लिए इस विषय को चुनने के लिए खुद को लात मार रहा था! मुझे लगता है कि मैं वहाँ पहुँच रहा हूँ, हालाँकि - और यह वास्तव में दिलचस्प है। मेरे पास बहुत सी चीजें हैं जो मुझे करने की आवश्यकता के किसी न किसी तरह के संस्करणों के रूप में चल रही हैं, और मुझे लगता है कि यह मेरे मॉडल के माध्यम से चलाने से पहले अपने डेटा को संसाधित करने के तरीके के बारे में अधिक जानकारी है। वह बाइक शेयर लिंक मेरे लिए दिलचस्प है क्योंकि यह पहली बार मैंने देखा कि हाल ही में बताए गए कागज़ पेपर को पढ़ने के बाद मैंने समय श्रृंखला के औसत पर चर्चा की है।
जो डोकलाम

1
@JoDouglass: जब मैंने कहा "भारी", मेरा मतलब पूरे डेटा साइंस डोमेन (एआई / एमएल और सांख्यिकी, विशेष रूप से सहित) से है। मुझे अभी तक एक संसाधन नहीं मिला है , जो विभिन्न दृष्टिकोणों और / या विधियों के उच्च स्तरीय चर्चा को थीम के रूप में प्रस्तुत करता है, जो एक व्यापक , अभी तक पारसमंजित , रूपरेखा में एकीकृत है

4

यदि आप मौसमी पैटर्न के लिए सिर्फ मेरा होना चाहते हैं, तो आटोक्लेरिकेशन पर ध्यान दें । यदि आप एक ऐसे मॉडल की तलाश में हैं, जो मौसमी पैटर्न सीख सके और उससे पूर्वानुमान बना सके, तो होल्ट-विंटर्स एक अच्छी शुरुआत है, और एआरआईएमए का पालन करना एक अच्छी बात होगी। यहाँ [pdf] ट्यूटोरियल है जो मुझे जमीन से मिला।


कार्य विशुद्ध रूप से व्यावहारिक के बजाय (अभी के लिए) अकादमिक है। मैं भविष्य में या भविष्य में बहुत देर से कुछ पूर्वानुमान लगा सकता हूं, लेकिन मैं अब के लिए पिछले डेटा की खोज करने में अधिक रुचि रखता हूं। क्लस्टरिंग अपने आप में एक लक्ष्य है, साथ ही साथ कुछ विचार जो मैं उस बिंदु से पिछले करना चाहता हूं।
जो डोकलाम

क्षमा करें, समय से पहले हिट दर्ज करें। मैंने कुछ हद तक स्वत :संबंध में देखा है और इसे अपने डेटा के एक सबसेट पर पहले ही चला दिया था, लेकिन यह मेरे लिए वास्तव में स्पष्ट नहीं था कि मैं इससे क्या प्राप्त कर सकता हूं। डेटा बहुत शोर है। मौसमी पैटर्न कभी-कभी विज़ुअलाइज़ेशन पर बहुत स्पष्ट होते हैं, लेकिन उनकी समयसीमा में अक्षम है - इसलिए मैं समान पैटर्न की तलाश कर सकता हूं लेकिन एक अच्छा, यहां तक ​​कि शेड्यूल पर नहीं। मुझे बताया गया था कि इस तरह के डेटा पर ऑटोकार्ट्रेशन समस्याग्रस्त होने की संभावना थी, लेकिन अगर इसमें मान है तो एक और लुक पाकर खुश होंगे। मैं केवल मौसम का पता नहीं लगाना चाहता , लेकिन इसे समझना एक लक्ष्य है।
जो डोकलाम

कम से कम 2.5 तक और उस ट्यूटोरियल के माध्यम से काम करें। यह आर का उपयोग करता है जो आपके शैक्षणिक वातावरण के लिए विशेष रूप से अच्छा है। यह आपको निरंकुशता सिखाएगा जो बिल्कुल वैसा ही लगता है जैसा आप देख रहे हैं (यह नहीं बता सकते कि क्या यह फिट नहीं था क्योंकि आपको नहीं पता था कि आप क्या देख रहे थे, या डेटा वास्तव में बहुत शोर है)। यदि शोर मुद्दा है, तो घातीय चौरसाई उसकी मदद करने का एक तरीका है, जिसे होल-विंटर्स मॉडल के एक भाग के रूप में पढ़ाया जाएगा। यहां तक ​​कि अगर वह सब आपको जवाब नहीं देता है, तो यह निश्चित रूप से आपके अगले कदम को स्पष्ट कर देगा।
द ग्रीमस्मिंटिस्ट

मैं ट्यूटोरियल के माध्यम से पढ़ा था, लेकिन यह ज्यादातर उन चीजों पर जाता है जो मैं पहले से जानता हूं। मैं वास्तव में पायथन में काम कर रहा हूं और आर पर स्विच करने के लिए चीजों में थोड़ा बहुत दूर हूं, हालांकि मैंने कुछ बिंदु पर खसखस ​​को हथियाने का इरादा किया है, जबकि कुछ चीजें मैं किसी भी पायथन लाइब्रेरी में नहीं पा सका था। मैंने अपना प्रश्न फिर से लिखा है यदि यह किसी भी तरह से मदद करता है - जैसे मैं कहता हूं, क्लस्टरिंग एक लक्ष्य है और स्वयं में, मैं अंदर जाने के लिए पूरी तरह से अलग दिशा की तलाश नहीं कर रहा हूं। टी वास्तव में मेरे सवाल का जवाब।
जो डोकलाम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.