गतिशील समय वारिंग क्लस्टरिंग


40

समय श्रृंखला की क्लस्टरिंग करने के लिए डायनामिक टाइम वार्पिंग (DTW) का उपयोग करने का तरीका क्या होगा?

मैंने DTW के बारे में दो समय श्रृंखलाओं के बीच समानता खोजने के तरीके के रूप में पढ़ा है, जबकि उन्हें समय में स्थानांतरित किया जा सकता है। क्या मैं इस विधि का उपयोग k- साधनों जैसे क्लस्टरिंग एल्गोरिथ्म के लिए समानता माप के रूप में कर सकता हूं?


2
हाँ, आप k का मतलब क्लस्टरिंग के इनपुट के रूप में समानता माप का उपयोग कर सकते हैं और फिर अपने डेटा में समूहों का निर्धारण कर सकते हैं।
फोरकास्टर

आपके उत्तर के लिए धन्यवाद सर। मैं अनुमान लगा रहा हूं कि प्रत्येक पुनरावृत्ति के लिए मुझे मानक फैशन में प्रत्येक (सेंट्रोइड, क्लस्टरिंग पॉइंट) युगल, और पुनर्गणना केन्द्रक के लिए दूरी मैट्रिक्स बनाने की आवश्यकता होगी, जो कि सभी श्रृंखलाओं के एक साधन के रूप में है?
मार्को

1
नीचे दिए गए जवाब में Aleksandr Blekh के पास एक ब्लॉग पोस्ट है जो R. में ऐसा करने के बारे में एक विस्तृत उदाहरण प्रदान करता है
फोरकास्टर

2
@forecaster DTW के साथ k- साधनों का उपयोग नहीं करता है । k- साधन विचरण को कम करता है, दूरी को नहीं। वेरियनस यूक्लिडियन वर्ग है, लेकिन इसका मतलब यह नहीं है कि k- साधन अन्य दूरी को अनुकूलित कर सकता है। इसका मतलब यह नहीं है, और DTW में यह नहीं बल्कि आसान निर्माण जवाबी उदाहरण के लिए, की भरपाई साइन वेव की तरह होना चाहिए : दोनों बहुत DTW से समान हैं, लेकिन उनके माध्य शून्य स्थिर है - बहुत दोनों को भिन्न। π
एनोनी-मूस

1
K- साधन समय श्रृंखला क्लस्टरिंग के लिए एक उपयुक्त एल्गोरिथ्म नहीं है। असतत के लिए छिपे हुए मार्कोव मॉडल, अनुदैर्ध्य डेटा उपयुक्त हैं। इस विषय पर अभी कई पुस्तकें हैं और साथ ही ओडेड नेटजर (कोलंबिया) और स्टीव स्कॉट (गूगल) से भी महत्वपूर्ण योगदान है। एक अन्य दृष्टिकोण होगा मैक्सिम प्लैंक पर एंड्रियास ब्रैंडमाइयर द्वारा विकसित सूचना-सिद्धांत पद्धति, जिसे क्रमबद्धता वितरण क्लस्टरिंग कहा जाता है। उन्होंने एक आर मॉड्यूल भी लिखा है। क्लस्टर समाधानों की तुलना एक अलग मुद्दा है। मरीना मीला का पेपर, तुलनात्मक क्लस्टरिंग, यू ऑफ वाशिंगटन स्टेटिस्टिक्स टेक रिपोर्ट 418 सबसे अच्छा है।
माइक हंटर

जवाबों:


33

करो नहीं timeseries के लिए k-साधनों का उपयोग।

DTW का मतलब कम से कम नहीं है; k- साधनों को अभिसरण नहीं किया जा सकता है और भले ही यह अभिसरण करता है, यह बहुत अच्छा परिणाम नहीं देगा। निर्देशांक पर कम से कम वर्गों का अनुमान है। यह विचरण को कम करता है, मनमानी दूरी को नहीं, और k- साधन को विचरण को कम करने के लिए डिज़ाइन किया गया है, न कि मनमानी दूरी के लिए

π2

इसके बजाय, DTW का उपयोग करके एक दूरी मैट्रिक्स की गणना करें, फिर एकल-लिंक जैसे श्रेणीबद्ध क्लस्टरिंग चलाएं। K- साधनों के विपरीत, श्रृंखला में अलग-अलग लंबाई भी हो सकती है।


4
खैर, PAM (K-medoids) जरूर है जो मनमानी दूरी के साथ काम करता है। कई एल्गोरिदम में से एक जो मनमानी दूरी का समर्थन करता है - k- साधन नहीं करता है। अन्य विकल्प DBSCAN, OPTICS, CLARANS, HAC, हैं ...
Anony-Mousse

1
शायद। क्योंकि k-medoids क्लस्टर केंद्र खोजने के लिए DTW-medoid का उपयोग करता है, न कि L2 माध्य। मैं समय श्रृंखला के किसी भी वास्तविक दुनिया के सफल क्लस्टरिंग के बारे में नहीं जानता। मेरा मानना ​​है कि मैंने कागजात देखे हैं, लेकिन किसी ने भी वास्तव में परिणाम का उपयोग नहीं किया है। केवल प्रमाण की अवधारणाएं।
ऐनी-मौसे

1
@ अलेक्जेंडर ब्लेक ने इसे अपने उदाहरण nbviewer.ipython.org/github/alexminnaar/… में से एक के रूप में दिया है । इसके बारे में आपकी क्या राय है?
Marko

1
खिलौने की समस्या। वास्तविक दुनिया में बेकार। वास्तविक डेटा में बहुत अधिक शोर होता है, जो चिकनी साइन घटता और इस डेटा में प्रस्तुत किए गए पैटर्न की तुलना में बहुत अधिक चोट पहुंचाएगा।
ऐनी-मूस

1
मुझे लगता है कि पदानुक्रमित क्लस्टरिंग बेहतर विकल्प है। आप वैसे भी बड़ी संख्या में श्रृंखला संसाधित नहीं कर पाएंगे।
ऐनी-मूस

49

हां, आप समय श्रृंखला के वर्गीकरण और क्लस्टरिंग के लिए डीटीडब्ल्यू दृष्टिकोण का उपयोग कर सकते हैं । मैंने निम्नलिखित संसाधनों को संकलित किया है , जो इस विषय पर केंद्रित हैं (मैंने हाल ही में इसी तरह के प्रश्न का उत्तर दिया है, लेकिन इस साइट पर नहीं, इसलिए मैं हर किसी की सुविधा के लिए सामग्री यहां कॉपी कर रहा हूं)


2
लेख और ब्लॉग का +1 उत्कृष्ट संग्रह। बहुत अच्छे संदर्भ।
फोरकास्टर

@forecaster: upvote और दयालु शब्दों के लिए धन्यवाद! खुशी है कि आप संग्रह पसंद करते हैं। यह बहुत दुख की बात है कि वर्तमान में मेरे पास आँकड़ों और डेटा विज्ञान के कई अन्य क्षेत्रों के पूर्वानुमान और अधिक गंभीरता से सीखने का समय नहीं है, लेकिन मैं कुछ नया सीखने के लिए हर अवसर का उपयोग करता हूं।
१०:१३ बजे --le

1
@AleksandrBlekh आपके उत्तर के लिए बहुत बहुत धन्यवाद, मैं Anpro-Mousse के साथ इस aproach के बारे में चर्चा कर रहा हूं, क्योंकि मैं विशेष रूप से K- साधनों के लिए समानता उपाय के रूप में DTW में दिलचस्पी रखता हूं, इसलिए मुझे आउटपुट के रूप में सेंट्रोइड मिल सकता है। इसके साथ आपकी क्या राय और अनुभव है? जैसा कि आप देख सकते हैं Anony-Mousse ने कुछ तर्क दिए कि इस मामले में परिणाम इतने अच्छे नहीं हो सकते हैं ... शायद एक व्यावहारिक मामले में कुछ व्यक्तिगत अनुभव?
मार्को

1
ठीक है, फिर से धन्यवाद। आपके पास मुझसे +1 है और उसे उत्तर स्वीकार कर लिया गया है, क्योंकि मेरा प्रश्न k- साधन और DTW की ओर अधिक उन्मुख है।
मार्को

1
@ वीणा: मेरी खुशी। Upvoting के लिए धन्यवाद। पूरी तरह से समझने और स्वीकृति के बारे में सहमत हैं, कोई समस्या नहीं है।
१६:५१ पर असेम्बली बेलेख

1

हाल ही में एक विधि DTW Barycenter Averaging (DBA) पेटिटजेन एट अल द्वारा प्रस्तावित की गई है औसत समय श्रृंखला के लिए। एक अन्य पत्र में उन्होंने अनुभवजन्य और सैद्धांतिक रूप से साबित किया कि यह कैसे-के साथ समय श्रृंखला को क्लस्टर करने के लिए उपयोग किया जा सकता है। लेखकों ( कोड के लिए लिंक ) द्वारा GitHub पर एक कार्यान्वयन प्रदान किया जाता है ।

1 एफ। पेटिटजेन, जी। फॉरेस्टियर, जीआई वेब, एई निकोलसन, वाई। चेन और ई। केओघ, "टाइम सीरीज़ के एवरेजिंग का डायनामिक टाइम फास्टर और अधिक सटीक वर्गीकरण की अनुमति देता है," 2014 आईईईई इंटरनेशनल कॉन्फ्रेंस ऑन डेटा माइनिंग, शेन्ज़ेन, 2014 ।

2 एफ। पेटिटजियन, पी। गनकार्स्की, औसतन समय श्रृंखला के एक सेट को सारांशित करना: स्टीनर अनुक्रम से लेकर कई संरेखण, सैद्धांतिक कंप्यूटर विज्ञान, खंड 414, अंक 1, 2012


2
कृपया लिंक के बजाय पूर्ण संदर्भ प्रदान करें। लिंक्स मर सकते हैं
एंटोनी

1

डायनेमिक टाइम ताना वास्तविक डेटा बिंदुओं की तुलना करता है, जो काम कर सकते हैं या नहीं। एक अधिक कठोर दृष्टिकोण दूरबीन दूरी नामक एक मीट्रिक के माध्यम से समय श्रृंखला के वितरण की तुलना करना है ।

इस मीट्रिक के बारे में अच्छी बात यह है कि अनुभवजन्य गणना एसवीएम जैसे बाइनरी क्लासीफायर की एक श्रृंखला फिटिंग द्वारा की जाती है।

संक्षिप्त विवरण के लिए, यह देखें ।

क्लस्टरिंग टाइम सीरीज़ के लिए, यह DTW को बेहतर बनाने के लिए दिखाया गया है; मूल पेपर [1] में तालिका १ देखें।

[१] रायबाको, डी।, और मैरी, जे (२०१३)। समय-श्रृंखला वितरण और सांख्यिकीय और सीखने की समस्याओं में इसके उपयोग के बीच एक बाइनरी-वर्गीकरण-आधारित मीट्रिक। जर्नल ऑफ मशीन लर्निंग रिसर्च, 14 (1), 2837-2856।


2
"Jérémie मरियम (सह लेखक) एक है: एक प्रयास किया संपादक नोट्स वेब पेज एक अनुसंधान कार्यान्वयन के साथ एल्गोरिथ्म पर चर्चा।
फिर से बहाल करते मोनिका - गुंग

@gung वाह, बहुत बढ़िया! मेरे पास पहले लेखक के साथ पत्राचार था और उन्होंने इसका उल्लेख नहीं किया।
राशिफल

मैं वास्तव में किसी ऐसे व्यक्ति की नकल कर रहा हूं जिसने आपके उत्तर, @horaceT में इसे संपादित करने का प्रयास किया है। मैं इसके बारे में बहुत ज्यादा नहीं जानता।
गूँग - मोनिका

0

हाँ। एक भोली और संभावित धीमी गति हो सकती है,

  1. अपने सभी क्लस्टर संयोजन बनाएं। k क्लस्टर संख्या के लिए है और n श्रृंखला की संख्या के लिए है। लौटाई गई वस्तुओं की संख्या होनी चाहिए n! / k! / (n-k)!। ये संभावित केंद्रों की तरह कुछ होंगे।
  2. प्रत्येक श्रृंखला के लिए, प्रत्येक क्लस्टर समूहों में प्रत्येक केंद्र के लिए DTW के माध्यम से दूरी की गणना करें और इसे न्यूनतम एक को असाइन करें।
  3. प्रत्येक क्लस्टर समूहों के लिए, अलग-अलग समूहों के भीतर कुल दूरी की गणना करें।
  4. न्यूनतम चुनें।

मैंने एक छोटे प्रोजेक्ट के लिए इसका इस्तेमाल किया। यहाँ समय श्रृंखला क्लस्टरिंग के बारे में मेरी रिपॉजिटरी है और इस बारे में मेरा अन्य उत्तर है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.