अस्थायी डेटा के लिए उपयुक्त क्लस्टरिंग तकनीक?


13

मेरे पास गतिविधि आवृत्तियों का अस्थायी डेटा है। मैं डेटा में समूहों की पहचान करना चाहता हूं जो समान गतिविधि स्तरों के साथ अलग-अलग समय को इंगित करते हैं। आदर्श रूप से मैं समूहों की संख्या निर्दिष्ट किए बिना समूहों की पहचान करना चाहता हूं ।

उपयुक्त क्लस्टरिंग तकनीकें क्या हैं? यदि मेरे प्रश्न का उत्तर देने के लिए पर्याप्त जानकारी नहीं है, तो उपयुक्त क्लस्टरिंग तकनीकों को निर्धारित करने के लिए मुझे कौन सी जानकारी की आपूर्ति करने की आवश्यकता है?

नीचे मैं जिस तरह के डेटा / क्लस्टरिंग की कल्पना कर रहा हूं, उसका एक उदाहरण है: समय के साथ क्लस्टरिंग


कथानक मुझे सहज (प्रक्षेपित) लगता है। जो शायद भ्रामक है। और "अनुदैर्ध्य" मैं जियोडेटा के साथ जुड़ा हुआ है, लेकिन जाहिर है आप एक समय श्रृंखला देख रहे हैं?
है क्विट - Anony-Mousse

1
साजिश पर बहुत अधिक ध्यान न दें, यह सिर्फ एक उदाहरण है। मैं जो हासिल करना चाहता हूं वह समय-समय पर भिन्न होने वाले चर के आधार पर समय के अलग-अलग एपिसोड की पहचान है। अनुदैर्ध्य, मेरे मन में, अस्थायी डेटा के समान है, उदाहरण के लिए देखें en.wikipedia.org/wiki/Longitudinal_study
histelheim

क्योंकि क्लस्टरिंग में, आप इस शब्द को ज्यादातर en.wikipedia.org/wiki/Longitude के रूप में देखेंगे - आपके प्रश्न से यह स्पष्ट नहीं है कि आप क्या चाहते हैं। आप समय के अंतराल को उदासीन कर सकते हैं जो "विषयों" के समान व्यवहार करता है, या समय के साथ समान प्रगति दिखाने वाले विषय।
है क्विट - Anony-Mousse

1
मैंने भ्रम से बचने के लिए 'लौकिक' को 'लौकिक' में बदल दिया है। आपके शब्दों का उपयोग करते हुए, मुझे लगता है कि मैं समय के अंतराल को क्लस्टर करना चाहता हूं । हालांकि, यह मेरे लिए महत्वपूर्ण है कि क्लस्टर अलग-अलग हैं, समय में निरंतर एपिसोड।
हिस्टेलिमे

"टाइम सीरीज़ सेगमेंटेशन" या "रिजीम स्विचिंग मॉडल" कीवर्ड्स वाली खोजें आपकी मदद कर सकती हैं।
यवेस

जवाबों:


6

मेरे अपने शोध से ऐसा लगता है कि गाऊसी हिडन मार्कोव मॉडल एक अच्छा फिट हो सकता है: http://scikit-learn.org/stable/auto_examples/plot_hmm_stock_analysis.html#example-plot-hmm-stock-analysis-py

यह निश्चित रूप से गतिविधि के अलग-अलग एपिसोड खोजने लगता है।

गाऊसी हिडन मार्कोव मॉडल


क्या आपको यह जानने की ज़रूरत नहीं है कि समय से पहले कितने छिपे हुए राज्य हैं? वहाँ चारों ओर पाने के लिए एक रास्ता है?
JCWong

@ जेसीओवॉन्ग मुझे लगता है कि आप इससे बचने के लिए एक गैरपारंपरिक बायेसियन संस्करण (अनंत छिपे मार्कोव मॉडल) का उपयोग कर सकते हैं।
jtobin

हालांकि लंबे समय के बाद: एचएमएम क्लस्टर / समूह की घटनाओं को अस्थायी रूप से नहीं दिखता है (यह आंकड़ा से क्या दिखता है)। लेकिन, जो पूछा गया है वह यह है कि अस्थायी गुच्छों को कैसे प्राप्त किया जाए? मैं बस उत्सुक हूं, क्योंकि मैं अस्थायी क्लस्टरिंग सामान पर काम कर रहा हूं।
रसेलबी

3

आपकी समस्या मेरे जैसे दिखने वाले और इस प्रश्न के समान है, जो समान है, लेकिन कम अच्छी तरह से समझाया गया है।

उनका उत्तर चेंज डिटेक्शन पर एक अच्छे सारांश से जोड़ता है। संभावित समाधानों के लिए, एक त्वरित Google खोज में Google कोड पर एक चेंज पॉइंट विश्लेषण पैकेज मिला । R के पास ऐसा करने के लिए कुछ उपकरण भी हैं। bcpपैकेज बहुत शक्तिशाली और वास्तव में आसान उपयोग करने के लिए है। यदि आप इसे डेटा पर आते ही करना चाहते हैं, तो कागज पर "जीनोमिक डेटा के लिए आवेदन के साथ ऑन-लाइन चेंजप्वाइंट डिटेक्शन और पैरामीटर अनुमान" वास्तव में परिष्कृत दृष्टिकोण का वर्णन करता है, हालांकि चेतावनी दी जाती है कि यह थोड़ा चुनौतीपूर्ण है। वहाँ भी strucchangeपैकेज है, लेकिन यह मेरे लिए कम अच्छी तरह से काम किया है।


1

वेवलेट्स आपको विभिन्न गुणों के साथ अवधियों की पहचान करने में मदद कर सकते हैं। हालाँकि, मुझे यकीन नहीं है कि अगर कोई ऐसी विधियाँ हैं जो आपके समय को आपके लिए असतत अवधि में विभाजित करेंगी। और ऐसा लगता है कि वहाँ के माध्यम से उकसाने के लिए बहुत सारे सिद्धांत हैं, जो मैं केवल शुरुआत में हूं। मैं अन्य सुझावों को पढ़ने के लिए उत्सुक हूं।

तरंगों पर एक मुक्त परिचयात्मक पुस्तक अध्याय।

तरंगिकाओं के साथ महत्व परीक्षण के लिए एक आर पैकेज।


1

क्या आपने इस पृष्ठ को देखा है: UCR Time Series वर्गीकरण / क्लस्टरिंग पृष्ठ ?

वहाँ आप दोनों पा सकते हैं: डेटासेट को अपने स्वयं के कार्यान्वयन के प्रदर्शन की तुलना करने के लिए और प्रकाशित परिणामों पर अभ्यास करने के लिए (अच्छी तरह से ज्ञात मशीन सीखने की तकनीकों के ज्ञात प्रदर्शन पर एक लिंक है)। इसके अलावा, यह पृष्ठ उन महत्वपूर्ण कागज़ात का हवाला दे रहा है जिनसे आप अपनी समस्या, डेटा, या आवश्यकताओं के अनुकूल सबसे अच्छे दृष्टिकोण के लिए अनुसंधान के साथ आगे बढ़ सकते हैं।

इसके अलावा, वहाँ एक और तरीका है कि (संभवतः) क्रम के आवेदन द्वारा http: // sequitur.info है। यदि आप अपने डेटा को अच्छी तरह से सामान्य / अनुमानित करने में सक्षम होंगे, तो यह आपके व्याकरण को "समान गतिविधि स्तरों के साथ अलग-अलग समय की अवधि" देगा इस पेपर को देखें और दूसरे के लिए खोजें, क्योंकि मैं अधिक लिंक जोड़ने में असमर्थ हूं ...


3
क्या आप इस पृष्ठ पर उपलब्ध संसाधनों का एक संक्षिप्त सारांश प्रदान कर सकते हैं?
chl

यकीन है कि मैं कर सकता हूं। वहां से शुरू करते हुए मैंने
सीनप

1

मुझे लगता है कि आप अलग-अलग समय श्रृंखला के बीच समानताएं देखने के लिए डायनेमिक टाइम रैपिंग का उपयोग कर सकते हैं। ऐसा करने के लिए, आपको एक सरणी की तरह, अपने तरंगिका को संग्रह में बदलने की आवश्यकता हो सकती है। लेकिन ग्रैन्युलैरिटी एक समस्या होगी और यदि आपके पास बड़ी संख्या में समय श्रृंखला है, तो उनमें से प्रत्येक जोड़ी के लिए DTM दूरी की गणना करने के लिए गणना लागत बहुत बड़ी होगी। तो आपको लेबल के रूप में काम करने के लिए कुछ चयन की आवश्यकता हो सकती है।

चेक इस बाहर। मैं भी तुम्हारी तरह कुछ काम पर काम कर रहा हूँ और इस पृष्ठ ने मुझे कुछ मदद की।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.