मेरे पास समय श्रृंखला डेटा का एक सेट है। प्रत्येक श्रृंखला एक ही अवधि को कवर करती है, हालांकि हर बार श्रृंखला में वास्तविक तारीखें सभी 'लाइन अप' बिल्कुल नहीं हो सकती हैं।
यह कहना है, यदि समय श्रृंखला को 2 डी मैट्रिक्स में पढ़ा जाना था, तो यह कुछ इस तरह दिखाई देगा:
date T1 T2 T3 .... TN
1/1/01 100 59 42 N/A
2/1/01 120 29 N/A 42.5
3/1/01 110 N/A 12 36.82
4/1/01 N/A 59 40 61.82
5/1/01 05 99 42 23.68
...
31/12/01 100 59 42 N/A
etc
मैं एक आर स्क्रिप्ट लिखना चाहता हूं जो समय श्रृंखला {T1, T2, ... TN} को families परिवारों ’में अलग कर देगी जहां एक परिवार को श्रृंखला के एक सेट के रूप में परिभाषित किया गया है जो एक दूसरे के साथ" सहानुभूति में आगे बढ़ना "है।
'क्लस्टरिंग' भाग के लिए, मुझे एक प्रकार की दूरी माप का चयन / परिभाषित करने की आवश्यकता होगी। मैं इस बारे में निश्चित नहीं हूं कि मैं इस बारे में कैसे जाऊं, क्योंकि मैं समय श्रृंखला के साथ काम कर रहा हूं, और श्रृंखला की एक जोड़ी जो एक अंतराल पर सहानुभूति में आगे बढ़ सकती है, बाद के अंतराल में ऐसा नहीं कर सकती।
मुझे यकीन है कि यहाँ पर मुझसे कहीं अधिक अनुभवी / चतुर लोग हैं, इसलिए मैं किसी भी सुझाव के लिए आभारी रहूंगा, दूरी मापने के लिए कौन सा एल्गोरिदम / अनुमान लगाने पर विचार और समय श्रृंखला को क्लस्टर करने में कैसे उपयोग करें।
मेरा अनुमान है कि ऐसा करने के लिए एक स्थापित मजबूत सांख्यिकीय पद्धति नहीं है, इसलिए मुझे यह देखने में बहुत दिलचस्पी होगी कि लोग इस समस्या को कैसे हल करें / एक सांख्यिकीविद् की तरह सोचें।