मैं समय श्रृंखला डेटा का विश्लेषण करने के लिए पदानुक्रमित क्लस्टरिंग का उपयोग कर रहा हूं। मेरा कोड मैथेमेटिका फ़ंक्शन का उपयोग करके लागू किया गया है DirectAgglomerate[...]
, जो निम्नलिखित इनपुट दिए गए पदानुक्रमित समूहों को उत्पन्न करता है:
एक दूरी मैट्रिक्स डी
इंटर-क्लस्टर लिंकेज निर्धारित करने के लिए उपयोग की जाने वाली विधि का नाम।
मैनहट्टन दूरी का उपयोग करके मैंने दूरी मैट्रिक्स डी की गणना की है:
जहां और एन ≈ 150 मेरा समय श्रृंखला में डेटा बिंदुओं की संख्या है।
मेरा सवाल है, क्या मैनहट्टन दूरी मैट्रिक्स के साथ वार्ड के अंतर-क्लस्टर लिंकेज का उपयोग करना ठीक है? कुछ स्रोतों का सुझाव है कि वार्ड के लिंकेज का उपयोग केवल यूक्लिडियन दूरी के साथ किया जाना चाहिए।
ध्यान दें कि DirectAgglomerate[...]
केवल दूरी मैट्रिक्स का उपयोग करके वार्ड के लिंकेज की गणना करता है, न कि मूल टिप्पणियों का। दुर्भाग्य से, मैं अनिश्चित हूं कि कैसे गणितज्ञ वार्ड के मूल एल्गोरिथ्म को संशोधित करता है, जो (मेरी समझ से) ने क्लस्टर माध्य के संबंध में गणना की गई टिप्पणियों के वर्गों के त्रुटि योग को कम करके काम किया। उदाहरण के लिए, एक क्लस्टर जिसमें एकतरफा अवलोकनों का सदिश शामिल है, वार्ड ने वर्गों के त्रुटि योग को तैयार किया:
(मैटलैब और आर जैसे अन्य सॉफ्टवेयर टूल भी सिर्फ एक दूरी मैट्रिक्स का उपयोग करके वार्ड की क्लस्टरिंग को लागू करते हैं, इसलिए यह प्रश्न गणित के लिए विशिष्ट नहीं है।)