क्या पदानुक्रमित क्लस्टरिंग में वार्ड के इंटर-क्लस्टर लिंकेज के साथ मैनहट्टन की दूरी का उपयोग करना ठीक है?


15

मैं समय श्रृंखला डेटा का विश्लेषण करने के लिए पदानुक्रमित क्लस्टरिंग का उपयोग कर रहा हूं। मेरा कोड मैथेमेटिका फ़ंक्शन का उपयोग करके लागू किया गया है DirectAgglomerate[...], जो निम्नलिखित इनपुट दिए गए पदानुक्रमित समूहों को उत्पन्न करता है:

  • एक दूरी मैट्रिक्स डी

  • इंटर-क्लस्टर लिंकेज निर्धारित करने के लिए उपयोग की जाने वाली विधि का नाम।

मैनहट्टन दूरी का उपयोग करके मैंने दूरी मैट्रिक्स डी की गणना की है:

d(x,y)=i|xiyi|

जहां और एन 150 मेरा समय श्रृंखला में डेटा बिंदुओं की संख्या है।i=1,,nn150

मेरा सवाल है, क्या मैनहट्टन दूरी मैट्रिक्स के साथ वार्ड के अंतर-क्लस्टर लिंकेज का उपयोग करना ठीक है? कुछ स्रोतों का सुझाव है कि वार्ड के लिंकेज का उपयोग केवल यूक्लिडियन दूरी के साथ किया जाना चाहिए।

ध्यान दें कि DirectAgglomerate[...]केवल दूरी मैट्रिक्स का उपयोग करके वार्ड के लिंकेज की गणना करता है, न कि मूल टिप्पणियों का। दुर्भाग्य से, मैं अनिश्चित हूं कि कैसे गणितज्ञ वार्ड के मूल एल्गोरिथ्म को संशोधित करता है, जो (मेरी समझ से) ने क्लस्टर माध्य के संबंध में गणना की गई टिप्पणियों के वर्गों के त्रुटि योग को कम करके काम किया। उदाहरण के लिए, एक क्लस्टर जिसमें एकतरफा अवलोकनों का सदिश शामिल है, वार्ड ने वर्गों के त्रुटि योग को तैयार किया:c

(j||cjmean(c)||2)2

(मैटलैब और आर जैसे अन्य सॉफ्टवेयर टूल भी सिर्फ एक दूरी मैट्रिक्स का उपयोग करके वार्ड की क्लस्टरिंग को लागू करते हैं, इसलिए यह प्रश्न गणित के लिए विशिष्ट नहीं है।)


मैंने हाल ही में वार्ड पद्धति का उपयोग करके डेटा के काफी बड़े सेट का विश्लेषण किया है। मेरे विशिष्ट मामले में मनथन की दूरी अनिवार्य रूप से यूक्लिडियन दूरी के समान ही थी। मैं आपको तरीकों के किसी भी संयोजन के पक्ष में कोई गणितीय साबित नहीं कर सकता, लेकिन कम से कम मेरे मामले में- क्लस्टरिंग दूरी विधि से प्रभावित नहीं हुई थी
nico

सभी आर फ़ंक्शन एक दूरी मैट्रिक्स के लिए जरूरी इंतजार नहीं करते हैं। उदाहरण के लिए देखें, ऑन लाइन मदद agnesमें क्लस्टर पैकेज।
chl

किसी भी दूरी का उपयोग करना वास्तव में ठीक है। जाँच करें vlado.fmf.uni-lj.si/pub/preprint/ward.pdf एकमात्र पकड़ यह है कि, हम जिस अर्थ के बारे में बात कर रहे हैं वह अब अंकगणित का मतलब नहीं है लेकिन फ्रीचेट का मतलब है।
रैंडी लाइ

लेकिन क्या हम पूर्ण लिंकेज के लिए मैनहट्टन दूरी का उपयोग कर सकते हैं ??
पायल बनर्जी

जवाबों:


8

वार्ड क्लस्टरिंग एल्गोरिथ्म एक पदानुक्रमित क्लस्टरिंग विधि है जो प्रत्येक चरण में एक 'जड़ता' मानदंड को कम करती है। यह जड़ता कम संकेत और प्रारंभिक संकेत के बीच चुकता अवशिष्टों के योग की मात्रा निर्धारित करती है: यह एक l2 (यूक्लिडियन) संवेदी में त्रुटि के विचरण का माप है। वास्तव में, आप अपने प्रश्न में भी इसका उल्लेख करते हैं। यही कारण है कि, मेरा मानना ​​है कि, यह एक दूरी मैट्रिक्स पर लागू करने के लिए कोई मतलब नहीं है जो एक एल 2 यूक्लिडियन दूरी नहीं है।

दूसरी ओर, एक औसत लिंकेज या एकल लिंकेज श्रेणीबद्ध क्लस्टरिंग अन्य दूरी के लिए पूरी तरह से उपयुक्त होगा।


2
आपके कमेंट के लिए धन्यवाद; मेरे विचार में तुम सही हो। हालांकि, व्यवहार में ऐसा लगता है कि वार्ड के लिंकेज का उपयोग अक्सर गैर यूक्लिडियन दूरी के साथ किया जाता है। मुझे अभी भी यकीन नहीं है कि इसके क्या निहितार्थ हो सकते हैं।
राहेल

यह शायद वार्ड का उपयोग करने वाले लोगों से आता है क्योंकि यह अच्छी तरह से जाना जाता है। मैं कहूंगा कि वार्ड इस सेटिंग्स में एक औसत लिंकेज की तुलना में कोई लाभ नहीं लाता है। हालांकि, यह अधिक कम्प्यूटेशनल रूप से महंगा है (आपको प्रत्येक मर्ज के लिए पहले दो क्षणों की गणना करने की आवश्यकता है, या उन्हें पूर्ववर्ती करने के लिए)। इस प्रकार, एक व्यावहारिक दृष्टिकोण से, मैं बस औसत संबंध के लिए जाना होगा।
गेल वरक्वाउक्स

1
दरअसल, जड़ता को वर्ग दूरी के योग का उपयोग करके परिभाषित किया जाएगा (यूक्लिडियन होने के लिए आवश्यक नहीं) देखें vlado.fmf.uni-lj.si/pub/preprint/ward.pdf
रैंडी लाइ

5

मैं किसी भी कारण से नहीं सोच सकता कि वार्ड को किसी भी मीट्रिक का पक्ष क्यों लेना चाहिए। वार्ड का तरीका यह तय करने का एक और विकल्प है कि किस समूह को अगले समूह के दौरान संलयन करना है। यह उन दो समूहों को खोजने के द्वारा प्राप्त किया जाता है जिनके संलयन से एक निश्चित त्रुटि ( सूत्र के लिए परीक्षा स्रोत ) कम हो जाएगी ।

इसलिए यह दो अवधारणाओं पर निर्भर करता है:

  1. वैक्टर का मतलब जो (संख्यात्मक वैक्टर के लिए) आम तौर पर हर आयाम पर औसत से अलग-अलग गणना की जाती है।
  2. दूरी मीट्रिक ही अर्थात इस मीट्रिक द्वारा व्यक्त की गई समानता की अवधारणा।

इसलिए: जब तक चुने हुए मीट्रिक के गुण (जैसे कि रोटेशन, अनुवाद या स्केल इनवेरियन) आपकी आवश्यकताओं को पूरा करते हैं (और मीट्रिक जिस तरह से गणना की जाती है उस तरह से फिट बैठता है), तो मुझे इसका उपयोग न करने का कोई कारण नहीं दिखता है ।

मुझे संदेह है कि ज्यादातर लोग यूक्लिडियन मीट्रिक का सुझाव देते हैं क्योंकि वे

  • एक क्लस्टर माध्य और एक एकल अवलोकन वेक्टर के बीच के अंतरों के वजन को बढ़ाना चाहते हैं (जो कि चतुष्कोण द्वारा किया जाता है)
  • या क्योंकि यह उनके डेटा के आधार पर सत्यापन में सर्वश्रेष्ठ मीट्रिक के रूप में सामने आया
  • या क्योंकि यह सामान्य रूप से उपयोग किया जाता है।

आपके प्रतिक्रिया के लिए धन्येवाद। मैंने अपने सवाल को थोड़ा स्पष्ट किया है कि 'DirectAgglomerate [...]' एल्गोरिथम केवल एक दूरी मैट्रिक्स लेता है। इसे देखते हुए, क्या वार्ड के लिंकेज का संशोधित कार्यान्वयन इस धारणा पर आधारित होगा कि दूरी मैट्रिक्स यूक्लिडियन है? उदाहरण के लिए, वार्ड के लिंकेज के मैटलैब का कार्यान्वयन, नोट करता है कि यह केवल यूक्लिडियन दूरियों के लिए उपयुक्त है ( mathworks.com/help/toolbox/stats/linkage.html )।
राहेल

1
@ राचेल: आहा, मैं देख रहा हूं। किसी भी वार्ड के कार्यान्वयन को क्लस्टर के सदस्यों और केंद्रक के बीच की दूरी की गणना करनी होती है। स्पष्ट रूप से यह स्पष्ट है कि इसके लिए उपयोग की जाने वाली मीट्रिक टिप्पणियों के बीच की दूरी की गणना करने के लिए उपयोग किए जाने वाले मीट्रिक के बराबर होनी चाहिए ... इसलिए matlab के लिए एक यूक्लिडियन डिस्ट्रामिक्स की आवश्यकता होती है। लेकिन अब सवाल यह उठता है कि कार्यान्वयन दूरी मैट्रिक्स के बजाय एक फ़ंक्शन का अनुरोध क्यों नहीं करते हैं? दोनों कार्यों के लिए अलग-अलग मीट्रिक का उपयोग करने पर कितना नुकसान होता है? मैं मानता हूं, मुझे नहीं पता कि यह सही है।
स्टीफेन

हैलो उदाहरण हटा दिया गया। कोई अन्य वेबसाइट?
मॉन्स्टरमोरपीजी

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.