दूरी मीट्रिक के रूप में सहसंबंध का उपयोग करना (पदानुक्रमित क्लस्टरिंग के लिए)


22

मैं अपने डेटा को श्रेणीबद्ध रूप से क्लस्टर करना चाहूंगा, लेकिन यूक्लिडियन दूरी का उपयोग करने के बजाय, मैं सहसंबंध का उपयोग करना चाहूंगा। इसके अलावा, चूंकि सहसंबंध गुणांक -1 से 1 तक होता है, मेरे अध्ययन में -1 और 1 दोनों को "सह-विनियमन" के साथ दर्शाया जाता है, मैं -1 और 1 दोनों को d = 0. मान रहा हूं, इसलिए मेरी गणना d=1|r|

मैंने एक अलग प्रश्न (k- साधन क्लस्टरिंग के संबंध में) में पढ़ा, कि आपको cosine प्रमेय का उपयोग करके r को सही यूक्लिडियन d में बदलना चाहिए :d=2(1r)

पदानुक्रमिक क्लस्टरिंग के लिए सहसंबंध को दूरी में परिवर्तित करने का सबसे सटीक तरीका क्या है?


3
हां, संभव में से एक - और ज्यामितीय रूप से सही तरीका - अंतिम सूत्र है। लेकिन आप के संकेत की अवहेलना कर सकते हैं अगर यह आप के लिए समझ में आता है, तो यह है कि डी 2 = 2 ( 1 - | आर | ) । अधिकांश उदाहरणों में आपक्लस्टरिंग परिणामों को प्रभावित किए बिना 2 सुरक्षित रूप सेछोड़ सकते हैं। दूरी कोस्क्वेरडयूक्लिडियन केरूप में माना जा सकता है। मेंइसधागे यह चर्चा की गई कि क्या दूरी-परिवर्तित सहसंबंध उपायों मीट्रिक दूरी है। rd2=2(1|r|)2
ttnphns

2
इसके अलावा, आप नहीं करते है हमेशा कन्वर्ट करने के लिए एक रेखीय विषमताओं में इस तरह के इयूक्लिडियन दूरी के रूप में। ऐसा नहीं है कि शायद ही कभी लोग सीधे या आर के आधार पर क्लस्टरिंग करते हों | आर | समानता पर; यह कोणीय समानता हैrr|r|
ttnphns

जवाबों:


21

पदानुक्रमित क्लस्टरिंग के लिए आवश्यकताएँ

पदानुक्रमित क्लस्टरिंग का उपयोग मनमाने ढंग से समानता और असमानता उपायों के साथ किया जा सकता है। (अधिकांश उपकरण एक असमानता की उम्मीद करते हैं, लेकिन नकारात्मक मूल्यों की अनुमति देगा - यह सुनिश्चित करना आपके लिए है कि क्या छोटे या बड़े मूल्य को प्राथमिकता दी जाएगी।)

केवल केन्द्रक या विचरण पर आधारित तरीके (जैसे कि वार्ड की विधि) विशेष हैं, और स्क्वर्ड यूक्लिडियन के साथ उपयोग किया जाना चाहिए। (क्यों, यह समझने के लिए कृपया इन लिंकेज का ध्यानपूर्वक अध्ययन करें।)

एकल-लिंकेज, औसत-लिंकेज, पूर्ण-लिंकेज ज्यादा प्रभावित नहीं होते हैं, यह अभी भी न्यूनतम / औसत / जोड़ीदार असमानताओं का अधिकतम / अधिकतम होगा।

दूरी उपाय के रूप में सहसंबंध

यदि आप अपने डेटा ( n टिप्पणियों, पी सुविधाओं) को प्रीप्रोसेस करते हैं , तो प्रत्येक सुविधा में μ=0 और σ=1 (जो निरंतर सुविधाओं को अस्वीकार करता है!), तो सहसंबंध कॉशन को कम कर देता है:

Corr(X,Y)=Cov(X,Y)σXσY=E[(XμX)(YμY)]σXσY=E[XY]=1nX,Y

उन्हीं स्थितियों के तहत, यूक्लिडियन दूरी चुकाने से कोसाइन भी घट जाती है:

dEuclid2(X,Y)=(XiYi)2=Xi2+Yi22XiYi=2n2X,Y=2n[1Corr(X,Y)]

इसलिए, जब तक आपका डेटा कम नहीं होता है, तब तक पदानुक्रमिक क्लस्टरिंग के लिए सहसंबंध का उपयोग करना ठीक होना चाहिए। जैसा कि ऊपर बताया गया है, बस प्रीप्रोसेस करें, फिर चुकता यूक्लिडियन दूरी का उपयोग करें।


1
Only ward's method is special, and should be used with squared Euclidean। वार्ड का ही नहीं। सेंट्रोइड से सेंट्रोइड या विचलन की गणना करने वाली किसी भी विधि को ज्यामितीय परिशुद्धता के लिए यूक्लिडियन या स्क्वेरेड यूक्लिडियन (कार्यान्वयन के आधार पर) दूरी की आवश्यकता होगी। इस तरह के नुकसान और उचित चेतावनी के साथ, उन्हें अन्य मीट्रिक दूरी के साथ इस्तेमाल किया जा सकता है। वे विधियाँ केन्द्रक हैं, "माध्यिका", वार्ड की, भिन्नता (वार्ड के साथ भ्रमित होने की नहीं!) और कुछ अन्य।
tnnphns

धन्यवाद, मैंने इसे और स्पष्ट कर दिया है। मैं इन विविधताओं से अवगत नहीं था, मैं केवल एकल / औसत / पूर्ण / वार्ड के बारे में सोच रहा था।
एनी-मूस

1
,मैंमीटर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.