पदानुक्रमित क्लस्टरिंग के लिए आवश्यकताएँ
पदानुक्रमित क्लस्टरिंग का उपयोग मनमाने ढंग से समानता और असमानता उपायों के साथ किया जा सकता है। (अधिकांश उपकरण एक असमानता की उम्मीद करते हैं, लेकिन नकारात्मक मूल्यों की अनुमति देगा - यह सुनिश्चित करना आपके लिए है कि क्या छोटे या बड़े मूल्य को प्राथमिकता दी जाएगी।)
केवल केन्द्रक या विचरण पर आधारित तरीके (जैसे कि वार्ड की विधि) विशेष हैं, और स्क्वर्ड यूक्लिडियन के साथ उपयोग किया जाना चाहिए। (क्यों, यह समझने के लिए कृपया इन लिंकेज का ध्यानपूर्वक अध्ययन करें।)
एकल-लिंकेज, औसत-लिंकेज, पूर्ण-लिंकेज ज्यादा प्रभावित नहीं होते हैं, यह अभी भी न्यूनतम / औसत / जोड़ीदार असमानताओं का अधिकतम / अधिकतम होगा।
दूरी उपाय के रूप में सहसंबंध
यदि आप अपने डेटा ( n टिप्पणियों, पी सुविधाओं) को प्रीप्रोसेस करते हैं , तो प्रत्येक सुविधा में μ = 0 और σ= 1 (जो निरंतर सुविधाओं को अस्वीकार करता है!), तो सहसंबंध कॉशन को कम कर देता है:
संवाददाता ( एक्स), वाई) = कोव ( एक्स), वाई)σएक्सσY= ई [ ( एक्स- μएक्स) ( वाई- μY) ]]σएक्सσY=E[XY]=1n⟨X,Y⟩
उन्हीं स्थितियों के तहत, यूक्लिडियन दूरी चुकाने से कोसाइन भी घट जाती है:
d2Euclid(X,Y)=∑(Xi−Yi)2=∑X2i+∑Y2i−2∑XiYi=2n−2⟨X,Y⟩=2n[1−Corr(X,Y)]
इसलिए, जब तक आपका डेटा कम नहीं होता है, तब तक पदानुक्रमिक क्लस्टरिंग के लिए सहसंबंध का उपयोग करना ठीक होना चाहिए। जैसा कि ऊपर बताया गया है, बस प्रीप्रोसेस करें, फिर चुकता यूक्लिडियन दूरी का उपयोग करें।