सही दूरी चुनना कोई प्राथमिक कार्य नहीं है। जब हम डेटा सेट पर क्लस्टर विश्लेषण करना चाहते हैं, तो अलग-अलग परिणाम अलग-अलग दूरी का उपयोग करते हुए दिखाई दे सकते हैं, इसलिए यह सावधान रहना बहुत ज़रूरी है कि किस दूरी को चुनना है क्योंकि हम एक झूठे अच्छे आर्टिफैक्ट बना सकते हैं जो अच्छी तरह से परिवर्तनशीलता को पकड़ते हैं, लेकिन वास्तव में बिना हमारी समस्या में समझ।
इयूक्लिडियन जब मैं निरंतर संख्यात्मक चर है और मैं पूर्ण दूरी को प्रतिबिंबित करना चाहते दूरी उचित है। यह दूरी हर चर को ध्यान में रखती है और अतिरेक को दूर नहीं करती है, इसलिए यदि मेरे पास तीन चर हैं जो एक ही व्याख्या करते हैं (सहसंबद्ध हैं), तो मैं इस प्रभाव को तीन से कम कर दूंगा। इसके अलावा, यह दूरी पैमाना नहीं है, इसलिए आम तौर पर मुझे दूरी का उपयोग करने के लिए पहले से स्केल करना पड़ता है।
उदाहरण पारिस्थितिकी: हमारे पास कई क्षेत्रों के अलग-अलग अवलोकन हैं, जिनमें से विशेषज्ञों ने कुछ सूक्ष्मजीवविज्ञानी, भौतिक और रासायनिक कारकों के नमूने लिए हैं। हम पारिस्थितिकी तंत्र में पैटर्न ढूंढना चाहते हैं। इन कारकों का उच्च संबंध है, लेकिन हम जानते हैं कि हर कोई प्रासंगिक है, इसलिए हम इन अतिरेक को दूर नहीं करना चाहते हैं। हम इकाइयों के प्रभाव से बचने के लिए स्केल किए गए डेटा के साथ यूक्लिडियन दूरी का उपयोग करते हैं।
महालनोबिस जब मैं निरंतर संख्यात्मक चर है और मैं पूर्ण दूरी को प्रतिबिंबित करना चाहते हैं, लेकिन हम अतिरिक्तताओं निकालना चाहते दूरी उचित है। यदि हमने चर दोहराया है, तो उनका दोहराव प्रभाव गायब हो जाएगा।
परिवार के हेलिंगर , प्रजाति प्रोफ़ाइल और कॉर्ड की दूरी तब उपयुक्त होती है जब हम चर के बीच अंतर पर जोर देना चाहते हैं, जब हम प्रोफाइल को अलग करना चाहते हैं। ये दूरियां प्रत्येक अवलोकन की कुल मात्रा से वजन करती हैं, इस तरह से कि दूरी छोटी होती है जब चर द्वारा चर व्यक्तियों के समान होते हैं, हालांकि पूर्ण परिमाण में बहुत अलग था। ध्यान रहे! ये दूरियां प्रोफाइल के अंतर को बहुत अच्छी तरह से दर्शाती हैं, लेकिन परिमाण प्रभाव को खो देती हैं। जब हम अलग-अलग नमूना आकार रखते हैं तो वे बहुत उपयोगी हो सकते हैं।
उदाहरण पारिस्थितिकी: हम कई भूमि के जीवों का अध्ययन करना चाहते हैं और हमारे पास गैस्ट्रोपोड की एक सूची का एक डेटा मैट्रिक्स है (पंक्तियों में नमूने स्थानों और स्तंभों में प्रजातियों के नाम)। मैट्रिक्स में कई शून्य और विभिन्न परिमाण होने की विशेषता है क्योंकि कुछ इलाकों में कुछ प्रजातियां हैं और अन्य में अन्य प्रजातियां हैं। हम हेलिंगर दूरी का उपयोग कर सकते हैं।
ब्रे-कर्टिस काफी समान है, लेकिन यह अधिक उपयुक्त है जब हम प्रोफाइल को अलग करना चाहते हैं और रिश्तेदार परिमाण को भी ध्यान में रखते हैं।