किस दूरी का उपयोग करना है? जैसे, मैनहट्टन, यूक्लिडियन, ब्रे-कर्टिस आदि


11

मैं सामुदायिक पारिस्थितिकीविज्ञानी नहीं हूं, लेकिन इन दिनों मैं सामुदायिक पारिस्थितिकी डेटा पर काम कर रहा हूं।

इन दूरियों के गणित के अलावा जो मैं समझ नहीं सका, वह यह है कि प्रत्येक दूरी का उपयोग करने के लिए और किन स्थितियों में इसे लागू किया जा सकता है। उदाहरण के लिए, गिनती डेटा के साथ क्या उपयोग किया जाए? दो स्थानों के बीच ढलान कोण को दूरी में कैसे परिवर्तित करें? या दो स्थानों पर तापमान या वर्षा? प्रत्येक दूरी के लिए क्या धारणाएं हैं और यह कब समझ में आता है?


दूरी के मैट्रिक्स, उनकी मान्यताओं, अर्थ और प्रयोज्यता को समझने का विश्वसनीय तरीका है अपने सूत्रों पर ध्यान लगाना। आप जानते हैं, तुलनात्मक शारीरिक रचना ने भविष्यवाणी करने की अनुमति दी है कि विभिन्न जानवर कैसे रहते हैं और व्यवहार करते हैं। साथ ही डिस्टेंस मेट्रिक्स के बारे में किताबें / लेख पढ़ें।
ttnphns

2
पेडिटिक नोट: ब्रे-कर्टिस एक दूरी नहीं बल्कि एक असमानता है।
फ्रेंक डर्नोनकोर्ट

जवाबों:


13

दुर्भाग्य से, ज्यादातर स्थितियों में आपके प्रश्न का स्पष्ट-कट उत्तर नहीं होता है। यही है, किसी भी आवेदन के लिए, निश्चित रूप से कई दूरी के मीट्रिक हैं जो समान और सटीक उत्तर प्राप्त करेंगे। यह देखते हुए कि दर्जनों, और संभवतः सैकड़ों हैं, वैध दूरी मैट्रिक्स का सक्रिय रूप से उपयोग किया जा रहा है, यह धारणा कि आप "सही" दूरी पा सकते हैं एक उपयुक्त दूरी मीट्रिक का चयन करने की समस्या के बारे में सोचने का एक उत्पादक तरीका नहीं है।

मैं इसके बजाय गलत दूरी वाली मीट्रिक नहीं चुनने पर ध्यान केंद्रित करूंगा । क्या आप चाहते हैं कि आपकी दूरी "पूर्ण परिमाण" को प्रतिबिंबित करे (उदाहरण के लिए, आप उन स्टॉक की पहचान करने के लिए दूरी का उपयोग करने में रुचि रखते हैं जिनके समान अर्थ होते हैं), या प्रतिक्रिया के समग्र आकार को प्रतिबिंबित करने के लिए (जैसे स्टॉक की कीमतें जो समय के साथ समान रूप से उतार-चढ़ाव करती हैं,) लेकिन पूरी तरह से अलग कच्चे मूल्यों हो सकता है)? पूर्व परिदृश्य उदाहरण के लिए मैनहट्टन और यूक्लिडियन के रूप में दूरियों को इंगित करेगा, जबकि उत्तरार्द्ध सहसंबंध दूरी का संकेत देगा, उदाहरण के लिए।

यदि आप अपने डेटा की सहसंयोजक संरचना को जानते हैं तो महालनोबिस दूरी संभवतः अधिक उपयुक्त है। विशुद्ध रूप से श्रेणीबद्ध डेटा के लिए कई प्रस्तावित दूरी हैं, उदाहरण के लिए, मिलान दूरी। मिश्रित श्रेणीबद्ध और निरंतर गोवर की दूरी के लिए लोकप्रिय है, (हालांकि मेरी राय में कुछ हद तक असंतोषजनक)।

अंत में, मेरी राय में आपके विश्लेषण को मजबूत किया जाएगा यदि आप प्रदर्शित करते हैं कि आपके परिणाम और निष्कर्ष दूरस्थ मीट्रिक (निश्चित दूरी के सबसेट के भीतर) की पसंद के लिए मजबूत हैं। यदि आपका विश्लेषण उपयोग की गई दूरी मीट्रिक में सूक्ष्म परिवर्तनों के साथ बहुत तेजी से बदलता है, तो असंगति के कारण की पहचान करने के लिए आगे का अध्ययन किया जाना चाहिए।


1
आपका क्या मतलब है correlation distance? 1- आर ?
ttnphns

1
@ttnphns yep, सबसे आम है। यह ध्यान देने योग्य है कि दिए गए समानता मेट्रिक परिवर्तित होने के लिए कम से कम तीन सूत्र हैं: (1) भट्टाचार्य की विधि , (2) कोलमोगोरोव की विधि , और (3) माटुसिटा की विधि । यह एक और क्षेत्र है जहां मुझे नहीं लगता कि विकल्प आमतौर पर बहुत मायने रखता है, और यदि ऐसा हुआ, तो मुझे अपने परिणामों की मजबूती की चिंता होगी। ρ [ - 1 , 1 ] सी एस - 1 ( ρ ) 1 - ρ 1rρ[1,1]cos1(ρ)1ρ practice22ρpractice
आहफ्स

मेरी अंतिम टिप्पणी के लिए प्रशस्ति पत्र: क्रिज़नोव्स्की (1983)। बायोमेट्रिक, 70 (1), 235--243। पेज 236. देखें
ahfoss

1
ठीक है धन्यवाद। कृपया इस उत्तर को भी देखें । यह इस तथ्य की ओर इशारा करता है कि आर बिल्कुल मानकीकृत डेटा (प्राप्त की जा रही प्रोफाइल) पर प्राप्त यूक्लिडियन दूरी से संबंधित है, जो reflect overall shape of the responseआपके शब्दों में है।
tnnphns

1
अच्छी पोस्ट। दो मीट्रिक वास्तव में संबंधित हैं, जैसा कि आप बताते हैं। वर्तमान चर्चा के लिए अपने बिंदुओं का संदर्भ देने के लिए, मुख्य अंतर यह है कि यूक्लिडियन दूरी में चर (आमतौर पर) केंद्रित नहीं होते हैं, लेकिन सहसंबंध सूत्र चर और तराजू को उनके मानक विचलन द्वारा केंद्र में रखते हैं। इस प्रकार, सहसंबंध रैखिक परिवर्तनों के लिए अपरिवर्तनीय है, जबकि यूक्लिडियन दूरी आवश्यक नहीं है।
ahfoss

6

सही दूरी चुनना कोई प्राथमिक कार्य नहीं है। जब हम डेटा सेट पर क्लस्टर विश्लेषण करना चाहते हैं, तो अलग-अलग परिणाम अलग-अलग दूरी का उपयोग करते हुए दिखाई दे सकते हैं, इसलिए यह सावधान रहना बहुत ज़रूरी है कि किस दूरी को चुनना है क्योंकि हम एक झूठे अच्छे आर्टिफैक्ट बना सकते हैं जो अच्छी तरह से परिवर्तनशीलता को पकड़ते हैं, लेकिन वास्तव में बिना हमारी समस्या में समझ।

इयूक्लिडियन जब मैं निरंतर संख्यात्मक चर है और मैं पूर्ण दूरी को प्रतिबिंबित करना चाहते दूरी उचित है। यह दूरी हर चर को ध्यान में रखती है और अतिरेक को दूर नहीं करती है, इसलिए यदि मेरे पास तीन चर हैं जो एक ही व्याख्या करते हैं (सहसंबद्ध हैं), तो मैं इस प्रभाव को तीन से कम कर दूंगा। इसके अलावा, यह दूरी पैमाना नहीं है, इसलिए आम तौर पर मुझे दूरी का उपयोग करने के लिए पहले से स्केल करना पड़ता है।
उदाहरण पारिस्थितिकी: हमारे पास कई क्षेत्रों के अलग-अलग अवलोकन हैं, जिनमें से विशेषज्ञों ने कुछ सूक्ष्मजीवविज्ञानी, भौतिक और रासायनिक कारकों के नमूने लिए हैं। हम पारिस्थितिकी तंत्र में पैटर्न ढूंढना चाहते हैं। इन कारकों का उच्च संबंध है, लेकिन हम जानते हैं कि हर कोई प्रासंगिक है, इसलिए हम इन अतिरेक को दूर नहीं करना चाहते हैं। हम इकाइयों के प्रभाव से बचने के लिए स्केल किए गए डेटा के साथ यूक्लिडियन दूरी का उपयोग करते हैं।

महालनोबिस जब मैं निरंतर संख्यात्मक चर है और मैं पूर्ण दूरी को प्रतिबिंबित करना चाहते हैं, लेकिन हम अतिरिक्तताओं निकालना चाहते दूरी उचित है। यदि हमने चर दोहराया है, तो उनका दोहराव प्रभाव गायब हो जाएगा।

परिवार के हेलिंगर , प्रजाति प्रोफ़ाइल और कॉर्ड की दूरी तब उपयुक्त होती है जब हम चर के बीच अंतर पर जोर देना चाहते हैं, जब हम प्रोफाइल को अलग करना चाहते हैं। ये दूरियां प्रत्येक अवलोकन की कुल मात्रा से वजन करती हैं, इस तरह से कि दूरी छोटी होती है जब चर द्वारा चर व्यक्तियों के समान होते हैं, हालांकि पूर्ण परिमाण में बहुत अलग था। ध्यान रहे! ये दूरियां प्रोफाइल के अंतर को बहुत अच्छी तरह से दर्शाती हैं, लेकिन परिमाण प्रभाव को खो देती हैं। जब हम अलग-अलग नमूना आकार रखते हैं तो वे बहुत उपयोगी हो सकते हैं।
उदाहरण पारिस्थितिकी: हम कई भूमि के जीवों का अध्ययन करना चाहते हैं और हमारे पास गैस्ट्रोपोड की एक सूची का एक डेटा मैट्रिक्स है (पंक्तियों में नमूने स्थानों और स्तंभों में प्रजातियों के नाम)। मैट्रिक्स में कई शून्य और विभिन्न परिमाण होने की विशेषता है क्योंकि कुछ इलाकों में कुछ प्रजातियां हैं और अन्य में अन्य प्रजातियां हैं। हम हेलिंगर दूरी का उपयोग कर सकते हैं।

ब्रे-कर्टिस काफी समान है, लेकिन यह अधिक उपयुक्त है जब हम प्रोफाइल को अलग करना चाहते हैं और रिश्तेदार परिमाण को भी ध्यान में रखते हैं।


उपयोग के मामलों और उदाहरणों की व्याख्या करने के लिए धन्यवाद। एयरो वर्गीकरण मॉडल के लिए आवेदन में यह बहुत उपयोगी पाया गया ।
S3DEV

4

मैनहट्टन की दूरी के बारे में: कॉफमैन, लियोनार्ड और पीटर जे। "डेटा में समूह खोजना: क्लस्टर विश्लेषण का परिचय।" (2005)।

मैनहट्टन दूरी का उपयोग उन स्थितियों में करने की सलाह दी जाती है, उदाहरण के लिए पहले चर में 1 का अंतर, और दूसरे चर में 3 का पहला चर में 2 का अंतर और दूसरे में 2 का अंतर समान है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.