यूक्लिडियन दूरी के विपरीत मैनहट्टन दूरी का उपयोग कब होगा?


18

मैं एक अच्छे तर्क की तलाश में हूं कि मशीन लर्निंग में यूक्लिडियन दूरी पर मैनहट्टन की दूरी का उपयोग क्यों किया जाए ।

इस MIT लेक्चर पर अब तक मुझे जो सबसे अच्छी बात लगी, वह है

36:15 पर आप निम्नलिखित बयान देख सकते हैं:

"आमतौर पर यूक्लिडियन मीट्रिक का उपयोग करें; मैनहट्टन उपयुक्त हो सकता है यदि विभिन्न आयाम तुलनीय नहीं हैं। "

कुछ ही समय बाद प्रोफेसर कहते हैं कि, क्योंकि एक सरीसृप के पैरों की संख्या 0 से 4 तक भिन्न होती है (जबकि अन्य विशेषताएं बाइनरी हैं, केवल 0 से 1 तक भिन्न होती हैं), "पैरों की संख्या" सुविधा बहुत अधिक होने पर समाप्त हो जाएगी वजन अगर यूक्लिडियन दूरी का उपयोग किया जाता है। यकीन है कि पर्याप्त, वास्तव में सही है। लेकिन मैनहट्टन दूरी का उपयोग करने पर भी किसी को यह समस्या होगी (केवल यह कि समस्या थोड़ी कम हो जाएगी क्योंकि हम अंतर को यूक्लिडियन दूरी पर नहीं करते हैं)।

उपरोक्त समस्या को हल करने का एक बेहतर तरीका "पैरों की संख्या" सुविधा को सामान्य करना होगा, इसलिए इसका मूल्य हमेशा 0 और 1 के बीच होगा।

इसलिए, चूंकि समस्या को हल करने का एक बेहतर तरीका है, इसलिए ऐसा महसूस हुआ कि इस मामले में मैनहट्टन दूरी का उपयोग करने के तर्क में एक मजबूत बिंदु का अभाव था, कम से कम मेरी राय में।

क्या किसी को वास्तव में पता है कि क्यों और कब कोई यूक्लिडियन से अधिक मैनहट्टन दूरी का उपयोग करेगा? क्या कोई मुझे एक उदाहरण दे सकता है जिसमें मैनहट्टन दूरी का उपयोग करने से बेहतर परिणाम मिलेंगे?

जवाबों:


4

इस दिलचस्प पेपर के अनुसार, उच्च आयामी डेटा के मामले में मैनहट्टन की दूरी (L1 मानदंड) यूक्लिडियन दूरी (L2 मानदंड) के लिए बेहतर हो सकती है:

https://bib.dbvis.de/uploadedFiles/155.pdf

कागज के लेखक आगे भी एक कदम आगे बढ़ते हैं और दूरी के आधार पर एल्गोरिदम के परिणामों को बेहतर बनाने के लिए बहुत उच्च आयामी डेटा के लिए, एल के मानक दूरी का उपयोग करने का सुझाव देते हैं।


आंकड़े.stackexchange.com/a/99191 एक पूर्ण उत्तर प्रदान करता है
mic

3

मैं विकिपीडिया से, कुछ विचार सुझा सकता हूं ।

  1. यदि आप आउटलेर्स पर कम जोर देना चाहते हैं, तो मैनहट्टन दूरी सभी त्रुटियों को समान रूप से कम करने की कोशिश करेगी क्योंकि ढाल में निरंतर परिमाण है।
  2. यदि आपका शोर लाप्लासियन वितरित किया जाता है, तो MLE मैनहट्टन के अनुमान को कम करके पाया जाता है।

3

मैं जो कुछ हो सकता है पाया अंतर्ज्ञान में इस समस्या के बारे में के साथ Scikit-जानें और TensorFlow हाथों पर मशीन लर्निंग

RMSE और MAE दोनों दो वैक्टर के बीच की दूरी को मापने के तरीके हैं: भविष्यवाणियों का सदिश और लक्ष्य मानों का सदिश। विभिन्न दूरी के उपाय या मानदंड संभव हैं:

  • एक वर्ग (RMSE) के योग की जड़ की तुलना यूक्लिडियन मानदंड से मेल खाती है: यह उस दूरी की धारणा है जिससे आप परिचित हैं। इसे norm2 मानदंड (...) भी कहा जाता है

  • निरपेक्ष (एमएई) का योग कम्प्यूटिंग ℓ1 मानदंड से मेल खाता है, (...)। इसे कभी-कभी मैनहट्टन मानदंड कहा जाता है क्योंकि यह एक शहर में दो बिंदुओं के बीच की दूरी को मापता है यदि आप केवल ऑर्थोगोनल शहर ब्लॉकों के साथ यात्रा कर सकते हैं।

  • अधिक सामान्यतः, (...) just 0 बस वेक्टर में गैर-शून्य तत्वों की संख्या देता है, और absolute वेक्टर में अधिकतम निरपेक्ष मान देता है।

  • उच्चतर मानक सूचकांक, जितना अधिक यह बड़े मूल्यों पर ध्यान केंद्रित करता है और छोटे लोगों की उपेक्षा करता है। यही कारण है कि आरएमएसई एमएई की तुलना में आउटलेर्स के लिए अधिक संवेदनशील है। लेकिन जब आउटलेरर्स घातीय रूप से दुर्लभ होते हैं (जैसे घंटी के आकार का वक्र), तो आरएमएसई बहुत अच्छा प्रदर्शन करता है और आमतौर पर पसंद किया जाता है।


2

मैनहट्टन की दूरी का उपयोग उस तरह की सह-समन्वय प्रणाली पर निर्भर करता है जो आपके डेटासेट का उपयोग कर रहा है। जबकि यूक्लिडियन दूरी दो बिंदुओं के बीच सबसे छोटी या न्यूनतम दूरी देती है, मैनहट्टन में विशिष्ट कार्यान्वयन हैं।

उदाहरण के लिए, यदि हम एक शतरंज डेटासेट का उपयोग करते हैं, तो मैनहट्टन की दूरी का उपयोग यूक्लिडियन दूरी से अधिक उपयुक्त है। एक और उपयोग तब होगा जब उन घरों के बीच की दूरी जानने में रुचि होगी जो कुछ ब्लॉक हैं।

इसके अलावा, आप मैनहट्टन की दूरी पर विचार करना चाह सकते हैं यदि इनपुट चर प्रकार (जैसे कि उम्र, लिंग, ऊंचाई, आदि) में समान नहीं हैं। आयाम के अभिशाप के कारण, हम जानते हैं कि यूक्लिडियन दूरी एक गरीब विकल्प बन जाती है क्योंकि आयामों की संख्या बढ़ जाती है।

इसलिए संक्षेप में: मैनहट्टन की दूरी आम तौर पर केवल तभी काम करती है जब अंकों को ग्रिड के रूप में व्यवस्थित किया जाता है और जिस समस्या पर हम काम कर रहे हैं, वह केवल ग्रिड के साथ-साथ अंकों के बीच की दूरी को अधिक प्राथमिकता देती है, लेकिन ज्यामितीय दूरी को नहीं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.