यूक्लिडियन दूरी उच्च आयामों में एक अच्छी मीट्रिक क्यों नहीं है?


239

मैंने पढ़ा कि 'यूक्लिडियन दूरी उच्च आयामों में एक अच्छी दूरी नहीं है'। मुझे लगता है कि इस कथन का आयामीता के अभिशाप से कुछ लेना देना है, लेकिन वास्तव में क्या? इसके अलावा, 'उच्च आयाम' क्या है? मैं 100 विशेषताओं के साथ यूक्लिडियन दूरी का उपयोग करते हुए पदानुक्रमिक क्लस्टरिंग लागू कर रहा हूं। इस मीट्रिक का उपयोग करने के लिए यह 'सुरक्षित' कितनी विशेषताओं में है?



5
यह संभवतः आपके लिए बहुत बुनियादी है; मैंने उच्च आयामों में यूक्लिडियन मीट्रिक के विषय पर ब्लॉग पोस्टों की एक श्रृंखला लिखी और यह कि निकटतम मैचों के लिए वेक्टर रिक्त स्थान की खोज को कैसे प्रभावित करता है। blogs.msdn.com/b/ericlippert/archive/tags/…
एरिक

1
@ HorstGrünbusch कुछ संदर्भों के लिए नीचे दिए गए उत्तर देखते हैं। दूरियों की विविधता औसत की तुलना में छोटी हो जाती है। तो कुछ बिंदु पर, आप थ्रेसहोल्ड, वज़न, ऑर्डर चुनने में परेशानी में हैं; और आपको संख्यात्मक सटीक समस्याएं भी मिल सकती हैं। लेकिन अगर आपका डेटा विरल है, तो इसकी संभावना बहुत कम आंतरिक आयामीता है।
एनोनी-मूस

3
"उच्च आयाम" एक भ्रामक शब्द प्रतीत होता है - कुछ उत्तर 9-12 को "उच्च आयाम" के रूप में मान रहे हैं, लेकिन अन्य क्षेत्रों में उच्च आयामीता का अर्थ हजारों या मिलियन आयाम होगा (जैसे, बैग-ऑफ-शब्द वैक्टर के बीच कोणों को मापना प्रत्येक आयाम एक शब्दकोश में कुछ शब्द की आवृत्ति है), और 100 आयामों को निम्न कहा जाएगा, उच्च नहीं।
पीटरिस

2
यह प्रश्न वास्तव में कुछ संदर्भ के साथ कर सकता है। किस लिए अच्छा नहीं है?
स्ज़बोल्क्स

जवाबों:


242

उच्च आयामों में गैर-सहज ज्ञान युक्त परिणामों का एक बड़ा सारांश वाशिंगटन विश्वविद्यालय में पेड्रो डोमिंगोस द्वारा " मशीन सीखने के बारे में जानने के लिए कुछ उपयोगी चीजें " से आता है :

[ओ] उर अंतर्ज्ञान, जो तीन आयामी दुनिया से आते हैं, अक्सर उच्च आयामी वाले में लागू नहीं होते हैं। उच्च आयामों में, एक बहुभिन्नरूपी गौसियन वितरण का अधिकांश द्रव्यमान के पास नहीं है, लेकिन इसके चारों ओर एक तेजी से "खोल" में; और एक उच्च-आयामी नारंगी की मात्रा का अधिकांश हिस्सा त्वचा में होता है, लुगदी में नहीं। यदि उच्च आयाम वाले हाइपरक्यूब में एक समान संख्या में उदाहरणों को समान रूप से वितरित किया जाता है, तो कुछ आयामीता से परे अधिकांश उदाहरण हाइपरक्यूब के चेहरे के करीब होते हैं जो उनके निकटतम पड़ोसी की तुलना में अधिक है। और अगर हम किसी हाइपरक्यूब में इसे लिखकर एक हाइपरस्फियर का अनुमान लगाते हैं, तो उच्च आयामों में हाइपरक्यूब का लगभग सभी वॉल्यूम हाइपरस्फेयर के बाहर होता है। यह मशीन सीखने के लिए बुरी खबर है, जहां एक प्रकार के आकार को अक्सर दूसरे के आकार द्वारा अनुमानित किया जाता है।

मशीन सीखने के लिए ज्ञान के कई अतिरिक्त मोती से भी लेख भरा हुआ है।

मशीन लर्निंग से परे एक अन्य एप्लिकेशन, निकटतम पड़ोसी खोज है: रुचि का अवलोकन दिया, अपने निकटतम पड़ोसियों को ढूंढें (इस अर्थ में कि ये क्वेरी बिंदु से सबसे छोटी दूरी के साथ बिंदु हैं)। लेकिन उच्च आयामों में, एक जिज्ञासु घटना उत्पन्न होती है: निकटतम और सबसे दूर के बिंदुओं के बीच का अनुपात 1 आता है, यानी अंक अनिवार्य रूप से एक दूसरे से समान रूप से दूर हो जाते हैं। इस घटना को विभिन्न प्रकार की दूरी मीट्रिक के लिए देखा जा सकता है, लेकिन यह यूक्लिडियन मीट्रिक की तुलना में अधिक स्पष्ट है, मानहट्टन दूरी मीट्रिक। निकटतम पड़ोसी खोज का आधार यह है कि "दूर" अंक "दूर" अंक की तुलना में अधिक प्रासंगिक हैं, लेकिन यदि सभी बिंदु अनिवार्य रूप से एक दूसरे से समान रूप से दूर हैं, तो अंतर अर्थहीन है।

चारू सी। अग्रवाल, अलेक्जेंडर हाइनबर्ग, डैनियल ए। कीम, " हाई डायमेंशनल स्पेस में डिस्टेंस मेट्रिक्स के आश्चर्य व्यवहार " पर:

[केविन बेयर, जोनाथन गोल्डस्टीन, रघु रामकृष्णन, उरी दस्ता, " व्हेन इज़ नेबस्ट नेबर 'मीनिंगफुल? "] में तर्क दिया गया है कि डेटा वितरण पर कुछ उचित मान्यताओं के तहत, निकटतम और सबसे दूर के पड़ोसियों की दूरी का अनुपात? उच्च आयामी अंतरिक्ष में दिए गए लक्ष्य के लिए डेटा वितरण और दूरी कार्यों की एक विस्तृत विविधता के लिए लगभग 1 है। ऐसे मामले में, निकटतम पड़ोसी समस्या बीमार हो जाती है, क्योंकि भिन्न डेटा बिंदुओं के बीच की दूरी मौजूद नहीं है। ऐसे मामलों में, निकटता की अवधारणा भी गुणात्मक दृष्टिकोण से सार्थक नहीं हो सकती है: एक समस्या जो उच्च आयामी एल्गोरिदम के प्रदर्शन में गिरावट से भी अधिक मौलिक है।

... कई उच्च-आयामी अनुक्रमण संरचनाएं और एल्गोरिदम दो या- या तीन-आयामी स्थानिक अनुप्रयोगों में अपने पारंपरिक उपयोग के प्राकृतिक विस्तार के रूप में [ई] यूक्लिडियन दूरी मीट्रिक का उपयोग करते हैं। ... इस पत्र में हम के मूल्य पर मानक की निर्भरता का विश्लेषण करने में कुछ आश्चर्यजनक सैद्धांतिक और प्रयोगात्मक परिणाम प्रदान करते हैं । अधिक विशेष रूप से, हम दिखाते हैं कि दूर बिंदु के सापेक्ष विरोधाभासी बिंदु का उपयोग मीट्रिक पर बहुत अधिक निर्भर करता है। यह काफी सबूत प्रदान करता है कि मानक की उच्च मूल्यों के लिए बढ़ती हुई आयाम के भीतर तेजी से बिगड़ती है । इस प्रकार, आयामी स्वरूप के लिए एक निश्चित (उच्च) मूल्य के साथ एक भी समस्या के लिए कश्मीर एल कश्मीर एल कश्मीर कश्मीर कश्मीर एल 1 एल 2LkkLkLkkd, यह कम मूल्यों का उपयोग करने के लिए बेहतर हो सकता है । इसका मतलब है कि डिस्टेंस मेट्रिक (मैनहट्टन डिस्टेंस मेट्रिक) हाई एप्लिकेशन के लिए सबसे बेहतर है, इसके बाद यूक्लिडियन मैट्रिक ( ) है। ...kL1L2

" करने वाला व्यवहार" पत्र के लेखकों ने फिर साथ मानदंडों का उपयोग करने का प्रस्ताव । वे कुछ परिणाम उत्पन्न करते हैं जो प्रदर्शित करते हैं कि ये "आंशिक मानदंड" सबसे दूर और निकटतम बिंदुओं के बीच विपरीत को बढ़ाने की संपत्ति को प्रदर्शित करते हैं। यह कुछ संदर्भों में उपयोगी हो सकता है, हालांकि एक चेतावनी है: ये "आंशिक मानदंड" उचित दूरी के मैट्रिक्स नहीं हैं क्योंकि वे त्रिकोण असमानता का उल्लंघन करते हैं। यदि आपके शोध में त्रिभुज असमानता एक महत्वपूर्ण गुण है, तो भिन्नात्मक मैट्रिक्स बहुत उपयोगी नहीं होने जा रहे हैं। के < Lkk<1


7
यह संदर्भ भयानक है
एंटोनी

1
एक बार फिर से पढ़ना ... सुंदर ...
रिचर्ड हार्डी

113

यूक्लिडियन दूरी की धारणा, जो यूक्लिड द्वारा अध्ययन किए गए द्वि-आयामी और तीन-आयामी दुनिया में अच्छी तरह से काम करती है, उच्च आयामों में कुछ गुण हैं जो हमारे (शायद सिर्फ मेरे ) ज्यामितीय अंतर्ज्ञान के विपरीत हैं जो दो और तीन से एक एक्सट्रपलेशन भी है। आयाम।

पर कोने के साथ वर्ग पर विचार करें । पर केंद्रित चार इकाई-त्रिज्या वृत्त बनाएं । ये "भरण" वर्ग को करते हैं, जिसके प्रत्येक वृत्त को दो बिंदुओं पर वर्ग के पक्षों को छूते हैं, और प्रत्येक वृत्त को उसके दो पड़ोसियों को छूते हैं। उदाहरण के लिए, पर केंद्रित वृत्त वर्ग के किनारों और छूता है , और इसके पड़ोसी वृत्त और छूता है । अगला, मूल पर केंद्रित एक छोटा वृत्त खींचना( ± 2 , ± 2 ) ( ± 1 , ± 1 ) ( 1 , 1 ) ( 2 , 1 ) ( 1 , 2 ) ( 1 , 0 ) ( 0 , 1 ) आर 2 = 4×4(±2,±2)(±1,±1)(1,1)(2,1)(1,2)(1,0)(0,1)जो सभी चार मंडलियों को स्पर्श करता है। रेखा खंड जिसका अंतिम बिंदुओं दो osculating हलकों के केंद्र हैं बोसा के बिंदु से होकर गुजरता है के बाद से, यह आसानी से सत्यापित किया गया है है कि छोटा वृत्त त्रिज्या और है कि यह छूता है चार बड़े हलकों में छू लेती है । ध्यान दें कि छोटा वृत्त चार बड़े घेरों द्वारा "पूरी तरह से घिरा हुआ है" और इस तरह पूरी तरह से वर्ग के अंदर भी है। ध्यान दें कि बिंदु छोटे वृत्त पर स्थित है। ध्यान दें कि मूल से, कोई भी वर्ग के किनारे पर बिंदु को "नहीं" देख सकता है क्योंकि दृष्टि की रेखा दो सर्कल के के बिंदु से गुजरती है परr2=21(±r2/2,±r2/2)(r2,0)(2,0,0)(1,0,0)(1,1) और । अन्य बिंदुओं पर दृष्टि की रेखाओं के लिए डिट्टो जहां कुल्हाड़ियों वर्ग के किनारों से गुजरती हैं।(1,1)

अगला, घन पर चक्कर के साथ । हम इसे osculating यूनिट-त्रिज्या क्षेत्रों पर केंद्रित करते हैं, और फिर मूल पर केंद्रित एक छोटी osculating क्षेत्र डालते हैं। ध्यान दें कि छोटे क्षेत्र में त्रिज्या और बिंदु छोटे क्षेत्र की सतह पर स्थित है। लेकिन यह भी देखें कि तीन आयामों में, कोई बिंदु को "देख" सकता है4×4×4(±2,±2,±2)8(±1,±1,±1)r3=31<1(r3,0,0)(2,0,0)मूल से; दो आयामों में होने वाले दृश्य को अवरुद्ध करने वाले बड़े से बड़े क्षेत्र नहीं हैं। मूल से दृष्टि की ये स्पष्ट रेखाएं जहां कुल्हाड़ियों की सतह से गुजरती हैं उन सभी बड़े आयामों में भी होती हैं।

सामान्यीकरण, हम साइड -dimensional हाइपरक्यूब पर विचार कर सकते हैं और इसे ऑक्यूलेटिंग यूनिट-त्रिज्या हाइपरस्प्रेस से भर सकते हैं और फिर एक "छोटा" डालते हैं मूल में त्रिज्या को अलग करना। बिंदु इस "छोटे" क्षेत्र पर स्थित है। लेकिन, से ध्यान दें कि जब , और इसलिए "छोटे" क्षेत्र में इकाई त्रिज्या है और इस प्रकार वास्तव में लिए "छोटे" के लायक नहीं है।n42n(±1,±1,,±1)

(1)rn=n1
(rn,0,0,,0)(1)n=4rn=1n4। वास्तव में, यह बेहतर होगा कि हम इसे "बड़ा क्षेत्र" या सिर्फ "केंद्रीय क्षेत्र" कहें। जैसा कि पिछले पैराग्राफ में उल्लेख किया गया है, मूल से दृष्टि की स्पष्ट रेखा है जहां कुल्हाड़ियों हाइपरब्यूब की सतह से गुजरती हैं। इससे भी बदतर, जब , हमारे पास कि , और इस प्रकार केंद्रीय क्षेत्र पर बिंदु पक्ष के हाइपरक्यूब के बाहर स्थित है , हालांकि यह है यूनिट-रेडियस हाइपरफेरेस द्वारा "पूरी तरह से घिरा हुआ" जो हाइपरक्यूब (इसे पैक करने के अर्थ में) को "भर" देता है।n>9(1)rn>2(rn,0,0,,0)4 उच्च-आयामी अंतरिक्ष में हाइपरक्यूब के बाहर केंद्रीय क्षेत्र "उभार"। मुझे यह बहुत सहज लगता है क्योंकि यूक्लिडियन की धारणा के मेरे मानसिक अनुवाद उच्च आयामों के लिए, ज्यामितीय अंतर्ज्ञान का उपयोग करके जो मैंने 2-स्पेस और 3-स्पेस से विकसित किया है जिससे मैं परिचित हूं, की वास्तविकता का वर्णन न करें उच्च आयामी स्थान।

ओपी के सवाल का मेरा जवाब "इसके अलावा, 'उच्च आयाम' क्या है?" है ।n9



9
@ stackoverflowuser2010: यदि यह उत्तर पूरी तरह से समझ से बाहर है, तो आप यह कैसे बता सकते हैं कि यह मूल प्रश्न को संबोधित करने का प्रयास करता है या नहीं? एक अधिक रचनात्मक दृष्टिकोण यह हो सकता है कि आप हाथ से पूरी चीज को खारिज करने के बजाय किसी भी बिंदु को स्पष्ट करने के लिए कहें।
Scortchi

8
@ stackoverflowuser2010 चूंकि इस उत्तर में कई दर्जन अपवोट हैं, इसलिए ऐसा प्रतीत होता है कि कई लोगों को लगता है कि यह दोनों ही समझ से बाहर है और कुछ स्वीकार्य तरीके से इस सवाल का जवाब देते हैं। शायद आप अधिक रचनात्मक आलोचना का प्रयास कर सकते हैं - कैसे, विशेष रूप से आपको लगता है कि यह उत्तर बेहतर होगा? इसमें क्या शामिल होना चाहिए कि यह नहीं करता है?
Glen_b

1
@ स्कोर्टची: शायद मैं बहुत ज्यादा उम्मीद कर रहा हूं, लेकिन इस सवाल का एक स्पष्ट जवाब है जो समुदाय की मदद कर सकता है जैसे "यूक्लिडियन दूरी एक अच्छा मीट्रिक नहीं है क्योंकि <एक्स>"।
stackoverflowuser2010

7
@ stackoverflow2010 आपको कभी भी इस तरह से "अच्छा" उत्तर दिखाई नहीं देगा क्योंकि <-if स्टेटमेंट> की तुलना में चीजें बहुत अधिक जटिल हैं। यदि आप एक आसान जवाब चाहते हैं, तो यह सबसे अधिक गलत है। लानत ब्रेक्सिट झूठ की तरह, वे आसान जवाब देने में अच्छे थे (झूठे, लेकिन आसान)।
एनॉनी-मूस जू

42

यह सिग्नल टू शोर का मामला है । यूक्लिडियन दूरी, चुकता शर्तों के कारण, विशेष रूप से शोर के प्रति संवेदनशील है; लेकिन यहां तक ​​कि मैनहट्टन की दूरी और "आंशिक" (गैर-मीट्रिक) दूरी भी।

मैंने इस लेख में अध्ययन को बहुत ज्ञानवर्धक पाया:

ज़िमेक, ए।, शूबर्ट, ई। और क्रिगेल, एच.-पी। (२०१२),
उच्च-आयामी संख्यात्मक डेटा में अप्रकाशित बाहरी पता लगाने पर एक सर्वेक्षण।
सांख्यिकीय विश्लेषण डेटा खनन, 5: 363–387। doi: 10.1002 / sam.11161

यह @Pat द्वारा उल्लिखित अग्रवाल, हाइनबर्ग और कीम द्वारा उच्च आयामी अंतरिक्ष में दूरी मेट्रिक्स के आश्चर्यचकित करने वाले व्यवहार पर किए गए टिप्पणियों को फिर से दर्शाता है। लेकिन यह भी पता चलता है कि कैसे सिंथेटिक प्रयोग भ्रामक हैं और वास्तव में उच्च-आयामी डेटा आसान हो सकते हैं । यदि आपके पास बहुत अधिक (निरर्थक) संकेत है, और नए आयाम थोड़ा शोर जोड़ते हैं।

डुप्लिकेट आयामों पर विचार करते समय अंतिम दावा संभवतः सबसे स्पष्ट है। अपने डेटा सेट मैप करने से प्रतिनिधि की बढ़ जाती है, लेकिन यह यूक्लिडियन दूरी को विफल नहीं करता है। (यह भी देखें: आंतरिक आयाम )x,yx,y,x,y,x,y,x,y,...,x,y

तो अंत में, यह अभी भी आपके डेटा पर निर्भर करता है। यदि आपके पास बहुत सारे बेकार गुण हैं, तो यूक्लिडियन दूरी बेकार हो जाएगी। यदि आप अपने डेटा को कम-आयामी डेटा स्थान में आसानी से एम्बेड कर सकते हैं, तो यूक्लिडियन दूरी को पूर्ण आयामी स्थान में भी काम करना चाहिए। पाठ से TF डेटा जैसे विरल डेटा के लिए विशेष रूप से, यह ऐसा प्रतीत होता है कि डेटा वेक्टर स्पेस मॉडल की तुलना में बहुत कम आयामी है।

कुछ लोगों का मानना ​​है कि उच्च-आयामी डेटा पर यूक्लिडियन की तुलना में कॉशन दूरी बेहतर है। मुझे ऐसा नहीं लगता है: कोसाइन दूरी और यूक्लिडियन दूरी निकट से संबंधित हैं; इसलिए हमें उनसे समान समस्याओं से पीड़ित होने की अपेक्षा करनी चाहिए। हालाँकि, पाठ डेटा जहाँ कोसाइन लोकप्रिय है, आमतौर पर विरल होता है , और कॉज़ेन स्पार्स डेटा पर अधिक तेज़ होता है - इसलिए विरल डेटा के लिए, कॉज़ेन का उपयोग करने के अच्छे कारण हैं; और क्योंकि डेटा विरल है आंतरिक आंतरिक सदिश अंतरिक्ष आयाम की तुलना में बहुत कम है।

यह उत्तर भी देखें मैंने पहले वाले प्रश्न को दिया था: https://stats.stackexchange.com/a/29647/7828


बेतरतीब ढंग से रखे गए बिंदुओं का औसत कोण हमेशा बड़े के लिए 90 ° के करीब है ( यहाँ प्लॉट देखें ) एन[1,1]nn
मार्टिन थोमा

और इससे निष्कर्ष क्या होगा? [-1; 1] ^ d को कोसाइन का उपयोग नहीं करना चाहिए क्योंकि यह 0 पर परिभाषित नहीं है, औसत हमें शाप के बारे में कुछ भी नहीं बताता है, और समान डेटा अवास्तविक है।
ऐनी-मूस

मैंने अब तक इसकी कोशिश नहीं की, लेकिन मुझे लगता है कि कोण वास्तविक डेटा के लिए समान दिखते हैं। तथ्य यह है कि इसे 0 पर परिभाषित नहीं किया जाना चाहिए वास्तव में कोई फर्क नहीं पड़ता क्योंकि यह सिर्फ एक बिंदु है। मेरा निष्कर्ष आपके समान है: कोसाइन की दूरी उच्च-आयामी रिक्त स्थान के लिए अच्छी तरह से अनुकूल नहीं है (हालांकि वहाँ डोमेन हो सकता है यह अभी भी काम करता है)
मार्टिन थोमा

एक अधिक यथार्थवादी परिदृश्य nonnegative इकाई क्षेत्र पर अंक होगा। और ब्याज की माप भिन्नता होगी, मतलब नहीं।
Anony-Mousse

गैर-नकारात्मक इकाई क्षेत्र में जाने के लिए आपको केवल +1 जोड़ना होगा और 2 से भाग देना होगा ...
मार्टिन थोमा

34

शुरू करने के लिए सबसे अच्छी जगह संभवतया अग्रवाल, हाइनबर्ग और कीम द्वारा उच्च आयामी अंतरिक्ष में दूरस्थ मेट्रिक्स के आश्चर्य व्यवहार पर पढ़ना है । वर्तमान में यहां (पीडीएफ) लिंक काम कर रहा है , लेकिन अगर यह टूटता है तो यह बहुत ही सक्षम होना चाहिए। संक्षेप में, जैसा कि आयामों की संख्या बढ़ती है, एक सेट और उसके निकटतम पड़ोसी में एक बिंदु के बीच सापेक्ष यूक्लिडियन दूरी, और उस बिंदु और उसके सबसे प्यारे पड़ोसी के बीच, कुछ गैर-स्पष्ट तरीकों में परिवर्तन होता है। यह आपके परिणामों को बुरी तरह से प्रभावित करेगा या नहीं, यह इस बात पर बहुत हद तक निर्भर करता है कि आप क्या हासिल करने की कोशिश कर रहे हैं और आपका डेटा कैसा है।


6

मशीन लर्निंग में चुनने के लिए यूक्लिडियन दूरी बहुत कम दूरी है और उच्च आयामों में यह अधिक स्पष्ट हो जाता है। इसका कारण यह है कि मशीन लर्निंग में अधिकांश समय आप यूक्लिडियन मैट्रिक स्पेस के साथ काम नहीं कर रहे हैं, लेकिन एक प्रोबेबिलिस्टिक मैट्रिक स्पेस है और इसलिए आपको प्रोबेबिलिस्टिक और सूचना सिद्धांत दूरी कार्यों का उपयोग करना चाहिए, जैसे एन्ट्रापी आधारित।

यूक्लिडियन अंतरिक्ष जैसे मनुष्य क्योंकि यह अवधारणा के लिए आसान है, इसके अलावा यह गणितीय रूप से आसान है क्योंकि रैखिकता गुणों का मतलब है कि हम रैखिक बीजगणित को लागू कर सकते हैं। अगर हम कुल्लबैक-लीब्लर डाइवरेज के संदर्भ में दूरियों को परिभाषित करते हैं, तो गणितीय रूप से कल्पना करना और काम करना कठिन है।


2
यह समस्याग्रस्त हो सकता है, क्योंकि केएल डाइवर्जेंस एक मीट्रिक नहीं है। :-)
एग्री

2
यदि किसी को समरूपता की आवश्यकता है, तो आप म्यूचुअल इंफॉर्मेशन का उपयोग कर सकते हैं, जो संकेत के रूप में, केएल के संदर्भ में परिभाषित किया जा सकता है।
samthebest

3

एक सादृश्य के रूप में, मूल पर केंद्रित एक चक्र की कल्पना करें। समान रूप से अंक वितरित किए जाते हैं। मान लीजिए कि एक बेतरतीब ढंग से चयनित बिंदु पर है (X1, x2)। मूल से यूक्लिडियन दूरी ((X1) ^ 2 + (x2) ^ 2) ^ 0.5 है

अब, बिंदुओं को समान रूप से एक गोले के ऊपर वितरित करें। वही बिंदु (X1, x2) अब संभावित होगा (X1, x2, x3)। चूंकि, एक समान वितरण में, केवल कुछ बिंदुओं में समन्वय के रूप में शून्य में से एक होता है, हम मान लेंगे कि हमारे यादृच्छिक रूप से समान रूप से वितरित बिंदु के लिए [x3! = 0]। इस प्रकार, हमारा यादृच्छिक बिंदु सबसे अधिक संभावना है (X1, x2, x3) और नहीं (X1, x2, 0)।

इसका प्रभाव यह है: कोई भी यादृच्छिक बिंदु 3-डी क्षेत्र की उत्पत्ति से (X1) ^ 2 + (x2) ^ 2 + (x3) ^ 2) ^ 0.5 की दूरी पर है। यह दूरी 2-डी सर्कल की उत्पत्ति के पास एक यादृच्छिक बिंदु के लिए उससे बड़ी है। यह समस्या उच्च आयामों में खराब हो जाती है, यही कारण है कि हम उच्च आयामों के साथ काम करने के लिए यूक्लिडियन आयामों के अलावा अन्य मैट्रिक्स का चयन करते हैं।

संपादित करें: एक कहावत है जो मुझे अब याद आती है: "उच्चतर द्रव्यमान नारंगी का द्रव्यमान का अधिकांश भाग त्वचा में होता है, गूदा नहीं", जिसका अर्थ है कि उच्च आयामों में समान रूप से वितरित बिंदु "पास" (यूक्लिडियन दूरी) सीमा है उत्पत्ति की तुलना में।

साइड नोट: यूक्लिडियन दूरी 'गैर-एकरूपता का आशीर्वाद' के कारण वास्तविक दुनिया की समस्याओं के लिए खराब नहीं है, जो मूल रूप से बताता है कि वास्तविक डेटा के लिए, आपका डेटा संभवतः उच्च आयामी स्थान में समान रूप से वितरित नहीं किया जा रहा है, लेकिन अंतरिक्ष के एक छोटे से संकुल को घेर लेगा। यह सहज रूप से समझ में आता है: यदि आप ऊंचाई, वजन, आदि जैसे मनुष्यों के बारे में 100 मात्राओं को माप रहे हैं, तो आयाम अंतरिक्ष पर एक समान वितरण का कोई मतलब नहीं है, उदाहरण के लिए एक व्यक्ति (ऊंचाई = 65 इंच, वजन = 150 पाउंड, avg_calorie_intake) = 4000) जो वास्तविक दुनिया में अभी संभव नहीं है।


यदि कोई भी भविष्य के पाठक "ऑरेंज / पल्प" उद्धरण या "गैर-एकरूपता का आशीर्वाद" टिप्पणी में रुचि रखते हैं, तो दोनों "मशीन सीखने के बारे में जानने के लिए कुछ उपयोगी चीजें" में दिखाई देते हैं, जो इस पर मेरे जवाब में जुड़ा हुआ है धागा।
साइकोरैक्स

1

इस सवाल का एक और पहलू यह है:

अक्सर (मशीन-लर्निंग / स्टैटिस्टिकल) समस्याओं में उच्च आयाम अति-विवश सुविधाओं का परिणाम होते हैं।

मतलब आयाम स्वतंत्र नहीं हैं (या असंबंधित), लेकिन यूक्लिडियन मेट्रिक्स मान लेते हैं (कम से कम) संयुक्त राष्ट्र सहसंबंध

तो आपके प्रश्न का उत्तर देने के लिए "उच्च आयाम" की संख्या का संबंध है कि अंतर-सुविधा या अतिरेक या अति-विवशता कितनी हैं

अतिरिक्त रूप से: यह Cisiszar (et al।) द्वारा एक प्रमेय है कि यूक्लिडियन मेट्रिक्स "प्राकृतिक" अभ्यर्थियों के लिए हैं जब वे कुछ खास रूपों के होते हैं।


3
यूक्लिडियन मेट्रिक्स "मान नहीं है ... संयुक्त राष्ट्र सहसंबंध"। यूक्लिडियन दूरियां असम्बद्ध चर के साथ उच्च आयामों में सबसे खराब काम करती हैं। चरम मामले पर विचार करें: आपके पास बहुत सारे आयाम हैं जो सभी पूरी तरह से सहसंबंधित हैं, आर = 1, अब आपका डेटा वास्तव में यूनि-डायमेंशनल है, और यूक्लिडियन दूरी ठीक w / यूनी-डायमेंशनल डेटा काम करती है।
गुंग

नहीं, मुझे ऐसा नहीं लगता है, परिभाषा के अनुसार यूक्लिडियन दूरी संयुक्त राष्ट्र के अनुमानित डेटा को मानती है (सिवाय तब तक कि अगर अपक्षयी मैट्रिक्स के साथ सामान्यीकृत यूक्लिडियन दूरी का उपयोग किया जाए)
निकोस एम।

कुल सहसंबंध (आर = 1) के साथ विशेषताएं एक तुच्छ उदाहरण है और "तुच्छ सहसंबंध मैट्रिक्स" के बराबर है, लेकिन शायद मैं गलत हूं
निकोस एम।

@ गंग आप फिक्स्ड यूनिट आइसोट्रोपिक विचरण मैट्रिक्स के साथ गॉसियंस के क्रॉस एन्ट्रापी लॉस के रूप में यूक्लिडियन हानि की व्याख्या कर सकते हैं। मुझे लगता है कि यह एक अच्छा बिंदु है, लेकिन इसे बेहतर तरीके से समझाया जा सकता है।
नील जी

1
(0,0)(1,1)dE=j(x2jx1j)22X1=X212cor(X1,X2)=02

0

इस पत्र में मदद मिल सकती आप भी "बेहतर sqrt-कोज्या समानता माप" जाएँ https://journalofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6 इस पत्र बताता है कि क्यों इयूक्लिडियन दूरी उच्च आयामी में एक अच्छा मीट्रिक नहीं है डेटा और उच्च आयामी डेटा में यूक्लिडियन दूरी के लिए सबसे अच्छा प्रतिस्थापन क्या है। यूक्लिडियन दूरी L2 मानदंड है और Lk मान में k का मान घटाकर हम उच्च आयामी डेटा में दूरी की समस्या को कम कर सकते हैं। आप इस पत्र में संदर्भ भी पा सकते हैं।


2
साइट पर आपका स्वागत है। हम प्रश्नों और उत्तरों के रूप में उच्च-गुणवत्ता वाले सांख्यिकीय जानकारी का एक स्थायी भंडार बनाने की कोशिश कर रहे हैं। इस प्रकार, हम लिंक-ओनली उत्तरों से सावधान हो जाते हैं, लिंकरोट के कारण। यदि आप मृत हो जाते हैं, तो क्या आप लिंक पर पूर्ण उद्धरण और जानकारी का सारांश पोस्ट कर सकते हैं?
गंग
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.