बेयर एट अल से सापेक्ष विपरीत प्रमेय है। पेपर: "हाई डायमेंशनल स्पेस में डिस्टेंस मेट्रिक्स के हैरान करने वाले व्यवहार पर" भ्रामक?


10

यह बहुत बार उद्धृत किया जाता है जब आयामीता के अभिशाप का उल्लेख और जाता है

(दाएं सूत्र को इसके विपरीत कहा जाता है)

लिमवर(||एक्स||[||एक्स||])=0,फिर:डीअधिकतम-डीमिनटडीमिनट0

प्रमेय के परिणाम से पता चलता है कि किसी दिए गए क्वेरी बिंदु के लिए अधिकतम और न्यूनतम दूरी के बीच का अंतर उच्च आयामी अंतरिक्ष में किसी भी बिंदु के निकटतम दूरी के रूप में तेजी से नहीं बढ़ता है। यह एक निकटता क्वेरी को अर्थहीन और अस्थिर बनाता है क्योंकि निकटतम और सबसे दूर के पड़ोसी के बीच गरीब भेदभाव है।

संपर्क

फिर भी यदि कोई वास्तव में नमूना मूल्यों के लिए सापेक्ष विपरीत की गणना करने की कोशिश करता है, तो इसका मतलब है कि एक वेक्टर बहुत छोटे मूल्यों से युक्त होता है और शून्य वेक्टर की दूरी की गणना करता है और एक वेक्टर के लिए बहुत बड़ा मान रखता है, और एक उसके लिए मूल्यों की तुलना करता है 3 का आयाम और आयाम 109 गुना बड़ा, एक यह देखेगा कि, जबकि अनुपात घटता है, परिवर्तन इतना गायब हो जाता है कि वास्तव में व्यवहार में उपयोग किए जाने वाले आयामों की संख्या के लिए अप्रासंगिक हो जाता है (या किसी को भी काम करने का पता नहीं है) ग्राहम की संख्या के आकार के आंकड़ों के साथ - जो मुझे लगता है कि वास्तव में प्रासंगिक होने के लिए कागज पर वर्णित प्रभाव के लिए आवश्यक आकार है - मुझे नहीं लगता)।

जैसा कि पहले उल्लेख किया गया है, इस प्रमेय को अक्सर इस कथन का समर्थन करने के लिए उद्धृत किया जाता है कि यूक्लिडियन अंतरिक्ष के आधार पर निकटता को मापने के लिए एक उच्च आयामी स्थान में एक खराब रणनीति है, लेखक खुद कहते हैं, और फिर भी प्रस्तावित व्यवहार वास्तव में नहीं होता है, जिससे मुझे लगता है। लगता है कि इस प्रमेय का इस्तेमाल भ्रामक तरीके से किया गया है।

उदाहरण: dआयाम के साथ

a=np.ones((d,)) / 1e5
b=np.ones((d,)) * 1e5
dmin,dmax=norm(a), norm(b)
(dmax-dmin)/dmin

d = 1 के
9999999999.0
लिए d = 1e8 के लिए
9999999998.9996738

और 1e5 के बजाय 1e1 के साथ (चलो कहते हैं कि डेटा सामान्यीकृत है) d = 1e8 के लिए
3
99.0

98.999999999989527


2
आपने आयाम में डेटा का एक नमूना कैसे प्राप्त किया ? क्या आप शायद "पैमाने" के साथ "आयाम" को भ्रमित कर रहे हैं? 3+109
whuber

2
क्या आपने प्रसरण पर स्थिति की जांच की?
Aksakal

जवाबों:


8

नहीं, प्रमेय भ्रामक नहीं है। यह निश्चित रूप से गलत तरीके से लागू किया जा सकता है, लेकिन यह किसी भी प्रमेय के लिए सच है।

यह कैसे काम करता है यह प्रदर्शित करने के लिए सरल MATLAB स्क्रिप्ट यहां दी गई है:

xd = randn(1e5,10000);
%%
cols = [1,10,100,1000,10000];
for c = cols
    xdt = table(xd(:,1:c));
    res = table2array(rowfun(@norm,xdt));
    mr = mean(res);
    res1 = var(res/mr);
    res2 = (max(res) - min(res))/min(res);
    fprintf('res1: %f, res2: %f\n',res1,res2)
end

उत्पादन:

res1: 0.568701, res2: 2562257.458668
res1: 0.051314, res2: 9.580602
res1: 0.005021, res2: 0.911065
res1: 0.000504, res2: 0.221981
res1: 0.000050, res2: 0.063720

मेरे कोड में res1 और res2 पेपर से आपके समीकरण के दो भाव हैं: एक विचरण के लिए, और दूसरा इसके विपरीत।

जब आयाम 1 से 10,000 तक जाते हैं तो आप देख सकते हैं कि दोनों शून्य पर कैसे जाते हैं।


अब मुझे लगता है कि यह प्रश्न बन जाता है कि किस वितरण से Xयह परिवर्तन शून्य पर आता है?
निमित्ज 14

2
@ निमित्ज 14 जो अपने आप में एक उत्कृष्ट प्रश्न पूछना चाहता है।
साइकोरैक्स

3
@ निमित्ज 14 यह प्रमेय कॉची के लिए काम नहीं करना चाहिए, आप इसे छात्र टी (1) के साथ सामान्य की जगह आसानी से परीक्षण कर सकते हैं। अन्यथा, मुझे लगता है कि सभी नियमित वितरण जैसे सामान्य, वर्दी, बीटा आदि को कवर किया जाना चाहिए।
Aksakal
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.