"निकटतम पड़ोसी" कब सार्थक है, आज?


19

1999 में, बेयर एट अल। पूछा, "नेबस्ट नेबर" कब सार्थक है?

क्या 1999 के बाद से एनएन खोज पर दूरी की समतलता के प्रभाव का विश्लेषण और कल्पना करने के बेहतर तरीके हैं?

क्या [एक दिया गया] डेटा सेट 1-एनएन समस्या के सार्थक उत्तर प्रदान करता है? 10-NN समस्या? 100-एनएन समस्या?

आज आप इस सवाल पर कैसे संपर्क करेंगे?


संपादन सोमवार 24 जनवरी:

"बढ़ते आयाम के साथ दूरी की उदासी" के लिए एक छोटे नाम के रूप में "डिस्टेंस व्हाइटआउट" के बारे में कैसे?

"डिस्टेंस व्हाइटआउट" को देखने का एक आसान तरीका 2-एनएन, और निकटतम पड़ोसी और दूसरे-निकटतम पड़ोसियों के लिए दूरी की साजिश है। नीचे दिए गए कथानक मोंटे कार्लो द्वारा nclusters और आयामों की एक श्रृंखला के लिए 1 और dist 2 को दिखाता है। यह उदाहरण स्केल किए गए पूर्ण अंतर के लिए बहुत अच्छी दूरी विपरीत दिखाता है। dist 2 - dist 1 | (सापेक्ष अंतर | डिस्ट 2 / डिस्ट 1 | → 1 आयाम के रूप में → dist , इसलिए बेकार हो जाते हैं।)

किसी दिए गए संदर्भ में पूर्ण त्रुटियों या सापेक्ष त्रुटियों का उपयोग किया जाना चाहिए या नहीं, "वास्तविक" शोर वर्तमान पर निर्भर करता है: मुश्किल।

सुझाव: हमेशा 2-एनएन चलाएं; पास होने पर 2 पड़ोसी उपयोगी होते हैं, और जब नहीं होते हैं तो उपयोगी होते हैं।

यहाँ छवि विवरण दर्ज करें


7
बेयर एट अल। एनएन समस्या के एक छोटे से अलग पहलू को संबोधित करते प्रतीत होते हैं। लेकिन, (द्विआधारी) वर्गीकरण प्रयोजनों के लिए, हल्के परिस्थितियों में, यह एक शास्त्रीय परिणाम है कि 1-एनएन वर्गीकरण में, सबसे खराब स्थिति में , बेयस (यानी, इष्टतम) क्लासिफायर की त्रुटि की संभावना से दो गुना अधिक है। दूसरे शब्दों में, पहले निकटतम पड़ोसी में लक्ष्य के लेबल के बारे में "कम से कम आधी जानकारी" शामिल है जैसा कि सर्वश्रेष्ठ क्लासिफायर करता है। इस अर्थ में, 1-एनएन काफी प्रासंगिक लगता है। (कवर एंड हार्ट (1967) को और देखें। मुझे आश्चर्य है कि Beyer et al। इसे उद्धृत नहीं करता है।)
कार्डिनल

@कार्डिनल, कवर-हार्ट बाउंड आयाम पर निर्भर नहीं लगता है, जैसा कि आप एक अलग पहलू कहते हैं?
डेनिस

हां, मेरा मानना ​​है कि यह सच है और यह बड़े हिस्से में था, इसे लाने में मेरी बात। 1-एनएन उस अर्थ में काफी प्रासंगिक लगता है, यानी, यह तथ्य कि यह (तो) अच्छी तरह से (सैद्धांतिक रूप से) काम करता है (फ़ीचर रूप से) फ़ीचर स्पेस के आयाम में समान रूप से यह अपने आप को खड़ा करने में मदद करता है, भले ही यह निकटतम व्यवहार हो। सबसे दूर का पड़ोसी एक बड़े आयामी स्थान में है। यह मुझे आश्चर्यचकित करता है कि क्या बेयर को इस (शास्त्रीय) परिणाम के बारे में पता था।
कार्डिनल

@cardinal कवर और हार्ट में पृष्ठ 24 का शीर्ष एक ऐसी जगह की तरह दिखाई देता है, जहां उनके प्रमाण में कोई समस्या संभावित रूप से उत्पन्न हो सकती है, जिस चरण में कवर और हार्ट का तर्क है कि X में हर RV x \ के पास ऐसी संपत्ति है जो हर खुले क्षेत्र में x के बारे में है। गैर शून्य उपाय। यदि हम हाइपरस्फियर की ज्यामिति पर विचार करते हैं तो हम देखते हैं कि हाइपरस्फीयर के आंतरिक भाग का आयतन बढ़ते आयाम के साथ सिकुड़ता है इसलिए, सीमा में, एक्स के बारे में खुली गेंद में इसके आंतरिक भाग में केवल x होता है। वैकल्पिक रूप से, SLLN के माध्यम से, मीट्रिक स्पेस X में iid RVs x सभी प्रायिकता के साथ हाइपरस्फेयर की सतह पर झूठ बोलते हैं।
बॉब डुरंट

जवाबों:


10

मेरे पास इस प्रश्न का पूर्ण उत्तर नहीं है, लेकिन मैं कुछ विश्लेषणात्मक पहलुओं पर आंशिक उत्तर दे सकता हूं। चेतावनी: मैं नीचे दिए गए पहले पेपर के बाद से अन्य समस्याओं पर काम कर रहा हूँ, इसलिए यह बहुत संभव है कि वहाँ कोई और अच्छा सामान हो जिसकी मुझे जानकारी नहीं है।

पहले मुझे लगता है कि यह ध्यान देने योग्य है कि उनके पेपर के शीर्षक के बावजूद "जब 'निकटतम पड़ोसी' अर्थपूर्ण है", बेयर एट अल ने वास्तव में एक अलग सवाल का जवाब दिया, अर्थात जब एनएन सार्थक नहीं है । हमने नमूना के आकार पर कुछ अतिरिक्त सौम्य धारणाओं के तहत, जब 'समीपवर्ती पड़ोसी' अर्थपूर्ण: ए कॉन्सेप्ट प्रमेय और निहितार्थों के बारे में उनके प्रमेय को सिद्ध किया । जर्नल ऑफ कॉम्प्लेक्सिटी, 25 (4), अगस्त 2009, पीपी 385-397।और दिखाया कि ऐसी स्थितियां हैं जब (सिद्धांत रूप में) दूरियों की एकाग्रता उत्पन्न नहीं होगी (हम उदाहरण देते हैं, लेकिन संक्षेप में गैर-शोर विशेषताओं की संख्या आयामीता के साथ बढ़ने की जरूरत है, इसलिए बेशक वे अभ्यास में शायद ही कभी पैदा होते हैं)। हमारे पेपर में दिए गए संदर्भ 1 और 7 में कुछ उदाहरण दिए गए हैं जिनसे दूरी की एकाग्रता को व्यवहार में कम किया जा सकता है।

मेरे पर्यवेक्षक अता काबन का एक पेपर इस बात पर गौर करता है कि ऑन डिस्टेंस कॉन्सेंट्रेशन अवेयरनेस ऑन डिस्टेंस कॉन्सेंट्रेशन अवेयरनेस ऑफ डिफरेंट डेटा रिडक्शन तकनीकों पर लागू होने के बावजूद ये दूरी सघनता के मुद्दे बने रहते हैं या नहीं पैटर्न मान्यता। वॉल्यूम। 44, अंक 2, फरवरी 2011, पीपी .265-277। । वहाँ भी कुछ अच्छी चर्चा है।


धन्यवाद Bob, +1। एक संबंधित प्रश्न, क्या आपके पास आंशिक-मीट्रिक क्यू (या मुझे एक अलग प्रश्न के रूप में पूछना चाहिए) के मूल्य को चुनने के लिए अंगूठे का एक नियम है?
डेसीस

@ डेनिस संभवतः अपने स्वयं के एक प्रश्न का गुणन करता है क्योंकि मुझे लगता है कि यह डेटा और अनुप्रयोग दोनों पर निर्भर है। Q = 1 / के साथ ये आंशिक मीट्रिकq=1/pp>1pl0p=1l1lq=1/pp>1p

|ajbj|q1/q<q<

p

3

आप गोल्डबर्गर एट अल द्वारा पड़ोस के घटकों के विश्लेषण में दिलचस्पी ले सकते हैं ।

यहाँ, एक रेखीय परिवर्तन एक स्टोकेस्टिक निकटतम पड़ोस चयन के माध्यम से अपेक्षित सही ढंग से वर्गीकृत बिंदुओं को अधिकतम करने के लिए सीखा जाता है।

एक पक्ष प्रभाव के रूप में (अपेक्षित) पड़ोसियों की संख्या डेटा से निर्धारित होती है।


धन्यवाद बायर। ऐसा लगता है कि "डिस्टेंस मेट्रिक लर्निंग" फलफूल रहा है - विद्वान।गो में 2008 से 50 टाइटल हैं। लेकिन क्या बूम पेपर, या वास्तविक उपयोग है? Footnote, nca के लिए कोड "पुनरावृत्तियों ... अच्छे परिणामों के लिए कम से कम 100000" कहता है। फुटनोट 2, दूरी मीट्रिक सीखने पर अधिकांश काम एक महालनोबिस दूरी के लिए लगता है; क्या आप अन्य दूरी मॉडल के बारे में जानते हैं?
Denis

मेरे पास एनसीए के साथ अलग-अलग अनुभव हैं - यह आमतौर पर मेरे लिए काफी मात्रा में परिवर्तित होता है। नॉरज़ी द्वारा चेकआउट "LeCun द्वारा एक इंवेरिएंट मैपिंग सीखने के माध्यम से" और कॉम्पैक्ट बाइनरी कोड्स के लिए न्यूनतम नुकसान "।
बायरज
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.