हाई-डायमेंशनल फ़ीचर स्पेस में K- निकटतम-पड़ोसी जैसे गैर-पैरामीट्रिक तरीके


11

K-निकटतम-पड़ोसी का मुख्य विचार निकटतम बिंदुओं को ध्यान में रखता है और बहुमत के मत से डेटा के वर्गीकरण का निर्णय करता है। यदि ऐसा है, तो इसे उच्च आयामी डेटा में समस्या नहीं होनी चाहिए क्योंकि स्थानीय संवेदनशील हैशिंग जैसे तरीके कुशलतापूर्वक निकटतम पड़ोसियों को ढूंढ सकते हैं।

इसके अलावा, बायेसियन नेटवर्क के साथ फीचर का चयन डेटा के आयाम को कम कर सकता है और सीखने को आसान बना सकता है।

हालांकि, सांख्यिकीय सीखने में जॉन लॉफर्टी द्वारा किए गए इस समीक्षा पत्र में बताया गया है कि उच्च आयामी सुविधा स्थानों में गैर-पैरामीट्रिक सीखना अभी भी एक चुनौती और अनसुलझा है।

क्या गलत हो रहा है?


1
कृपया कागज के लिए एक पूर्ण संदर्भ दें; लेखक इसमें (प्रमुखता से) प्रकट नहीं होते हैं।
राफेल

जवाबों:


5

इस समस्या को आयामीता के अभिशाप के रूप में जाना जाता है । मूल रूप से, जैसा कि आप आयामों की संख्या में वृद्धि करते हैं, , अंतरिक्ष में अंक आमतौर पर अन्य सभी बिंदुओं से दूर हो जाते हैं। यह अंतरिक्ष को विभाजित करता है (जैसे कि वर्गीकरण या क्लस्टरिंग के लिए आवश्यक है) बहुत मुश्किल है।

आप इसे अपने लिए बहुत आसानी से देख सकते हैं। मैं उत्पन्न यादृच्छिक के 20 समान रूप से चुने गए मानों पर इकाई hypercube में आयामी अंक से । के प्रत्येक मान के लिए मैंने पहले बिंदु से अन्य सभी से दूरी की गणना की और इन दूरियों का औसत लिया। इसे प्लॉट करते हुए, हम देख सकते हैं कि औसत दूरी आयामीता के साथ बढ़ रही है, भले ही हम जिस स्थान पर प्रत्येक आयाम में अंक उत्पन्न कर रहे हैं वह समान रहता है।d d 1..1000 d501..1000

औसत दूरी बनाम आयामीता


बेशक। आप तय त्रिज्या तेजी dimensionalty में की एक अति क्षेत्र में अंक की संख्या में वृद्धि, इसलिए यदि आप यादृच्छिक इस पर 50 अंक समान रूप से चयन किया है तो होना ही। इसलिए, यदि आपका तर्क सही है, तो कई नमूने होने पर विभाजन आसान हो जाना चाहिए; ऐसा क्या?
राफेल

मेरा मानना ​​है कि आपने इसे उलट दिया है। आयामीता बढ़ने से, मैं एक हाइपरस्फेयर के भीतर अंकों की संख्या को कम करता हूं। विभाजन अधिक कठिन हो जाता है क्योंकि दूरी का माप अनिवार्य रूप से अपना अर्थ खो देता है (जैसे सब कुछ दूर है)।
निक

मैं मतलब: अंकों की कुल संख्या त्रिज्या का एक अति क्षेत्र में कहते हैं में एन एन , यानी | एन एनएस एन ( के ) | n के साथ बढ़ता है । एनn|एनnएसn()|n
राफेल

यह भी ध्यान रखें कि लोग मतलब जब वे उच्च आयामी सुविधा अंतरिक्ष का उल्लेख है कि नमूनों की संख्या है, कि , ज्यादा प्रत्येक बिंदु, के आयामी स्वरूप से भी कम है , ( एन < < )। तो इन समस्याओं में आप मान लेते हैं कि आपके पास 'कई नमूने' नहीं हैं। nn<<
निक

मैं यह नहीं देखता कि यह परिभाषा के अनुसार है; हालांकि यह अनुभव के आधार पर एक सम्मेलन है।
राफेल

3

पूर्ण उत्तर नहीं है, लेकिन जिस विकिपीडिया पृष्ठ का आपने उल्लेख किया है:

के-एनएन एल्गोरिथ्म की सटीकता को शोर या अप्रासंगिक सुविधाओं की उपस्थिति से गंभीर रूप से नीचा दिखाया जा सकता है, या यदि फीचर स्केल उनके महत्व के अनुरूप नहीं हैं।

उच्च आयामी सुविधा रिक्त स्थान की उपस्थिति में इस होने की संभावना बढ़ जाती है।


लेकिन मुझे लगता है कि पीसीए (सिद्धांत घटक विश्लेषण) या किसी अन्य तरीके से आयामीता को कम करने और अप्रासंगिक डेटा को हटाने के लिए, के-एनएन अभी भी काम कर सकता है। और विकिपीडिया पृष्ठों का मतलब यह है कि भोली k-NN विफल हो जाएगी। तो यह समीक्षा पत्र की व्याख्या नहीं करता है।
स्ट्रिन

पीसीए निश्चित रूप से काम कर सकता है, लेकिन सभी स्थितियों में नहीं।
डेव क्लार्क
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.