मशीन लर्निंग शाप आयामीता की व्याख्या की?


14

मुझे आयामीता के अभिशाप को समझने में परेशानी हो रही है। विशेष रूप से, मैं scikit-learnअजगर में ट्यूटोरियल कर रहा था । क्या कोई कृपया नीचे सरल तरीके से समझा सकता है? क्षमा करें, मैं सबसे लंबे समय से समझने की कोशिश कर रहा हूं और समझ नहीं पा रहा हूं कि कुशल केएनएन अनुमानक को प्राप्त करने के लिए प्रशिक्षण उदाहरणों की संख्या के लिए गणना के साथ वे कैसे आए?

यहाँ स्पष्टीकरण है:

प्रभावी होने के लिए एक अनुमानक के लिए, आपको पड़ोसी बिंदुओं के बीच की दूरी कुछ मान d से कम होनी चाहिए, जो समस्या पर निर्भर करता है। एक आयाम में, इसके लिए औसत n ~ 1 / d अंक की आवश्यकता होती है। उपरोक्त KNN उदाहरण के संदर्भ में, यदि डेटा को 0 से 1 तक के मानों के साथ और n प्रशिक्षण टिप्पणियों के साथ सिर्फ एक विशेषता द्वारा वर्णित किया जाता है, तो नया डेटा 1 / n से अधिक दूर नहीं होगा। इसलिए, निकटतम पड़ोसी निर्णय नियम 1-n के रूप में जल्द ही कुशल होगा, जो कि बीच-वर्ग सुविधा भिन्नताओं के पैमाने की तुलना में छोटा है।

यदि सुविधाओं की संख्या p है, तो आपको अब n ~ 1 / d ^ p अंक चाहिए। मान लीजिए कि हमें एक आयाम में 10 बिंदुओं की आवश्यकता है: अब [0, 1] स्थान को प्रशस्त करने के लिए 10 आयामों में p बिंदुओं की आवश्यकता होती है। जैसे-जैसे पी बड़ा होता है, एक अच्छे अनुमानक के लिए आवश्यक प्रशिक्षण बिंदुओं की संख्या तेजी से बढ़ती है।

यहाँ लिंक करें

EDIT: ~उस उदाहरण में अनुमानित को दर्शाने वाला टिल्ड ( ) माना जाता है? या अजगर टिल्ड ऑपरेटर?


2
टिल्ड का अर्थ है "आनुपातिक"
जूल

@mbatchkarov हा धन्यवाद। लगभग और आनुपातिक इतने अलग-अलग निष्कर्ष हैं

जवाबों:


11

उस अनुच्छेद का अनुवाद:

चलो वहाँ सुविधाओं का एक सेट है जो एक डेटा बिंदु का वर्णन करते हैं। शायद तुम मौसम को देख रहे हो। सुविधाओं के उस सेट में तापमान, आर्द्रता, दिन का समय आदि जैसी चीजें शामिल हो सकती हैं, इसलिए प्रत्येक डेटा बिंदु में एक विशेषता हो सकती है (यदि आप केवल तापमान को देख रहे हैं) या इसमें 2 सुविधाएँ हो सकती हैं (यदि आप तापमान को देख रहे हैं) और आर्द्रता) और इतने पर। यह पैराग्राफ जो कह रहा है वह यह है कि आपके डेटा में कितने आयाम हैं (इसकी कितनी विशेषताएं हैं) के आधार पर, अनुमान लगाने वाले के लिए यह उतना ही अधिक कठिन है। इसका कारण यह है कि यदि आपके पास केवल डेटा की एक विशेषता है, या 1-आयामी डेटा है, तो जब आप इस डेटा को ग्राफ़ करने के लिए जाते हैं, तो आपको एक रेखा ग्राफ़ मिलता है, और एक रेखा ग्राफ़ की कल्पना करते हुए कहते हैं कि 0-50 डिग्री सेल्सियस, यह केवल लेता है। प्रत्येक डेटा बिंदु से पहले 50 यादृच्छिक बिंदु किसी अन्य डेटा बिंदु से लगभग 1 डिग्री है। अब छोडो' 2 आयामों के बारे में सोचते हैं, आर्द्रता और तापमान के बारे में बात करते हुए, अब यह पता लगाने के लिए मुश्किल है कि डी ऐसा है कि सभी बिंदु एक दूसरे की "डी" इकाइयों के भीतर हैं। कल्पना तापमान अभी भी 0-50 के बीच है, लेकिन अब आर्द्रता 0-100% के बीच भी है। एक-दूसरे के 1 या 2 के भीतर सभी बिंदुओं को प्राप्त करने के लिए कितने यादृच्छिक बिंदु हैं? अब यह 100 * 50 या ~ 5,000 है! अब 3 आयामों आदि की कल्पना करें। आपको यह सुनिश्चित करने के लिए और अधिक बिंदुओं की आवश्यकता है कि प्रत्येक बिंदु किसी अन्य बिंदु के d के भीतर हो। अपने जीवन को आसान बनाने के लिए "डी" मान लेना 1 है और देखें कि क्या होता है। उम्मीद है की वो मदद करदे! एक-दूसरे के 1 या 2 के भीतर सभी बिंदुओं को प्राप्त करने के लिए कितने यादृच्छिक बिंदु हैं? अब यह 100 * 50 या ~ 5,000 है! अब 3 आयामों आदि की कल्पना करें। आपको यह सुनिश्चित करने के लिए और अधिक बिंदुओं की आवश्यकता है कि प्रत्येक बिंदु किसी अन्य बिंदु के d के भीतर हो। अपने जीवन को आसान बनाने के लिए "डी" मान लेना 1 है और देखें कि क्या होता है। उम्मीद है की वो मदद करदे! एक-दूसरे के 1 या 2 के भीतर सभी बिंदुओं को प्राप्त करने के लिए कितने यादृच्छिक बिंदु हैं? अब यह 100 * 50 या ~ 5,000 है! अब 3 आयामों आदि की कल्पना करें। आपको यह सुनिश्चित करने के लिए और अधिक बिंदुओं की आवश्यकता है कि प्रत्येक बिंदु किसी अन्य बिंदु के d के भीतर हो। अपने जीवन को आसान बनाने के लिए "डी" मान लेना 1 है और देखें कि क्या होता है। उम्मीद है की वो मदद करदे!


2
यह एक अच्छी व्याख्या है, लेकिन उनके द्वारा प्रदान किए गए समीकरण के बारे में क्या? आपके 1 फ़ीचर उदाहरण में, जहाँ मैं चाहता हूँ कि अनुमानक 1 डिग्री दूर हो, (अर्थात d = 1) तो उनके समीकरण n~1/dका अर्थ होगा n लगभग 1 होना चाहिए? यह बहुत मतलब नहीं है?

नहीं, वे कह रहे हैं कि यदि सुविधा में 0-1 की सीमा होती है (मेरा 0-0 की सीमा होती है) तो आप 1 / d अंक ऐसे होंगे कि प्रत्येक दूसरे से लगभग d था। मेरे उदाहरण के लिए यह काम करता है क्योंकि आपको लगभग 50/1 अंक की आवश्यकता होगी जहां 1 "d" है। क्षमा करें, यह इन समीकरणों को टाइप करने के लिए भ्रामक है, लेकिन मुझे लगता है कि मदद करनी चाहिए

12

matty-d ने पहले से ही बहुत अच्छा जवाब दिया है, लेकिन मुझे एक और जवाब मिला जो इस समस्या को समान रूप से अच्छी तरह से बताता है, एक Quora उपयोगकर्ता केविन लैकर से:

मान लीजिए कि आपके पास एक सीधी रेखा 100 गज लंबी है और आपने उस पर कहीं एक पैसा गिरा दिया है। इसे खोजना बहुत कठिन नहीं होगा। आप लाइन में चलते हैं और दो मिनट लगते हैं।

अब मान लें कि आपके पास प्रत्येक तरफ एक वर्ग 100 गज है और आपने उस पर कहीं एक पैसा गिरा दिया है। यह बहुत कठिन होगा, जैसे दो फुटबॉल के मैदानों की एक साथ खोज करना। इसमें कई दिन लग सकते हैं।

अब एक घन 100 गज भर है। यह एक 30-मंजिला इमारत को फुटबॉल स्टेडियम के आकार की खोज करने जैसा है। ओह।

अंतरिक्ष में खोज करने में कठिनाई बहुत कठिन हो जाती है क्योंकि आपके पास अधिक आयाम होते हैं। हो सकता है कि आपको यह सहज ज्ञान का एहसास न हो जब यह सिर्फ गणितीय सूत्रों में बताया गया है, क्योंकि इन सभी में समान "चौड़ाई" है। वह आयामीता का अभिशाप है। इसे एक नाम मिलता है क्योंकि यह अनपेक्षित, उपयोगी और अभी तक सरल है।


-1

वह उदाहरण समस्या का कुछ अंतर्ज्ञान दे सकता है, लेकिन वास्तव में एक कठोर प्रमाण नहीं है: यह केवल एक उदाहरण है जहां "अच्छा" अंतरिक्ष कवरेज प्राप्त करने के लिए कई नमूनों की आवश्यकता होती है। वहाँ हो सकता है (और वहाँ वास्तव में कर रहे हैं, उदाहरण के लिए 2 डी में पहले से ही हेक्सागोन्स) एक नियमित ग्रिड की तुलना में बहुत अधिक कुशल कवरेज ... (कम विसंगति के अनुक्रम का परिष्कृत क्षेत्र इस के लिए समर्पित है ...) और यह साबित करना कि इस तरह के बेहतर कवरिंग के साथ भी वहाँ अभी भी आयामीता का कुछ अभिशाप काफी एक और मुद्दा है। वास्तव में कुछ फ़ंक्शन रिक्त स्थान में इस स्पष्ट समस्या को दरकिनार करने के भी तरीके हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.