ठीक है, तो आइए बच्चे के उदाहरणों का विश्लेषण करते हुए उसके खिलौनों को देखें।
कल्पना कीजिए कि बच्चे के पास केवल 3 खिलौने हैं:
- एक नीली फुटबॉल की गेंद
- एक नीला रंग
- एक हरे रंग का घन (ठीक है शायद यह सबसे मजेदार खिलौना नहीं है जिसकी आप कल्पना कर सकते हैं)
आइए निम्न प्रारंभिक परिकल्पना करते हैं कि खिलौना कैसे बनाया जा सकता है:
- संभावित रंग हैं: लाल, हरा, नीला
- संभावित आकार हैं: सर्कल, वर्ग, त्रिकोण
अब हमारे पास (num_colors * num_shapes) = 3 * 3 = 9 संभावित क्लस्टर हो सकते हैं।
लड़का खिलौनों को इस प्रकार बाँधता है:
- ग्राहक A) में नीले रंग की गेंद और नीले रंग का फ़्रीबस होता है, क्योंकि thay का रंग और आकार समान होता है
- ग्राहक बी) में सुपर-फनी ग्रीन क्यूब होता है
केवल इन 2 आयामों (रंग, आकार) का उपयोग करके हमारे पास 2 गैर-खाली क्लस्टर हैं: इसलिए इस पहले मामले में हमारा 7/9 ~ 77% स्थान खाली है।
अब आइए बच्चे द्वारा विचार किए जाने वाले आयामों की संख्या में वृद्धि करें। हम निम्नलिखित परिकल्पना भी करते हैं कि खिलौना कैसे बनाया जा सकता है:
- खिलौने का आकार कुछ सेंटीमीटर से 1 मीटर के बीच, दस सेंटीमीटर के चरण में भिन्न हो सकता है: 0-10cm, 11-20cm, ..., 91cm-1m
- खिलौने का वजन 1 किलोग्राम तक एक समान तरीके से भिन्न हो सकता है, 100 ग्राम के चरणों के साथ: 0-100g, 101-200g, ..., 901g-1kg।
यदि हम अपने खिलौनों को अभी क्लस्टर करना चाहते हैं, तो हमारे पास (num_colors * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10 = 900 संभव क्लस्टर हैं।
लड़का खिलौनों को इस प्रकार बाँधता है:
- CLUSTER A) में नीले रंग की सॉकर बॉल है क्योंकि यह नीली और भारी है
- CLUSTER B) में नीला और हल्का प्रकाश होने के कारण नीले रंग की फ्रेस्बे शामिल है
- ग्राहक C) में सुपर-फनी ग्रीन क्यूब होता है
वर्तमान 4 आयामों (आकार, रंग, आकार, वीथ) का उपयोग करके केवल 3 क्लस्टर गैर खाली हैं: इसलिए इस मामले में 897/900 ~ 99.7% स्थान खाली है।
यह एक उदाहरण है कि आप विकिपीडिया पर क्या पाते हैं ( https://en.wikipedia.org/wiki/Curse_of_dimunningity ):
... जब आयाम बढ़ता है, तो अंतरिक्ष का आयतन इतनी तेजी से बढ़ता है कि उपलब्ध डेटा विरल हो जाता है।
संपादित करें: मुझे यकीन नहीं है कि मैं वास्तव में एक बच्चे को समझा सकता हूं कि उच्च-आयामी स्थानों में दूरी कभी-कभी गलत क्यों हो जाती है, लेकिन चलो बच्चे और उसके खिलौने के हमारे उदाहरण के साथ आगे बढ़ने की कोशिश करें।
केवल 2 पहली विशेषताओं पर विचार करें {color, shape} हर कोई इस बात से सहमत है कि नीली गेंद हरे रंग के क्यूब की तुलना में नीले रंग के फ्रीबेस के समान है।
अब अन्य 98 सुविधाएँ जोड़ते हैं {say: size, weight, day_of_production_of_the_toy, मटेरियल, सॉफ्टनेस, day_in_which_the_toy_was_bought_by_daddy, कीमत आदि}: ठीक है, मेरे लिए यह तय करना अधिक कठिन होगा कि कौन सा खिलौना किसके समान है।
इसलिए:
- बड़ी संख्या में विशेषताएं समानता की एक निश्चित तुलना में अप्रासंगिक हो सकती हैं, जिससे सिग्नल-टू-शोर अनुपात का एक भ्रष्टाचार होता है।
- उच्च आयामों में, सभी उदाहरण "एक जैसे दिखते हैं"।
यदि आप मुझे सुनते हैं, तो एक अच्छा व्याख्यान है "मशीन सीखने के बारे में जानने के लिए कुछ उपयोगी चीजें" ( http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf ), विशेष रूप से 6 अनुच्छेद तर्क की तरह।
उम्मीद है की यह मदद करेगा!