आयामीता का अभिशाप: केएनएन क्लासिफायरियर


11

मैं केविन मर्फी की किताब पढ़ रहा हूं: मशीन लर्निंग-ए प्रायिकेशनल पर्सपेक्टिव। पहले अध्याय में लेखक आयामीता के अभिशाप की व्याख्या कर रहा है और एक हिस्सा है जो मुझे समझ में नहीं आता है। एक उदाहरण के रूप में, लेखक बताता है:

विचार करें कि डी-आयामी इकाई क्यूब के साथ इनपुट समान रूप से वितरित किए गए हैं। मान लीजिए कि हम x के चारों ओर एक हाइपर क्यूब बढ़ाकर वर्ग लेबल के घनत्व का अनुमान लगाते हैं जब तक कि इसमें वांछित अंश न होडेटा बिंदुओं का। इस घन की अपेक्षित बढ़त लंबाई हैडी()=1डी

यह अंतिम सूत्र है कि मैं अपना सिर इधर-उधर नहीं कर सकता। ऐसा लगता है कि यदि आप कहना चाहते हैं कि प्रत्येक आयाम के साथ किनारे की लंबाई से 10% अंक 0.1 होना चाहिए? मुझे पता है कि मेरा तर्क गलत है लेकिन मैं समझ नहीं पा रहा हूं कि क्यों।


6
स्थिति को पहले दो आयामों में चित्रित करने का प्रयास करें। अगर मेरे पास कागज की 1m * 1m शीट है, और मैंने नीचे-बाएं कोने से 0.1m * 0.1m वर्ग काट दिया है, तो मैंने कागज का दसवां हिस्सा नहीं हटाया है, लेकिन केवल एक सौवां
डेविड झांग

जवाबों:


13

यह ठीक उच्च आयामों में दूरियों का अप्रत्याशित व्यवहार है। 1 आयाम के लिए, आपके पास अंतराल है [0, 1]। 10% अंक लंबाई 0.1 के एक खंड में हैं। लेकिन क्या होता है जैसे फीचर स्पेस की आयामीता बढ़ती है?

वह अभिव्यक्ति आपको बता रही है कि यदि आप चाहते हैं कि 5 आयामों के लिए 10% अंक हों, तो आपको 0.63 के घन के लिए लंबाई, 100 आयाम के लिए 0.79 और 0.98 के 10 आयामों की आवश्यकता होगी।

जैसा कि आप देख रहे हैं, बढ़ते आयामों के लिए आपको समान मात्रा में अंक प्राप्त करने के लिए और दूर देखने की आवश्यकता है। इससे भी अधिक, आपको बता रहा है कि आयामों की संख्या बढ़ने पर अधिकांश बिंदु घन की सीमा पर हैं। जो अप्रत्याशित है।


4

मुझे लगता है कि मुख्य बात यह है कि अभिव्यक्ति है

डी()=1डी

वास्तव में वास्तव में शुरुआत में खड़ी है। इसका मतलब यह है कि किनारे का आकार जिसे आपको वॉल्यूम के एक निश्चित हिस्से को शामिल करना होगा, विशेष रूप से शुरुआत में, विशेष रूप से बढ़ेगा। यानी जिस किनारे की आपको जरूरत है वह हास्यास्पद रूप से बड़ा हो जाएगाडी बढ़ती है।

इसे और भी स्पष्ट करने के लिए, मर्फी द्वारा दिखाए गए कथानक को याद करें:

यहाँ छवि विवरण दर्ज करें

यदि आप नोटिस करते हैं, के मूल्यों के लिए डी>1ढलान वास्तव में बड़ा है और इसलिए, फ़ंक्शन शुरुआत में वास्तव में बहुत तेजी से बढ़ता है। यदि आप व्युत्पन्न लेते हैं तो यह बेहतर हो सकता हैडी():

डी'()=1डी1डी-1=1डी1-डीडी

चूँकि हम केवल बढ़ते हुए आयाम (जो पूर्णांक मान हैं) पर विचार कर रहे हैं, हम केवल पूर्णांक मानों की परवाह करते हैं डी>1। इस का मतलब है कि1-डी<0। धार के लिए अभिव्यक्ति पर विचार करें:

डी'()=1डी(1-डी)1डी

नोटिस जो हम उठा रहे हैं 0 (यानी नकारात्मक) से कम शक्ति के लिए। जब हम नकारात्मक शक्तियों की संख्या बढ़ाते हैं तो हम कुछ समय के लिए एक पारस्परिक (यानी) कर रहे हैंएक्स-1=1एक्स)। एक संख्या के लिए एक पारस्परिक करना जो पहले से ही वास्तव में छोटा है (याद रखें<1 चूँकि हम केवल मात्रा के अंश पर विचार कर रहे हैं, क्योंकि हम KNN कर रहे हैं, अर्थात निकटतम डेटा बिंदुओं का कुल योग एन) का अर्थ है कि संख्या "बहुत बढ़ जाएगी"। इसलिए, हम वांछित व्यवहार प्राप्त करते हैं, जैसे किडी वृद्धि शक्ति और भी अधिक नकारात्मक हो जाती है और इसलिए, आवश्यक बढ़त बहुत बड़ी हो जाती है डी प्रतिपादक को बढ़ाता है।

(नोटिस जो 1-डी विभाजन की तुलना में तेजी से बढ़ता है 1डी वह जल्दी ही महत्वहीन हो जाता है)।


2

हाँ, इसलिए यदि आपके पास एक यूनिट क्यूब है, या आपके मामले में एक यूनिट लाइन है, और डेटा समान रूप से वितरित किया गया है, तो आपको डेटा का 10% कैप्चर करने के लिए 0.1 की लंबाई पर जाना होगा। अब जैसे-जैसे आप आयाम बढ़ाते जाते हैं, D बढ़ता जाता है, जो शक्ति को कम करता जाता है और f 1 से कम होता जा रहा है, बढ़ता जाएगा, ऐसे में यदि D अनंत तक जाता है, तो आपको सभी cube, e = 1 पर कब्जा करना होगा।


0

मुझे लगता है कि केएनएन के लिए दूरी एक बड़ी भूमिका निभाती है। क्या होता है (हाइपर) क्यूब, बिंदुओं के बीच की दूरी के अनुरूप होता है। जैसा कि आप आयामों की संख्या बढ़ाते हैं, औसत दूरी के निकटतम दूरी के बीच का अनुपात बढ़ता है - इसका मतलब है कि निकटतम बिंदु औसत बिंदु से लगभग दूर है, फिर इसमें औसत बिंदु की तुलना में केवल थोड़ा अधिक पूर्वानुमानात्मक शक्ति है। यह लेख इसे अच्छी तरह से समझाता है

जोएल ग्रूस ने स्क्रैच से डेटा साइंस में इस मुद्दे का वर्णन करने का एक अच्छा काम किया है। उस पुस्तक में वह एक आयाम अंतरिक्ष में दो बिंदुओं के बीच औसत और न्यूनतम दूरी की गणना करता है क्योंकि आयामों की संख्या बढ़ जाती है। उन्होंने अंकों के बीच 10,000 दूरी की गणना की, 0 से 100 तक के आयामों की संख्या के साथ। उन्होंने फिर दो बिंदुओं के बीच औसत और न्यूनतम दूरी की साजिश रची, साथ ही औसत दूरी के निकटतम दूरी का अनुपात (Distance_Closest / दूरी_ लाभ) ।

उन भूखंडों में, जोएल ने दिखाया कि औसत दूरी के निकटतम दूरी का अनुपात 0 से 0 आयामों तक बढ़ा, 100 आयामों के लिए ~ 0.8 तक। और यह k- निकटतम पड़ोसियों के एल्गोरिथ्म का उपयोग करते समय आयामीता की मूलभूत चुनौती को दर्शाता है; जैसे-जैसे आयामों की संख्या बढ़ती है और औसत दूरी के निकटतम दूरी का अनुपात आरेख 1 की भविष्यवाणी शक्ति कम हो जाती है। यदि निकटतम बिंदु औसत बिंदु से लगभग दूर है, तो यह औसत बिंदु की तुलना में केवल थोड़ा अधिक पूर्वानुमानित शक्ति है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.