मैं समझता हूं कि "आयामीता का अभिशाप" क्या है, और मैंने कुछ उच्च आयामी अनुकूलन समस्याओं को किया है और घातीय संभावनाओं की चुनौती को जाना है।
हालांकि, मुझे संदेह है कि "आयामीता का अभिशाप" सबसे वास्तविक दुनिया डेटा में मौजूद है (अच्छी तरह से छवियों या वीडियो को एक पल के लिए अलग रख दें, मैं ग्राहक जनसांख्यिकीय और खरीद व्यवहार डेटा जैसे डेटा के बारे में सोच रहा हूं)।
हम हजारों विशेषताओं के साथ डेटा एकत्र कर सकते हैं, लेकिन यह असंभव भी नहीं है कि सुविधाएँ पूरी तरह से हजारों आयामों के साथ अंतरिक्ष में फैल सकती हैं। यही कारण है कि आयाम में कमी तकनीक इतनी लोकप्रिय हैं।
दूसरे शब्दों में, यह बहुत संभावना है कि डेटा में सूचना का घातीय स्तर नहीं होता है, अर्थात, कई विशेषताएं अत्यधिक सहसंबद्ध हैं और कई विशेषताएं 80-20 नियमों को संतुष्ट करती हैं (कई उदाहरणों में समान मूल्य हैं)।
ऐसे में, मुझे लगता है कि केएनएन जैसे तरीके अभी भी यथोचित रूप से काम करेंगे। (अधिकांश पुस्तकों में "आयाम का अभिशाप" आयाम कहता है> 10 समस्याग्रस्त हो सकता है। अपने डेमो में वे सभी आयामों में समान वितरण का उपयोग करते हैं, जहां एंट्रोपी वास्तव में उच्च है। मुझे वास्तविक दुनिया में यह कभी भी संदेह होगा।)
वास्तविक डेटा के साथ मेरा व्यक्तिगत अनुभव यह है कि "आयाम का अभिशाप" टेम्पलेट पद्धति (जैसे KNN) को बहुत अधिक प्रभावित नहीं करता है और ज्यादातर मामलों में, आयाम ~ 100 अभी भी काम करेंगे।
क्या यह अन्य लोगों के लिए सच है? (मैंने 5 वर्षों के लिए विभिन्न उद्योगों में वास्तविक डेटा के साथ काम किया, कभी भी "सभी दूरी के जोड़े में समान मूल्य नहीं हैं" जैसा कि पुस्तक में वर्णित है।