सामान्य तौर पर, आयामीता का अभिशाप एक अंतरिक्ष के माध्यम से खोज करने की समस्या को और अधिक कठिन बना देता है, और अधिकांश एल्गोरिदम को प्रभावित करता है जो उनके वेक्टर अंतरिक्ष को विभाजित करके "सीखते हैं"। हमारे अनुकूलन की समस्या जितनी अधिक होती है, उतने अधिक डेटा को हमें उस स्थान को भरने की आवश्यकता होती है जिसे हम अनुकूलन कर रहे हैं।
सामान्यीकृत रैखिक मॉडल
रैखिक मॉडल आयामीता के अभिशाप से बहुत पीड़ित हैं। रैखिक मॉडल एक एकल रैखिक विमान में अंतरिक्ष का विभाजन करते हैं। भले ही हम सीधे गणना नहीं करना चाहते हैं
β^=(X′X)−1X′y
समस्या का सामना करना पड़ा अभी भी संपार्श्विकता के प्रति बहुत संवेदनशील है, और कुछ प्रकार के नियमितीकरण के बिना "बीमार" माना जा सकता है। बहुत ही उच्च आयामी स्थानों में, एक से अधिक विमान हैं जो आपके डेटा पर फिट किए जा सकते हैं, और उचित प्रकार के नियमितीकरण के बिना मॉडल को बहुत खराब व्यवहार कर सकते हैं। विशेष रूप से क्या नियमितीकरण एक अद्वितीय समाधान मौजूद करने के लिए मजबूर करने की कोशिश करता है। L1 और वर्ग 2 दोनों नियमितीकरण वज़न कम करने की कोशिश करते हैं, और सबसे छोटे वज़न वाले मॉडल को "सबसे सही" मॉडल के रूप में चुनने की व्याख्या की जा सकती है। इसे ओकट्स रेजर के गणितीय सूत्रीकरण के रूप में सोचा जा सकता है।
निर्णय पेड़
निर्णय वृक्ष भी आयामीता के अभिशाप से ग्रस्त हैं। निर्णय पेड़ प्रत्येक नोड पर सीधे नमूना स्थान को विभाजित करते हैं। जैसे ही नमूना स्थान बढ़ता है, डेटा बिंदुओं के बीच की दूरी बढ़ जाती है, जिससे "अच्छा" विभाजन खोजने में बहुत मुश्किल होती है।
रैंडम फ़ॉरेस्ट
रैंडम फ़ॉरेस्ट अपनी भविष्यवाणी करने के लिए निर्णय पेड़ों के संग्रह का उपयोग करते हैं। लेकिन आपकी समस्या की सभी विशेषताओं का उपयोग करने के बजाय, व्यक्तिगत पेड़ केवल सुविधाओं के सबसेट का उपयोग करते हैं। यह उस स्थान को कम करता है जो प्रत्येक पेड़ पर अनुकूलन कर रहा है और आयामीता के अभिशाप की समस्या से निपटने में मदद कर सकता है।
बूस्टेड ट्री के
बूस्टिंग एल्गोरिदम जैसे कि AdaBoost आयामीता के अभिशाप से ग्रस्त हैं और यदि नियमितीकरण का उपयोग नहीं किया जाता है तो वे ओवरफिट हो जाते हैं। मैं गहराई में नहीं जाऊंगा, क्योंकि पोस्ट AdaBoost कम या अधिक ओवरफिटिंग का खतरा है?
कारण बताता है कि मुझसे बेहतर क्यों हो सकता है।
तंत्रिका जाल
तंत्रिका नेटवर्क इस अर्थ में अजीब हैं कि वे दोनों वास्तुकला, सक्रियता, गहराई आदि पर निर्भर आयामीता के अभिशाप से प्रभावित नहीं हैं और इसलिए आयामीता के अभिशाप को दोहराने के लिए समस्या यह है कि उच्च मात्रा में अंक आवश्यक हैं एक इनपुट स्थान को कवर करने के लिए आयाम। गहरी तंत्रिका नेटवर्क की व्याख्या करने का एक तरीका सभी परतों के बारे में सोचना है जो एक उच्च आयामी मैनिफोल्ड के जटिल प्रक्षेपण को निचले आयामी मैनिफोल्ड में करने के रूप में बहुत आखिरी परत की उम्मीद करता है, जहां तब अंतिम परत शीर्ष पर वर्गीकृत होती है। उदाहरण के लिए वर्गीकरण के लिए एक दृढ़ नेटवर्क में जहां अंतिम परत एक सॉफ्टमैक्स परत है, हम आर्किटेक्चर की व्याख्या छोटे आयाम पर गैर-रैखिक प्रक्षेपण कर सकते हैं और फिर उस प्रक्षेपण पर एक बहुराष्ट्रीय उपस्कर प्रतिगमन (सॉफ्टमैक्स परत) कर सकते हैं। तो एक तरह से हमारे डेटा का संकुचित प्रतिनिधित्व हमें आयामीता के अभिशाप को दरकिनार करने की अनुमति देता है। फिर से यह एक व्याख्या है, वास्तव में आयामीता का अभिशाप वास्तव में तंत्रिका नेटवर्क को प्रभावित करता है, लेकिन ऊपर बताए गए मॉडल के समान स्तर पर नहीं।
एसवीएम
एसवीएम अत्यधिक नियमितीकरण के कारण सामान्यीकृत रैखिक मॉडल के रूप में अधिक उपयोग नहीं करते हैं। इस पोस्ट की जाँच करें SVM, Overfitting, आयामी स्वरूप का शाप और अधिक विस्तार के लिए।
के-एनएन, के-मीन्स
K- माध्य और K-NN दोनों ही आयामीता के अभिशाप से बहुत प्रभावित हैं, क्योंकि दोनों ही L2 स्क्विट डिस्टेंस माप का उपयोग करते हैं। जैसे-जैसे आयामों की मात्रा बढ़ती है, वैसे-वैसे विभिन्न डेटा-पॉइंट्स के बीच की दूरी बढ़ती जाती है। यही कारण है कि आपको अधिक स्थान कवर करने के लिए अधिक से अधिक अंकों की आवश्यकता है, उम्मीद है कि दूरी अधिक वर्णनात्मक होगी।
मॉडल के बारे में पूछने के लिए स्वतंत्र महसूस करें, क्योंकि मेरे उत्तर बहुत सामान्य हैं। उम्मीद है की यह मदद करेगा।