क्या परिमाण शाप कुछ मॉडल को दूसरों की तुलना में अधिक प्रभावित करता है?

जिन जगहों पर मैं आयामी शाप के बारे में पढ़ रहा हूं, वे इसे मुख्य रूप से केएनएन और सामान्य रूप से रैखिक मॉडल के संयोजन में समझाते हैं। मैं नियमित रूप से डेटासेट पर हजारों विशेषताओं का उपयोग करते हुए कागल में शीर्ष रैंक देखता हूं, जिसमें मुश्किल से 100k डेटा बिंदु होते हैं। वे मुख्य रूप से दूसरों के बीच में बूस्टेड पेड़ और एनएन का उपयोग करते हैं। यह कई विशेषताएं बहुत अधिक हैं और मुझे लगता है कि वे आयामीता अभिशाप से प्रभावित होंगे। लेकिन ऐसा नहीं लगता है क्योंकि ये मॉडल उन्हें प्रतियोगिताओं में सबसे ऊपर बनाते हैं। तो, मेरे मूल प्रश्न पर वापस - क्या कुछ मॉडल दूसरों की तुलना में आयामीता अभिशाप से प्रभावित होते हैं?

विशेष रूप से, मुझे निम्नलिखित मॉडल में दिलचस्पी है (केवल इसलिए कि ये वे हैं जो मैं / उपयोग के बारे में जानता हूं):

लीनियर और लॉजिस्टिक रिग्रेशन
निर्णय पेड़ / रैंडम फॉरेस्ट / बूस्टेड पेड़
तंत्रिका जाल
SVM
KNN
k- साधन क्लस्टरिंग

— दिलीप कुमार पचीगुल्ला
स्रोत

संक्षिप्त उत्तर निश्चित रूप से हां है, लेकिन शायद आप चाहते हैं कि मॉडल वास्तव में आपकी रुचि रखते हैं? मुझे यकीन है कि सीवी समुदाय आपको हजारों विभिन्न प्रकार के मॉडल के बारे में बता सकता है जो कि आयामीता के अभिशाप से प्रभावित हैं। तो कुछ प्रकार के मॉडल पर अपना ध्यान केंद्रित करने से इस प्रश्न का उत्तर देने में मदद मिल सकती है।

@RustyStatistician - मैंने कुछ मॉडल जोड़े हैं जिनकी मुझे दिलचस्पी है।

— दिलीप कुमार पचीगोल्ला

मुझे इस सवाल में काफी दिलचस्पी है लेकिन यह अनुत्तरित रहा। मैं उत्तर प्राप्त करने के लिए इसे दृश्यता में कैसे ला सकता हूं?

— दिलीप कुमार पचीगोला

सामान्य तौर पर, आयामीता का अभिशाप एक अंतरिक्ष के माध्यम से खोज करने की समस्या को और अधिक कठिन बना देता है, और अधिकांश एल्गोरिदम को प्रभावित करता है जो उनके वेक्टर अंतरिक्ष को विभाजित करके "सीखते हैं"। हमारे अनुकूलन की समस्या जितनी अधिक होती है, उतने अधिक डेटा को हमें उस स्थान को भरने की आवश्यकता होती है जिसे हम अनुकूलन कर रहे हैं।

सामान्यीकृत रैखिक मॉडल

रैखिक मॉडल आयामीता के अभिशाप से बहुत पीड़ित हैं। रैखिक मॉडल एक एकल रैखिक विमान में अंतरिक्ष का विभाजन करते हैं। भले ही हम सीधे गणना नहीं करना चाहते हैं

\hat{β} = (X^{^{'}} X)^{- 1} X^{^{'}} y

$\hat{\beta} = (X^{'}X)^{-1}X^{'}y$ समस्या का सामना करना पड़ा अभी भी संपार्श्विकता के प्रति बहुत संवेदनशील है, और कुछ प्रकार के नियमितीकरण के बिना "बीमार" माना जा सकता है। बहुत ही उच्च आयामी स्थानों में, एक से अधिक विमान हैं जो आपके डेटा पर फिट किए जा सकते हैं, और उचित प्रकार के नियमितीकरण के बिना मॉडल को बहुत खराब व्यवहार कर सकते हैं। विशेष रूप से क्या नियमितीकरण एक अद्वितीय समाधान मौजूद करने के लिए मजबूर करने की कोशिश करता है। L1 और वर्ग 2 दोनों नियमितीकरण वज़न कम करने की कोशिश करते हैं, और सबसे छोटे वज़न वाले मॉडल को "सबसे सही" मॉडल के रूप में चुनने की व्याख्या की जा सकती है। इसे ओकट्स रेजर के गणितीय सूत्रीकरण के रूप में सोचा जा सकता है।

निर्णय पेड़
निर्णय वृक्ष भी आयामीता के अभिशाप से ग्रस्त हैं। निर्णय पेड़ प्रत्येक नोड पर सीधे नमूना स्थान को विभाजित करते हैं। जैसे ही नमूना स्थान बढ़ता है, डेटा बिंदुओं के बीच की दूरी बढ़ जाती है, जिससे "अच्छा" विभाजन खोजने में बहुत मुश्किल होती है।

रैंडम फ़ॉरेस्ट
रैंडम फ़ॉरेस्ट अपनी भविष्यवाणी करने के लिए निर्णय पेड़ों के संग्रह का उपयोग करते हैं। लेकिन आपकी समस्या की सभी विशेषताओं का उपयोग करने के बजाय, व्यक्तिगत पेड़ केवल सुविधाओं के सबसेट का उपयोग करते हैं। यह उस स्थान को कम करता है जो प्रत्येक पेड़ पर अनुकूलन कर रहा है और आयामीता के अभिशाप की समस्या से निपटने में मदद कर सकता है।

बूस्टेड ट्री के
बूस्टिंग एल्गोरिदम जैसे कि AdaBoost आयामीता के अभिशाप से ग्रस्त हैं और यदि नियमितीकरण का उपयोग नहीं किया जाता है तो वे ओवरफिट हो जाते हैं। मैं गहराई में नहीं जाऊंगा, क्योंकि पोस्ट AdaBoost कम या अधिक ओवरफिटिंग का खतरा है? कारण बताता है कि मुझसे बेहतर क्यों हो सकता है।

तंत्रिका जाल
तंत्रिका नेटवर्क इस अर्थ में अजीब हैं कि वे दोनों वास्तुकला, सक्रियता, गहराई आदि पर निर्भर आयामीता के अभिशाप से प्रभावित नहीं हैं और इसलिए आयामीता के अभिशाप को दोहराने के लिए समस्या यह है कि उच्च मात्रा में अंक आवश्यक हैं एक इनपुट स्थान को कवर करने के लिए आयाम। गहरी तंत्रिका नेटवर्क की व्याख्या करने का एक तरीका सभी परतों के बारे में सोचना है जो एक उच्च आयामी मैनिफोल्ड के जटिल प्रक्षेपण को निचले आयामी मैनिफोल्ड में करने के रूप में बहुत आखिरी परत की उम्मीद करता है, जहां तब अंतिम परत शीर्ष पर वर्गीकृत होती है। उदाहरण के लिए वर्गीकरण के लिए एक दृढ़ नेटवर्क में जहां अंतिम परत एक सॉफ्टमैक्स परत है, हम आर्किटेक्चर की व्याख्या छोटे आयाम पर गैर-रैखिक प्रक्षेपण कर सकते हैं और फिर उस प्रक्षेपण पर एक बहुराष्ट्रीय उपस्कर प्रतिगमन (सॉफ्टमैक्स परत) कर सकते हैं। तो एक तरह से हमारे डेटा का संकुचित प्रतिनिधित्व हमें आयामीता के अभिशाप को दरकिनार करने की अनुमति देता है। फिर से यह एक व्याख्या है, वास्तव में आयामीता का अभिशाप वास्तव में तंत्रिका नेटवर्क को प्रभावित करता है, लेकिन ऊपर बताए गए मॉडल के समान स्तर पर नहीं।

एसवीएम
एसवीएम अत्यधिक नियमितीकरण के कारण सामान्यीकृत रैखिक मॉडल के रूप में अधिक उपयोग नहीं करते हैं। इस पोस्ट की जाँच करें SVM, Overfitting, आयामी स्वरूप का शाप और अधिक विस्तार के लिए।

के-एनएन, के-मीन्स

K- माध्य और K-NN दोनों ही आयामीता के अभिशाप से बहुत प्रभावित हैं, क्योंकि दोनों ही L2 स्क्विट डिस्टेंस माप का उपयोग करते हैं। जैसे-जैसे आयामों की मात्रा बढ़ती है, वैसे-वैसे विभिन्न डेटा-पॉइंट्स के बीच की दूरी बढ़ती जाती है। यही कारण है कि आपको अधिक स्थान कवर करने के लिए अधिक से अधिक अंकों की आवश्यकता है, उम्मीद है कि दूरी अधिक वर्णनात्मक होगी।

मॉडल के बारे में पूछने के लिए स्वतंत्र महसूस करें, क्योंकि मेरे उत्तर बहुत सामान्य हैं। उम्मीद है की यह मदद करेगा।

— अरमान अघजायन
स्रोत

हाय आमेन ग्रेट मॉडल सभी मॉडल के लिए स्पष्टीकरण जो मैंने पूछा है। रैखिक मॉडल वाले मुद्दे अभी भी मेरे लिए स्पष्ट नहीं हैं: क्या रैखिक मॉडल k-NN और k- मीन्स मॉडल की तुलना में बेहतर और खराब प्रदर्शन करते हैं? और जब आपने कहा कि कोलीनियरिटी रैखिक मॉडल के लिए एक मुद्दा है, तो क्या आप कहते हैं कि बिना (या कम से कम) कोलीनियरिटी के साथ, उच्च आयाम रैखिक मॉडल के साथ एक मुद्दा नहीं है?

— दिलीप कुमार पचीगोला

यह निर्धारित करना कठिन है कि क्या रैखिक मॉडल एक मनमानी समस्या के लिए k-nn या k- साधनों से बेहतर प्रदर्शन करेंगे। यदि आपकी समस्या रैखिक रूप से अलग है, तो मैं अपना दांव रैखिक मॉडल पर रखूँगा, जबकि यदि आपका स्थान थोड़ा अधिक जटिल है, तो मैं k-nn के साथ जाऊँगा। Collinearity आयामीता के अभिशाप की समस्या को बढ़ाती है, यहां तक कि बिना collinearity के, आयामीता का अभिशाप अभी भी लागू होता है। K- साधनों को k-nn के समान सीमा तक पीड़ित होना चाहिए क्योंकि वे दोनों पड़ोसी संचालित हैं, और आम तौर पर समान दूरी फ़ंक्शन का उपयोग करते हैं। वास्तव में सीओडी कितना खराब है, यह निर्धारित करना कठिन है। उम्मीद है की यह मदद करेगा!

— अर्मेन अघजायन

आयामीता (CoD) के अभिशाप की आपकी परिभाषा क्या है? आपके उत्तर से लगता है कि रैखिक मॉडल सीओडी से सबसे अधिक पीड़ित हैं, यह भ्रामक है: एक वैश्विक विधि होने के नाते, रैखिक मॉडल KNN जैसे स्थानीयकृत तरीकों से बहुत कम पीड़ित हैं।

— मतिफौ