सुविधाओं की संख्या बढ़ने से प्रदर्शन कम क्यों हो जाता है?


12

मैं एक अंतर्ज्ञान हासिल करने की कोशिश कर रहा हूं कि क्यों सुविधाओं की संख्या बढ़ने से प्रदर्शन कम हो सकता है। मैं वर्तमान में एक एलडीए क्लासिफायर का उपयोग कर रहा हूं, जो कुछ विशेषताओं के बीच बेहतर रूप से बेहतर प्रदर्शन करता है, लेकिन अधिक सुविधाओं को देखते हुए बदतर है। मेरा वर्गीकरण सटीकता एक स्तरीकृत 10-गुना xval का उपयोग करके किया जाता है।

क्या कोई साधारण मामला है जब कोई क्लासिफायर इन उच्च आयामों में क्या हो रहा है, इसके लिए कुछ हद तक शारीरिक या स्थानिक अंतर्ज्ञान हासिल करने के लिए बेहतर तरीके से बेहतर काम करेगा?


8
एक त्वरित टिप्पणी के रूप में, अप्रासंगिक भविष्यवाणियों को जोड़ने से नए आंकड़ों पर प्रदर्शन खराब हो सकता है - भविष्यवाणी के बढ़ते संस्करण (अधिक फिटिंग)। ऐसा इसलिए है क्योंकि आप अंत में शोर करने के लिए फिटिंग को समाप्त करते हैं और "सच्चे सिग्नल" को पतला करते हैं।
13:27 बजे B_Miner

जवाबों:


9

" आयाम की एक समस्या: एक सरल उदाहरण " देखें - जीवी ट्रंक द्वारा एक बहुत छोटा और बहुत पुराना लेख। वह एक दो वर्ग की समस्या पर विचार करता है, गौसियन वर्ग-सशर्त वितरण के साथ जहां विशेषताएं सभी प्रासंगिक हैं , लेकिन घटती प्रासंगिकता के साथ। वह दिखाता है कि परिमित नमूने पर प्रशिक्षित एक क्लासिफायर की त्रुटि दर 0.5 में परिवर्तित हो जाती है, जबकि बेयर्स त्रुटि 0 तक पहुंच जाती है, क्योंकि सुविधाओं की संख्या बढ़ जाती है।


(+1) यह एक प्यारा सा संदर्भ है।
कार्डिनल

2

इसे " कर्स ऑफ डायमेंशनलिटी " का नाम दिया गया है । मुझे नहीं पता कि एलडीए के लिए कोई विशेष कारण है लेकिन सामान्य रूप से अधिक जटिल निर्णय सीमाओं की आवश्यकता के साथ फीचर वेक्टर परिणामों पर बहुत अधिक आयाम हैं। जटिल सीमाएँ होने से एक प्रश्न "किस डिग्री में आता है?" चूंकि हम ओवर-फिटिंग पर भी विचार करते हैं। एक और बिंदु के रूप में, अतिरिक्त आयामों के साथ सीखने की एल्गोरिथ्म की जटिलता भी बढ़ रही है। इस प्रकार विशाल फीचर वेक्टर के साथ अपेक्षाकृत धीमी गति से सीखने के एल्गोरिदम के साथ काम करने से आपकी नौकरी की स्थिति खराब हो जाती है। आयाम के साथ-साथ आपके पास बढ़ती संभावना हो सकती है ti में सहसंबंधित विशेषताएं हैं जिसमें बहुत सारे सीखने के एल्गोरिदम जैसे कि न्यूरल नेट या कुछ अन्य लोगों के लिए अच्छा नहीं है।

आप अन्य कारणों की गणना कर सकते हैं जो "कर्स ऑफ़ डायमेंशनलिटी" के अंतर्गत हैं, लेकिन तथ्य यह है कि संक्षिप्त फ़ीचर वेक्टर के साथ पर्याप्त संख्या में उदाहरण हैं जो कुछ सुविधा चयन दिनचर्या द्वारा आगे बढ़े हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.