सुविधाओं की संख्या बनाम टिप्पणियों की संख्या


26

क्या सुविधाओं की संख्या और टिप्पणियों की संख्या के बीच संबंध के बारे में कोई कागजात / किताबें / विचार हैं, जिन्हें "मजबूत" क्लासिफायर ट्रेन करने की आवश्यकता है?

उदाहरण के लिए, मान लें कि मेरे पास एक प्रशिक्षण सेट के रूप में 1000 विशेषताएं और 10 अवलोकन हैं, और परीक्षण सेट के रूप में 10 अन्य अवलोकन हैं। मैं कुछ क्लासिफायर एक्स को प्रशिक्षित करता हूं और यह मुझे परीक्षण सेट पर 90% संवेदनशीलता और 90% विशिष्टता प्रदान करता है। मान लीजिए कि मैं इस सटीकता से खुश हूं और इसके आधार पर मैं कह सकता हूं कि यह एक अच्छा क्लासिफायर है। दूसरी ओर, मैंने 1000 अंकों के एक फंक्शन को केवल 10 बिंदुओं का उपयोग करके अंजाम दिया है, जो शायद बहुत मजबूत नहीं लगता ...?

जवाबों:


20

आपने यहां जो मारा है वह आयामीता का अभिशाप है या p >> n समस्या (जहाँ p का पूर्वानुमान है और n का अवलोकन है)। इस समस्या को हल करने के लिए वर्षों में कई तकनीकों का विकास हुआ है। अधिक पूर्वानुमानकर्ताओं के साथ मॉडल को दंडित करने के लिए आप AIC या BIC का उपयोग कर सकते हैं । आप चरों के यादृच्छिक सेट चुन सकते हैं और क्रॉस-वेलिडेशन का उपयोग करके उनके महत्व का आश्वासन दे सकते हैं । आप नियमितीकरण के लिए रिज-रिग्रेशन , लासो या इलास्टिक नेट का उपयोग कर सकते हैं । या आप एक तकनीक का चयन कर सकते हैं, जैसे कि एक समर्थन वेक्टर मशीन या यादृच्छिक जंगल जो बड़ी संख्या में भविष्यवक्ताओं के साथ अच्छी तरह से व्यवहार करता है।

ईमानदारी से, समाधान उस समस्या की विशिष्ट प्रकृति पर निर्भर करता है जिसे आप हल करने की कोशिश कर रहे हैं।


9

+1-10.000001*मैंमैं, प्रशिक्षण डेटा की कोई राशि आपको एक उपयोगी क्लासिफायर देने वाली नहीं है। दिन के अंत में, दी गई संख्या के लिए आपके लिए आवश्यक नमूनों की मात्रा इस बात पर निर्भर करती है कि डेटा कैसे वितरित किया जाता है, सामान्य तौर पर, आपके पास जितनी अधिक सुविधाएँ होती हैं, आपको डेटा के वितरण का पर्याप्त रूप से वर्णन करने की आवश्यकता होगी (यदि आप अशुभ हैं तो सुविधाओं की संख्या में घातांक - Zach द्वारा उल्लिखित आयामीता का अभिशाप देखें)।

यदि आप नियमितीकरण का उपयोग करते हैं, तो प्रिंसिपल में, (एक ऊपरी बाध्य पर) सामान्यीकरण त्रुटि सुविधाओं की संख्या से स्वतंत्र है (समर्थन वेक्टर मशीन पर वाप्निक का काम देखें)। हालाँकि, जो नियमितीकरण पैरामीटर के लिए एक अच्छा मूल्य खोजने की समस्या को छोड़ देता है (क्रॉस-वैरिफिकेशन आसान है)।


9

आप शायद शास्त्रीय मॉडलिंग से अधिक प्रभावित हैं, जो कि रनज विरोधाभास जैसी समस्याओं के प्रति संवेदनशील है और इस तरह से प्रसंस्करण के बाद कुछ पारसमनी ट्यूनिंग की आवश्यकता होती है।
हालांकि, मशीन सीखने के मामले में, मॉडल अनुकूलन के उद्देश्य के रूप में मजबूती को शामिल करने का विचार पूरे डोमेन का मूल है (अक्सर अनदेखी डेटा पर सटीकता के रूप में व्यक्त किया जाता है)। तो, ठीक है, जब तक आप जानते हैं कि आपका मॉडल अच्छा काम करता है (उदाहरण के लिए सीवी से) परेशान होने का कोई मतलब नहीं है।

के साथ वास्तविक समस्या पी»nएमएल के मामले में अप्रासंगिक विशेषताएं हैं - ज्यादातर क्योंकि उनमें से कुछ सेट कुछ यादृच्छिक उतार-चढ़ाव के कारण वास्तव में प्रासंगिक लोगों की तुलना में पुन: प्राप्त करने के लिए अधिक उपयोगी हो सकते हैं। जाहिर है कि इस मुद्दे का पारसी धर्म से कोई लेना-देना नहीं है, लेकिन, शास्त्रीय मामले में, सामान्यीकरण शक्ति के भयानक नुकसान के रूप में समाप्त होता है। इसे कैसे हल किया जाए यह एक अलग कहानी है, जिसे फीचर चयन कहा जाता है - लेकिन सामान्य विचार यह है कि मॉडल पर बाधा डालने के बजाय शोर को बाहर निकालने के लिए डेटा को पूर्व-संसाधित किया जाए।


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.