वर्गीकरण कार्यों के लिए फीचर चयन महत्वपूर्ण क्यों है?


11

मैं फीचर चयन के बारे में सीख रहा हूं। मैं देख सकता हूं कि मॉडल निर्माण के लिए यह महत्वपूर्ण और उपयोगी क्यों होगा। लेकिन आइए पर्यवेक्षित शिक्षण (वर्गीकरण) कार्यों पर ध्यान दें। वर्गीकरण कार्यों के लिए फीचर चयन महत्वपूर्ण क्यों है?

मैं देख रहा हूँ कि बहुत सारे साहित्य फीचर चयन और पर्यवेक्षित शिक्षण के लिए इसके उपयोग के बारे में लिखे गए हैं, लेकिन यह मुझे पहेली बना देता है। फीचर का चयन पहचान के बारे में है कि कौन सी सुविधाओं को फेंकना है। सहज रूप से, कुछ सुविधाओं को फेंकना आत्म-पराजय लगता है: यह जानकारी को दूर फेंक रहा है। ऐसा लगता है कि जानकारी फेंकने में मदद नहीं करनी चाहिए।

और अगर कुछ सुविधाओं को हटाने से भी मदद मिलती है, अगर हम कुछ सुविधाओं को फेंक रहे हैं और फिर एक पर्यवेक्षित शिक्षण एल्गोरिथ्म में बाकी को खिला रहे हैं, तो हमें खुद को ऐसा करने की आवश्यकता क्यों है, बजाय पर्यवेक्षित सीखने के एल्गोरिथम को संभालने की अनुमति देने की? यदि कुछ सुविधा सहायक नहीं है, तो क्या किसी भी सभ्य पर्यवेक्षित शिक्षण एल्गोरिथ्म को स्पष्ट रूप से पता नहीं लगाना चाहिए और उस मॉडल का उपयोग करना सीखना चाहिए जो उस सुविधा का उपयोग नहीं करता है?

इसलिए सहज रूप से मैंने उम्मीद की होगी कि फीचर का चयन एक व्यर्थ अभ्यास होगा जो कभी मदद नहीं करता है और कभी भी चोट पहुंचा सकता है। लेकिन यह तथ्य कि यह बहुत व्यापक रूप से उपयोग किया जाता है और इसके बारे में लिखा जाता है, मुझे संदेह है कि मेरी अंतर्ज्ञान दोषपूर्ण है। क्या कोई भी अंतर्ज्ञान प्रदान कर सकता है कि सुविधा का चयन उपयोगी और महत्वपूर्ण क्यों है, जब पर्यवेक्षित शिक्षण किया जाता है? यह मशीन सीखने के प्रदर्शन में सुधार क्यों करता है? क्या यह निर्भर करता है कि मैं किस क्लासिफायर का उपयोग करता हूं?

जवाबों:


10

आपका अंतर्ज्ञान काफी सही है। ज्यादातर स्थितियों में, सुविधा चयन सरल स्पष्टीकरण की इच्छा का प्रतिनिधित्व करता है जो तीन गलतफहमी से उत्पन्न होता है:

  1. विश्लेषक को यह महसूस नहीं होता है कि "चयनित" सुविधाओं का सेट काफी अस्थिर है, अर्थात, गैर-मजबूत, और यह कि किसी अन्य डेटासेट पर किए जाने पर चयन की प्रक्रिया में काफी अलग सेट होंगे। डेटा में अक्सर "सही" सुविधाओं का चयन करने के लिए आवश्यक जानकारी सामग्री नहीं होती है। सह-रेखीय मौजूद होने पर यह समस्या और बदतर हो जाती है।
  2. अनियंत्रित प्रयोगों में मार्ग, तंत्र और प्रक्रियाएं जटिल हैं; मानव व्यवहार और प्रकृति जटिल हैं और पारसी नहीं हैं।
  3. डेटा को पूछकर भविष्यवाणी की सटीकता को नुकसान पहुंचाया जाता है ताकि आप दोनों बता सकें कि महत्वपूर्ण विशेषताएं क्या हैं और "महत्वपूर्ण" लोगों के लिए के साथ क्या संबंध हैं। "प्रत्येक चर का थोड़ा सा उपयोग करना" बेहतर है कि कुछ चर का उपयोग करें और दूसरों के लिए कोई नहीं (यानी, संकोचन / दंड का उपयोग करने के लिए)।Y

इसका अध्ययन करने के कुछ तरीके:

  1. लसो , इलास्टिक नेट और मानक द्विघात दंड (रिज रिग्रेशन) के बीच पूर्वानुमान की सटीकता की तुलना अधिक करें
  2. बूटस्ट्रैप चर महत्व एक यादृच्छिक जंगल से मापता है और उनकी स्थिरता की जांच करता है
  3. संभावित सुविधाओं के रैंकों पर बूटस्ट्रैप विश्वास अंतराल की गणना करें, उदाहरण के लिए, आंशिक रूप से परीक्षण के रैंक पर (या univariate Spearman या सोमरस ' ) जैसी चीजों का परीक्षण ) और देखें कि ये विश्वास अंतराल अत्यंत व्यापक हैं , सीधे आपको कार्य की कठिनाई के बारे में सूचित करता है। Http://biostat.mc.vanderbilt.edu/rms से जुड़े मेरे पाठ्यक्रम नोट्स में OLS का उपयोग करने वाले भविष्यवक्ताओं के रैंक क्रम का एक उदाहरण है।χ2ρडीएक्सy

यह सब वर्गीकरण और भविष्यवाणी की सामान्य और उपयोगी अवधारणा दोनों पर लागू होता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.