क्या यह रैंडम फ़ॉरेस्ट से पहले फीचर चयन का उपयोग करने के लिए समझ में आता है?


जवाबों:


6

हाँ यह करता है और यह काफी आम है। यदि आप अपनी सुविधाओं के ~ ५०% से अधिक की उम्मीद करते हैं, तो यह भी बेमानी नहीं है, लेकिन पूरी तरह से बेकार है। उदाहरण के लिए randomForest पैकेज में रैपर फ़ंक्शन rfcv () होता है, जो एक randomForest को प्रदर्शित करेगा और कम से कम महत्वपूर्ण चर को छोड़ देगा। rfcv फ़ंक्शन इस अध्याय को संदर्भित करता है । आशावादी परिणामों से बचने के लिए एक बाहरी क्रॉस-सत्यापन पाश में सुविधा चयन + मॉडलिंग को एम्बेड करना याद रखें।

[नीचे संपादित करें]

मैं "पूरी तरह से बेकार" मध्यम कर सकता था। एक एकल रैंडम फ़ॉरेस्ट अक्सर नहीं होगा जैसे कि लसो नियमितीकरण के साथ प्रतिगमन पूरी तरह से सुविधाओं को अनदेखा करता है, भले ही ये (सिम्युलेटेड हिंडाइट में) रैंडम फ़ीचर थे। सुविधाओं द्वारा निर्णय वृक्ष विभाजन हजारों या लाखों नोड्स में से किसी भी स्थानीय मानदंड द्वारा चुना जाता है और बाद में इसे पूर्ववत नहीं किया जा सकता है। मैं एक बेहतर चयन के लिए सुविधाओं को काटने की वकालत नहीं करता, लेकिन यह कुछ डेटा सेटों के लिए है जो भविष्यवाणी के प्रदर्शन में पर्याप्त वृद्धि प्राप्त करना संभव है (एक दोहराया बाहरी द्वारा अनुमान लगाया गया है) इस चर चयन का उपयोग करके क्रॉस-सत्यापन । एक विशिष्ट खोज यह होगी कि 100% सुविधाएँ या केवल कुछ प्रतिशत कम अच्छी तरह से काम करते हैं, और फिर समान अनुमानित भविष्यवाणी प्रदर्शन के साथ एक व्यापक मध्य सीमा हो सकती है।

शायद एक उचित अंगूठा नियम: जब कोई यह उम्मीद करता है कि लसो जैसा नियमितीकरण किसी समस्या के लिए रिज की तरह नियमितीकरण से बेहतर काम करेगा, तो कोई यादृच्छिक जंगल के पूर्व प्रशिक्षण का प्रयास कर सकता है और आंतरिक आउट-ऑफ-बैग द्वारा सुविधाओं को रैंक कर सकता है। क्रॉस-वेरिफ़ाइड वैरिएबल महत्व और कुछ कम महत्वपूर्ण विशेषताओं को छोड़ने का प्रयास करें । परिवर्तनीय महत्व यह निर्धारित करता है कि क्रॉस-वैलिड मॉडल की भविष्यवाणी कितनी कम हो जाती है, जब किसी दिए गए फ़ीचर को प्रशिक्षण के बाद (मूल्यों में फेरबदल) की अनुमति दी जाती है, भविष्यवाणी से पहले। एक निश्चित सुविधा को शामिल किया जाना चाहिए या नहीं, यह निश्चित नहीं होगा, लेकिन शीर्ष 5% सुविधाओं की भविष्यवाणी करना बहुत आसान है, नीचे की तुलना में 5%।

व्यावहारिक दृष्टिकोण से, कम्प्यूटेशनल रन टाइम को कम किया जा सकता है, और शायद कुछ संसाधनों को बचाया जा सकता है, अगर प्रति सुविधा एक निश्चित अधिग्रहण लागत हो।


5
आपको यह बताने की डेटा की क्षमता कि एक सुविधा बेकार है, गंभीर रूप से सीमित है, और मुझे आशा है कि जिस विकल्प का आप उल्लेख करते हैं वह यादृच्छिक वन एल्गोरिथम में एकीकृत है। रैंडम फ़ॉरेस्ट एल्गोरिथ्म के लिए उम्मीदवार सुविधाएँ भेजने से पहले सुविधाओं का अप-फ्रंट विलोपन करना उचित नहीं होगा।
फ्रैंक हरेल

@FrankHarrell, मैंने अपने जवाब को विस्तृत करने की कोशिश की है
सोरेन हवेलुंड वेलिंग

2
मैं असहमत हूं कि आप अलग-अलग उद्देश्यों के लिए अलग स्कोरिंग नियम चुनते हैं। एक अनुचित सटीकता स्कोरिंग नियम गलत सुविधाओं का चयन और उन्हें गलत भार देता है। अधिक स्पष्ट कुछ स्कोरिंग नियमों में मनमानी है। एक इष्टतम भविष्य कहनेवाला मॉडल चुनना और फिर उस मॉडल का उपयोग करके इष्टतम निर्णय लेने के लिए ठोस निर्णय सिद्धांत का उपयोग करना कहीं बेहतर है। यह निरंतर भविष्यवाणियों के लिए एक उपयोगिता फ़ंक्शन लागू करके किया जाता है।
फ्रैंक हरेल

1
@FrankHarrell - क्या आप इस प्रश्न का विस्तृत उत्तर दे सकते हैं? स्पष्ट रूप से आपके पास फीचर चयन करने के खिलाफ कुछ मजबूत तर्क हैं ...
ihadanny

1
इसके बारे में जानने का सबसे अच्छा तरीका एक प्रक्रिया की कठोर बूटस्ट्रैप आंतरिक सत्यापन करना है जो सुविधा चयन बनाम ऐसा करने की कोशिश करता है जो ऐसा नहीं करता है। अक्सर भविष्य कहनेवाला भेदभाव (जब एक उचित सटीकता स्कोरिंग नियम का उपयोग करके मापा जाता है या के साथ भीसी-इंडेक्स (आरओसी क्षेत्र) बेहतर है जब सुविधा चयन का प्रयास नहीं किया जाता है। फ़ीचर चयन लगभग हमेशा मनमाना होता है।
फ्रैंक हार्ले
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.