सब कुछ शीर्षक में है, क्या यह यादृच्छिक जंगल का उपयोग करने से पहले फीचर चयन का उपयोग करने के लिए समझ में आता है?
सब कुछ शीर्षक में है, क्या यह यादृच्छिक जंगल का उपयोग करने से पहले फीचर चयन का उपयोग करने के लिए समझ में आता है?
जवाबों:
हाँ यह करता है और यह काफी आम है। यदि आप अपनी सुविधाओं के ~ ५०% से अधिक की उम्मीद करते हैं, तो यह भी बेमानी नहीं है, लेकिन पूरी तरह से बेकार है। उदाहरण के लिए randomForest पैकेज में रैपर फ़ंक्शन rfcv () होता है, जो एक randomForest को प्रदर्शित करेगा और कम से कम महत्वपूर्ण चर को छोड़ देगा। rfcv फ़ंक्शन इस अध्याय को संदर्भित करता है । आशावादी परिणामों से बचने के लिए एक बाहरी क्रॉस-सत्यापन पाश में सुविधा चयन + मॉडलिंग को एम्बेड करना याद रखें।
[नीचे संपादित करें]
मैं "पूरी तरह से बेकार" मध्यम कर सकता था। एक एकल रैंडम फ़ॉरेस्ट अक्सर नहीं होगा जैसे कि लसो नियमितीकरण के साथ प्रतिगमन पूरी तरह से सुविधाओं को अनदेखा करता है, भले ही ये (सिम्युलेटेड हिंडाइट में) रैंडम फ़ीचर थे। सुविधाओं द्वारा निर्णय वृक्ष विभाजन हजारों या लाखों नोड्स में से किसी भी स्थानीय मानदंड द्वारा चुना जाता है और बाद में इसे पूर्ववत नहीं किया जा सकता है। मैं एक बेहतर चयन के लिए सुविधाओं को काटने की वकालत नहीं करता, लेकिन यह कुछ डेटा सेटों के लिए है जो भविष्यवाणी के प्रदर्शन में पर्याप्त वृद्धि प्राप्त करना संभव है (एक दोहराया बाहरी द्वारा अनुमान लगाया गया है) इस चर चयन का उपयोग करके क्रॉस-सत्यापन । एक विशिष्ट खोज यह होगी कि 100% सुविधाएँ या केवल कुछ प्रतिशत कम अच्छी तरह से काम करते हैं, और फिर समान अनुमानित भविष्यवाणी प्रदर्शन के साथ एक व्यापक मध्य सीमा हो सकती है।
शायद एक उचित अंगूठा नियम: जब कोई यह उम्मीद करता है कि लसो जैसा नियमितीकरण किसी समस्या के लिए रिज की तरह नियमितीकरण से बेहतर काम करेगा, तो कोई यादृच्छिक जंगल के पूर्व प्रशिक्षण का प्रयास कर सकता है और आंतरिक आउट-ऑफ-बैग द्वारा सुविधाओं को रैंक कर सकता है। क्रॉस-वेरिफ़ाइड वैरिएबल महत्व और कुछ कम महत्वपूर्ण विशेषताओं को छोड़ने का प्रयास करें । परिवर्तनीय महत्व यह निर्धारित करता है कि क्रॉस-वैलिड मॉडल की भविष्यवाणी कितनी कम हो जाती है, जब किसी दिए गए फ़ीचर को प्रशिक्षण के बाद (मूल्यों में फेरबदल) की अनुमति दी जाती है, भविष्यवाणी से पहले। एक निश्चित सुविधा को शामिल किया जाना चाहिए या नहीं, यह निश्चित नहीं होगा, लेकिन शीर्ष 5% सुविधाओं की भविष्यवाणी करना बहुत आसान है, नीचे की तुलना में 5%।
व्यावहारिक दृष्टिकोण से, कम्प्यूटेशनल रन टाइम को कम किया जा सकता है, और शायद कुछ संसाधनों को बचाया जा सकता है, अगर प्रति सुविधा एक निश्चित अधिग्रहण लागत हो।