एक यादृच्छिक जंगल में, बड़ा% IncMSE बेहतर या बदतर है?


17

एक बार जब मैंने आर में (रिग्रेशन) रैंडम फॉरेस्ट मॉडल बनाया है, तो कॉल rf$importanceमुझे प्रत्येक प्रेडिक्टर चर के लिए दो उपाय प्रदान करता है, %IncMSEऔर IncNodePurity। क्या यह व्याख्या कि छोटे %IncMSEमूल्यों के साथ भविष्यवक्ता चर, बड़े %IncMSEमूल्यों वाले भविष्यवक्ता चर की तुलना में अधिक महत्वपूर्ण है ?

कैसे के लिए IncNodePurity?

जवाबों:


30

% IncMSE सबसे मजबूत और सूचनात्मक उपाय है। यह वेरिएबल जे के अनुमत होने के परिणामस्वरूप भविष्यवाणियों के अनुमान में वृद्धि (आउट-ऑफ-बैग-सीवी के साथ) है।

  1. प्रतिगमन वन बढ़ाएं। OOB-mse की गणना करें, इस mse0 को नाम दें।
  2. 1 से j var के लिए: स्तंभ j के मानों की अनुमति दें, फिर OOB-mse (j) की भविष्यवाणी करें और गणना करें
  3. J'th का% IncMSE है (mse (j) -mse0) / mse0 * 100%

उच्च संख्या, अधिक महत्वपूर्ण है

IncNodePurity नुकसान फ़ंक्शन से संबंधित है जो सबसे अच्छे विभाजन द्वारा चुना जाता है। हानि समारोह वर्गीकरण के लिए प्रतिगमन और गिन्नी-अशुद्धता के लिए mse है। अधिक उपयोगी चर नोड शुद्धता में उच्च वृद्धि को प्राप्त करते हैं, जो एक विभाजन को खोजने के लिए होता है जिसमें एक उच्च अंतर नोड 'विचरण' और एक छोटा अंतर नोड 'विचरण' होता है। IncNodePurity पक्षपाती है और इसका उपयोग केवल तभी किया जाना चाहिए जब% IncMSE की गणना का अतिरिक्त गणना समय अस्वीकार्य हो। चूँकि% IncMSE की गणना करने में केवल ~ 5-25% अतिरिक्त समय लगता है, ऐसा लगभग कभी नहीं होगा।

इसी तरह का सवाल और जवाब

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.