यादृच्छिक जंगलों में चर महत्व के उपाय


40

मैं प्रतिगमन के लिए यादृच्छिक जंगलों के साथ खेल रहा हूं और मुझे यह समझने में कठिनाई हो रही है कि महत्व के दो उपायों का क्या मतलब है, और उनकी व्याख्या कैसे की जानी चाहिए।

importance()समारोह हर चर के लिए दो मानों देता है: %IncMSEऔर IncNodePurity। क्या इन 2 मूल्यों की सरल व्याख्या है?

के लिए IncNodePurityविशेष रूप से, यह बस राशि है कि चर के हटाने के बाद राष्ट्रीय स्वयंसेवक संघ वृद्धि हुई है?


1
क्या आपने देखा ?importance? वहाँ एक व्याख्या है कि दोनों उपायों का क्या मतलब है ...
निक सब्बे

2
@ निक सब्बे, मेरे पास है, और मैं उनके चारों ओर अपना सिर लपेटने की कोशिश कर रहा हूं। मैं सोच रहा था कि क्या उनके लिए कोई अच्छी सहज व्याख्याएं हैं।
DCL

जवाबों:


42

पहले के रूप में 'व्याख्या' की जा सकती है: यदि आपके भविष्य के मॉडल में एक भविष्यवक्ता महत्वपूर्ण है, तो उस भविष्यवक्ता के लिए अन्य मानों को यादृच्छिक रूप से असाइन करें लेकिन 'वास्तविक रूप से' (यानी: अपने डेटासेट पर इस भविष्यवक्ता के मूल्यों को अनुमति देना), एक नकारात्मक प्रभाव होना चाहिए। भविष्यवाणी पर, यानी: एक ही मॉडल का उपयोग करके डेटा से भविष्यवाणी करने के लिए जो एक चर को छोड़कर एक ही है, को बदतर पूर्वानुमान देना चाहिए।

इसलिए, आप मूल डेटासेट के साथ और फिर 'अनुमत' डेटासेट के साथ एक पूर्वानुमानात्मक माप (MSE) लेते हैं, और आप किसी तरह उनकी तुलना करते हैं। एक तरह से, खासकर जब से हम उम्मीद करते हैं कि मूल MSE हमेशा छोटा होगा, अंतर लिया जा सकता है। अंत में, मूल्यों को चर पर तुलनीय बनाने के लिए, इन्हें बढ़ाया जाता है।

दूसरे विभाजन के लिए: प्रत्येक विभाजन पर, आप गणना कर सकते हैं कि यह विभाजन नोड अशुद्धता को कम करता है (प्रतिगमन पेड़ों के लिए, वास्तव में, विभाजन से पहले और बाद में आरएसएस के बीच का अंतर)। यह उस चर के लिए सभी पेड़ों पर, सभी पेड़ों पर विभाजित है।

ध्यान दें: एक अच्छा पढ़ा हुआ तत्व हैस्टी, टिब्शिरानी और फ्रीडमैन द्वारा सांख्यिकीय सीखना है ...


3
चीयर्स, मेरे पास वास्तव में वह किताब अभी खुली है :)
dcl

RSS का क्या मतलब है?
डेविडेचिको।


10

रैंडम फॉरेस्ट पैकेज में लागू किए गए रैंडम फॉरेस्ट महत्व के मैट्रिक्स में सहसंबद्ध भविष्यवक्ताओं को कम महत्व वाले मान प्राप्त होते हैं।

http://bioinformatics.oxfordjournals.org/content/early/2010/04/12/bioinformatics.btq134.full.pdf

मेरे पास सीआरएएन पर यादृच्छिक जंगलों का एक संशोधित कार्यान्वयन है जो अनुभवजन्य पी मूल्यों और झूठी दरों का आकलन करने के उनके दृष्टिकोण को लागू करता है, यहां

http://cran.r-project.org/web/packages/pRF/index.html


1
यह चर महत्व के विभिन्न आउटपुट की व्याख्या करता है यदि आप कैरेट पैकेज के साथ रैंडम फ़ोरस्ट का उपयोग करते हैं caret::train(method="rf", importance = TRUE, ...)??
एजिल बीन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.