यादृच्छिक वन मॉडल में सटीकता में कमी और मतलब घटती जीआईएनआई की व्याख्या कैसे करें


34

मुझे यह समझने में कुछ कठिनाई हो रही है कि रैंडम फ़ॉरेस्ट पैकेज से चर महत्व आउटपुट की व्याख्या कैसे करें। सटीकता में कमी का मतलब आमतौर पर "प्रत्येक सुविधा में मूल्यों की अनुमति देने से मॉडल सटीकता में कमी" के रूप में वर्णित किया गया है।

क्या यह फीचर के बारे में एक कथन है या फीचर के भीतर विशिष्ट मूल्यों के बारे में है? या तो मामले में, माध्य सटीकता में कमी है या मॉडल से प्रश्न में सुविधा (या सुविधा से मान) को हटाकर टिप्पणियों का अनुपात गलत तरीके से वर्गीकृत किया गया है?

कहें कि हमारे पास निम्नलिखित मॉडल हैं:

require(randomForest)
data(iris)
set.seed(1)
dat <- iris
dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other'))
model.rf <- randomForest(Species~., dat, ntree=25,
importance=TRUE, nodesize=5)
model.rf
varImpPlot(model.rf)

Call:
 randomForest(formula = Species ~ ., data = dat, ntree = 25,
 proximity = TRUE, importance = TRUE, nodesize = 5)

Type of random forest: classification
Number of trees: 25
No. of variables tried at each split: 2

        OOB estimate of  error rate: 3.33%
Confusion matrix:
          other virginica class.error
other        97         3        0.03
virginica     2        48        0.04

यहाँ छवि विवरण दर्ज करें

इस मॉडल में, OOB दर कम है (लगभग 5%)। फिर भी, इस माप में उच्चतम मान के साथ पूर्वसूचक (पेटल.लॉग) के लिए सटीकता में कमी का मतलब केवल 8 के आसपास है।

क्या इसका मतलब यह है कि मॉडल से पेटल.लिमिटिंग को हटाने से केवल 8 का अतिरिक्त गर्भपात होगा या औसत रूप से अवलोकन होगा?

पेटल के लिए सटीकता में माध्य में कमी कैसे हो सकती है। गति इतनी कम है, यह देखते हुए कि यह इस उपाय में सबसे अधिक है, और इस प्रकार अन्य चर भी इस उपाय पर कम मूल्य रखते हैं?


कोशिश करो <- आईरिस [, सी (2: 3,5)] और उच्च VI मान प्राप्त करना चाहिए
सोरेन हवेलुंड वेलिंग

जवाबों:


26

" क्या यह फीचर के बारे में एक कथन है या फीचर के भीतर विशिष्ट मूल्यों के बारे में है? "

  • "ग्लोबल" वैरिएबल महत्व सभी आउट-ऑफ-बैग क्रॉस मान्य भविष्यवाणियों पर सटीकता की कमी है, जब किसी दिए गए चर को प्रशिक्षण के बाद अनुमति दी जाती है, लेकिन भविष्यवाणी से पहले। "ग्लोबल" निहित है। स्थानीय परिवर्तनीय महत्व प्रत्येक व्यक्ति के आउट-ऑफ-बैग क्रॉस मान्य भविष्यवाणी द्वारा सटीकता की कमी है। वैश्विक चर महत्व सबसे लोकप्रिय है, क्योंकि यह प्रति चर एकल संख्या है, समझने में आसान है, और अधिक मजबूत है क्योंकि यह सभी पूर्वानुमानों पर औसत है।

" या तो मामले में, क्या माडल में से फीचर (या फीचर से वैल्यूज) को हटाकर गलत तरीके से वर्गीकृत की गई टिप्पणियों की संख्या या अनुपात को कम करने का मतलब है? "

  1. ट्रेन का जंगल
  2. माप से बाहर सीवी सटीकता → OOB_acc_base
  3. परमिट चर
  4. माप से बाहर सीवी सटीकता → OOB_acc_perm_i
  5. VI_i = - (OOB_acc_perm_i - OOB_acc_base)

- " इसका मतलब यह है कि मॉडल से पेटल.लिमिटिंग को हटाने से औसतन 8 या इससे अधिक मिसकैरेज हो सकते हैं? "

  • हां। पेटल.लिफ्टिंग और पेटल.ऑक्सऑर्डर दोनों ही लगभग पूर्ण रैखिक पृथक्करण हैं। इस प्रकार चर अनावश्यक जानकारी साझा करते हैं और केवल एक ही मॉडल को बाधित नहीं करता है।

" पेटल के लिए सटीकता में माध्य में कमी कैसे हो सकती है। गति इतनी कम है, यह देखते हुए कि यह इस उपाय में सबसे अधिक है, और इस प्रकार अन्य चर भी इस उपाय पर कम मूल्य रखते हैं? "

  • जब एक मजबूत / नियमित मॉडल को निरर्थक चर पर प्रशिक्षित किया जाता है, तो यह एकल चर में क्रमपरिवर्तन के लिए काफी प्रतिरोधी होता है।

मुख्य रूप से अपने चर की उपयोगिता को रैंक करने के लिए मुख्य रूप से चर महत्व का उपयोग करें। चर महत्व के पूर्ण मूल्यों की एक स्पष्ट व्याख्या अच्छी तरह से करना मुश्किल है।

गिनी: Gini महत्व किसी दिए गए चर के विभाजन द्वारा शुद्धता के औसत लाभ को मापता है। यदि चर उपयोगी है, तो यह मिश्रित लेबल वाले नोड्स को शुद्ध एकल वर्ग नोड्स में विभाजित करता है। एक अनुमत चर द्वारा विभाजन नोड शुद्धता को बढ़ाने या घटाने के लिए न तो करते हैं। एक उपयोगी चर की अनुमति देते हैं, मतलब जिनि-गेन में अपेक्षाकृत बड़ी कमी देते हैं। Gini महत्व स्थानीय निर्णय फ़ंक्शन से निकटता से संबंधित है, जो कि यादृच्छिक वन सबसे अच्छा उपलब्ध विभाजन का चयन करने के लिए उपयोग करता है। इसलिए, गणना करने में अधिक अतिरिक्त समय नहीं लगता है। दूसरी ओर, स्थानीय विभाजन में गिनी-लाभ का मतलब यह नहीं है कि समग्र मॉडल प्रदर्शन को बदलने के विपरीत, मापने के लिए सबसे उपयोगी क्या है। Gini महत्व समग्र अवर (क्रमपरिवर्तन आधारित) परिवर्तनीय महत्व के रूप में है क्योंकि यह अपेक्षाकृत अधिक पक्षपाती, अधिक अस्थिर है और एक अधिक अप्रत्यक्ष प्रश्न का उत्तर देता है।


सरल रैंकिंग से परे परिवर्तनीय महत्व की व्याख्या के लिए, देखें: "वर्गीकरण समस्या के लिए बीवरिएट वैरिएबल चयन" -विवियन डब्लू। एनजी और लियो ब्रिमन digitalassets.lib.berkeley.edu/sdtr/ucb/text/692.pdf
सोरेन हवेलुंड वेलिंग

आपके उत्तर के लिए बहुत बहुत धन्यवाद! मैंने देखा है कि कुछ स्थानों पर OOB त्रुटि दर (इसलिए एक प्रतिशत) में वृद्धि के रूप में सटीकता में औसत कमी का वर्णन है । आपके द्वारा पोस्ट किया गया सूत्र त्रुटि दर का सुझाव भी देता है: (OOB_acc_perm_i - OOB_acc_permase)। लेकिन आपको यकीन है कि सटीकता में कमी का मतलब गलत तरीके से वर्गीकृत टिप्पणियों की संख्या का जिक्र है?
FlacoT

1
सामने माइनस को याद रखें, क्योंकि परिवर्तनीय महत्व में कमी है। मैं इकाइयों के साथ बहुत विशिष्ट नहीं था, ये% या शुद्ध अनुपात / अनुपात में व्यक्त किए जा सकते हैं, इससे कोई फर्क नहीं पड़ता। लेकिन हाँ सटीकता के रूप में = 1-error_rate, VI_i = error_rate_perm_i - error_rate_base। प्रतिगमन के लिए क्रमपरिवर्तन चर महत्व की इकाई आम तौर पर समझाया गया विचरण के% की कमी है और गिन्नी महत्व की इकाई माध्य_सर्करे_रोर-गेन की कमी है। "लेकिन आप सुनिश्चित हैं कि सटीकता में कमी का मतलब गलत तरीके से वर्गीकृत टिप्पणियों की संख्या है। " -नहीं, सटीकता एक अंश है, कोई गिनती नहीं।
सोरेन हवेलुंड वेलिंग 15

10

रैंडम फ़ोरस्ट की सहायता पुस्तिका से सटीकता (एमडीए) में औसत कमी का वर्णन इस प्रकार है:

पहला उपाय ओओबी डेटा की अनुमति देने से गणना की जाती है: प्रत्येक पेड़ के लिए, डेटा के आउट-ऑफ-बैग भाग पर भविष्यवाणी त्रुटि दर्ज की जाती है (वर्गीकरण के लिए त्रुटि दर, प्रतिगमन के लिए एमएसई)। फिर प्रत्येक भविष्यवक्ता चर की अनुमति देने के बाद भी ऐसा ही किया जाता है। दोनों के बीच अंतर तब सभी पेड़ों पर औसतन होता है, और अंतर के मानक विचलन द्वारा सामान्यीकृत होता है। यदि किसी चर के लिए मतभेदों का मानक विचलन 0 के बराबर है, तो विभाजन नहीं किया जाता है (लेकिन औसत उस स्थिति में लगभग हमेशा 0 के बराबर होता है)।

विवरण के अनुसार, एमडीए में "सटीकता" वास्तव में सिंगल ट्री मॉडल की सटीकता को संदर्भित करता है , इस तथ्य की परवाह किए बिना कि हम जंगल की त्रुटि दर से अधिक चिंतित हैं । इसलिए,

"क्या इसका मतलब यह है कि मॉडल से पेटल.लिफ्टिंग को हटाने से केवल 8 का एक अतिरिक्त गर्भपात होगा या औसत रूप से अवलोकन होगा?"

  • Mean(Decreases in Accuracy of Trees)StandardDeviation(Decreases in Accuracy of Trees)
  • Mean(Decreases in Accuracy of Trees)

H0:Nodes constructed by predictor i is useless in any single trees
H1:Nodes constructed by predictor i is useful

एक टिप्पणी के रूप में, सोरेन द्वारा वर्णित एमडीए प्रक्रिया रैंडम फॉरेस्ट पैकेज के कार्यान्वयन से अलग है। यह एमडीए से हमारी इच्छा के करीब है: पूरे वन मॉडल की सटीकता में कमी। हालांकि, मॉडल शायद पेटल के बिना अलग तरह से फिट होगा। गति और अन्य भविष्यवाणियों पर अधिक भरोसा करते हैं। इस प्रकार सोरेन का एमडीए भी निराशावादी होगा।


दो अनुवर्ती प्रश्न: 1. कोई भी विचार यदि अन्य संकुल @Soren द्वारा वर्णित अधिक सहज एमडीए का उपयोग करता है? 2. यदि रैंडमफोरेस्ट में एमडीए की व्याख्या एक परीक्षण आँकड़ा के रूप में है, तो क्या नियम का अंगूठा जैसा कुछ है जो पर्याप्त रूप से बड़े परीक्षण सांख्यिकीय H0 को अस्वीकार करने के लिए है? क्या एमडीए कुछ ज्ञात वितरण का पालन करता है?
फ्लाकोटी

1. क्षमा करें, मैंने किसी अन्य पैकेज की कोशिश नहीं की। 2. यह बस एक परीक्षण सांख्यिकीय समान है। न तो वितरण सुलभ है (जहां तक ​​मुझे पता है कि कुछ लोगों ने इस पर ध्यान दिया है) और न ही परीक्षण स्वयं सार्थक है - मुझे नहीं लगता कि परीक्षण वन के बारे में कुछ भी निष्कर्ष निकालता है, जो कि हमारा वास्तविक हित है।
जियानयू

4

सैन फ्रांसिस्को विश्वविद्यालय में एक टीम के एक हालिया (ब्लॉग पोस्ट) [ https://explained.ai/rf-importance/index.html] से पता चलता है कि R (randomForest) और Python (scikit) दोनों में डिफ़ॉल्ट महत्व की रणनीतियाँ अविश्वसनीय हैं कई डेटा परिदृश्यों में। विशेष रूप से, अशुद्धता महत्व मेट्रिक्स में कमी का मतलब पक्षपाती है जब संभावित पूर्वानुमानकर्ता चर माप के पैमाने या उनकी श्रेणियों की संख्या में भिन्न होते हैं।

कागजात और ब्लॉग पोस्ट प्रदर्शित करते हैं कि निरंतरता और उच्च कार्डिनैलिटी वेरिएबल को अशुद्धता महत्व रैंकिंग में औसत कमी में पसंद किया जाता है, भले ही वे कम श्रेणियों वाले चर की तुलना में समान रूप से असंक्रमित हों। लेखक इन मामलों में डिफ़ॉल्ट के बजाय क्रमबद्धता महत्व का उपयोग करने का सुझाव देते हैं। यदि आपके मॉडल में पूर्वसूचक चर अत्यधिक सहसंबद्ध हैं, तो सशर्त क्रमचय महत्व का सुझाव दिया जाता है।

अशुद्धता को पक्षपाती किया जाता है क्योंकि हर बार एक ब्रेकप्वाइंट को एक चर में चुना जाता है, सबसे अच्छा विराम बिंदु खोजने के लिए चर के हर स्तर का परीक्षण किया जाता है। निरंतर या उच्च कार्डिनैलिटी वेरिएबल में कई और विभाजन बिंदु होंगे, जिसके परिणामस्वरूप "एकाधिक परीक्षण" समस्या होती है। यही है, इस बात की अधिक संभावना है कि संयोग से कि परिणाम अच्छी तरह से भविष्यवाणी करने के लिए होता है, चूंकि चर, जहां अधिक विभाजन की कोशिश की जाती है, पेड़ में अधिक बार दिखाई देगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.