मुझे यह समझने में कुछ कठिनाई हो रही है कि रैंडम फ़ॉरेस्ट पैकेज से चर महत्व आउटपुट की व्याख्या कैसे करें। सटीकता में कमी का मतलब आमतौर पर "प्रत्येक सुविधा में मूल्यों की अनुमति देने से मॉडल सटीकता में कमी" के रूप में वर्णित किया गया है।
क्या यह फीचर के बारे में एक कथन है या फीचर के भीतर विशिष्ट मूल्यों के बारे में है? या तो मामले में, माध्य सटीकता में कमी है या मॉडल से प्रश्न में सुविधा (या सुविधा से मान) को हटाकर टिप्पणियों का अनुपात गलत तरीके से वर्गीकृत किया गया है?
कहें कि हमारे पास निम्नलिखित मॉडल हैं:
require(randomForest)
data(iris)
set.seed(1)
dat <- iris
dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other'))
model.rf <- randomForest(Species~., dat, ntree=25,
importance=TRUE, nodesize=5)
model.rf
varImpPlot(model.rf)
Call:
randomForest(formula = Species ~ ., data = dat, ntree = 25,
proximity = TRUE, importance = TRUE, nodesize = 5)
Type of random forest: classification
Number of trees: 25
No. of variables tried at each split: 2
OOB estimate of error rate: 3.33%
Confusion matrix:
other virginica class.error
other 97 3 0.03
virginica 2 48 0.04
इस मॉडल में, OOB दर कम है (लगभग 5%)। फिर भी, इस माप में उच्चतम मान के साथ पूर्वसूचक (पेटल.लॉग) के लिए सटीकता में कमी का मतलब केवल 8 के आसपास है।
क्या इसका मतलब यह है कि मॉडल से पेटल.लिमिटिंग को हटाने से केवल 8 का अतिरिक्त गर्भपात होगा या औसत रूप से अवलोकन होगा?
पेटल के लिए सटीकता में माध्य में कमी कैसे हो सकती है। गति इतनी कम है, यह देखते हुए कि यह इस उपाय में सबसे अधिक है, और इस प्रकार अन्य चर भी इस उपाय पर कम मूल्य रखते हैं?