मुझे यादृच्छिक वन मॉडल चलाने के लिए किसी से एक आर स्क्रिप्ट मिली। मैंने कुछ कर्मचारी डेटा के साथ इसे संशोधित और चलाया। हम स्वैच्छिक अलगाव की भविष्यवाणी करने की कोशिश कर रहे हैं।
यहां कुछ अतिरिक्त जानकारी दी गई है: यह एक वर्गीकरण मॉडल था 0 = कर्मचारी रुका हुआ था, 1 = कर्मचारी समाप्त हो गया, हम वर्तमान में केवल एक दर्जन भविष्यवक्ता चर देख रहे हैं, डेटा "असंतुलित" है जिसमें टर्म रिकॉर्ड लगभग 7 हो जाएंगे। कुल रिकॉर्ड सेट का%।
मैं विभिन्न mtry और ntree चयन के साथ मॉडल चलाता हूं, लेकिन नीचे पर बसा हुआ है। OOB 6.8% है जो मुझे लगता है कि अच्छा है, लेकिन भ्रम की स्थिति के बारे में भविष्यवाणी करने के लिए भ्रम की स्थिति एक अलग कहानी बताती है, क्योंकि त्रुटि दर 92.79% से काफी अधिक है। क्या मुझे यह मानने में सही है कि मैं इस मॉडल पर भरोसा नहीं कर सकता और इसका उपयोग नहीं कर सकता क्योंकि शब्दों की भविष्यवाणी के लिए उच्च त्रुटि दर? या क्या ऐसा कुछ है जो मैं आरएफ का उपयोग करने और शर्तों की भविष्यवाणी के लिए एक छोटी त्रुटि दर प्राप्त कर सकता हूं?
FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100)
ntree OOB 1 2
100: 6.97% 0.47% 92.79%
200: 6.87% 0.36% 92.79%
300: 6.82% 0.33% 92.55%
400: 6.80% 0.29% 92.79%
500: 6.80% 0.29% 92.79%
> print(FOREST_model)
Call:
randomForest(formula = theFormula, data = trainset, mtry = 3, ntree = 500, importance = TRUE, do.trace = 100)
Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 3
OOB estimate of error rate: 6.8%
Confusion matrix:
0 1 class.error
0 5476 16 0.002913328
1 386 30 0.927884615
> nrow(trainset)
[1] 5908