अन्य मॉडलों के सापेक्ष, रैंडम फ़ॉरेस्ट अधिक होने की संभावना कम है लेकिन यह अभी भी कुछ है जिसे आप बचने के लिए स्पष्ट प्रयास करना चाहते हैं। ट्यूनिंग मॉडल पैरामीटर निश्चित रूप से ओवरफिटिंग से बचने का एक तत्व है, लेकिन यह केवल एक ही नहीं है। वास्तव में मैं यह कहूंगा कि आपके प्रशिक्षण सुविधाओं में मॉडल मापदंडों की तुलना में ओवरफिटिंग की संभावना अधिक है, विशेष रूप से एक यादृच्छिक वन के साथ। इसलिए मुझे लगता है कि कुंजी वास्तव में एक विश्वसनीय तरीका है जो आपके मॉडल का मूल्यांकन करने के लिए किसी और चीज से अधिक की जांच करने के लिए है, जो हमें आपके दूसरे प्रश्न पर लाता है।
जैसा कि ऊपर उल्लेख किया गया है, क्रॉस क्रॉस सत्यापन चलाने से आप ओवरफिटिंग से बच सकते हैं। सीवी परिणामों के आधार पर अपना सर्वश्रेष्ठ मॉडल चुनना एक ऐसे मॉडल को जन्म देगा जो ओवरफिट नहीं हुआ है, जो जरूरी नहीं कि बैग की त्रुटि के कारण ऐसा हो। R में CV चलाने का सबसे आसान तरीका caret
पैकेज के साथ है । एक सरल उदाहरण नीचे दिया गया है:
> library(caret)
>
> data(iris)
>
> tr <- trainControl(method = "cv", number = 5)
>
> train(Species ~ .,data=iris,method="rf",trControl= tr)
Random Forest
150 samples
4 predictor
3 classes: 'setosa', 'versicolor', 'virginica'
No pre-processing
Resampling: Cross-Validated (5 fold)
Summary of sample sizes: 120, 120, 120, 120, 120
Resampling results across tuning parameters:
mtry Accuracy Kappa Accuracy SD Kappa SD
2 0.96 0.94 0.04346135 0.06519202
3 0.96 0.94 0.04346135 0.06519202
4 0.96 0.94 0.04346135 0.06519202
Accuracy was used to select the optimal model using the largest value.
The final value used for the model was mtry = 2.