मैंने कुछ यादृच्छिक पैरामीटर-सेटिंग्स के साथ रात भर में 4500 यादृच्छिक वन चलाए:
प्रतिगमन समस्या Ysignal = x1^2+sin(x2*pi) + x3 * x4 + x5
जहां किसी x
को सामान्य वितरण से स्वतंत्र किया जाता है, एसडी = 1, माध्य = 1
Ytotal = Ysignal + Yerror
कहाँ पे Yerror = rnorm(n.observations,sd=sd(Ysignal))*noise.factor
theoretical.explainable.variance"TEV" = var(Ysignal= / var(Ytotal)
randomForest.performance = explained.variance(OOB cross-validation) / TEV
डेटासेट को प्रतिगमन समस्या से नमूना लिया n.obs
गया था और जोड़ा गया शोर
1000 और 5000 के n.extra.dummy.variables
बीच 1 और 20 के बीच एक यादृच्छिक संख्या थी
ntree
हमेशा 1000
sample_replacement
हमेशा true
mtry
5 से 25 है, n.obs
noise.factor
0 और 9 के बीच सीमित है
samplesize.ratio
10% और 100% के बीच एक यादृच्छिक संख्या, प्रत्येक बूटस्ट्रैप का अनुपात आकार
सभी मॉडलों की तरह प्रशिक्षित किया गया rfo = randomForest(x=X, y=Ytotal, <more args>)
randomForest.performance
, के उच्चतम अंश की व्याख्या करने की क्षमता TEV
सामान्य रूप में बढ़ जाती है जब samplesize
जब कम हो TEV
50% से कम है और कम हो जब TEV
50% से अधिक है।
इस प्रकार, यदि आपकी randomForest-modelfit
रिपोर्ट्स जैसे कि 15% ने ओओबी-सीवी द्वारा विचरण को समझाया, और यह आपके लिए एक स्वीकार्य मॉडल-सटीक है, तो आप संभवतः sampsize
टिप्पणियों की एक तिहाई संख्या को कम करके प्रदर्शन को थोड़ा अधिक कर सकते हैं , दिए गए हैं ntree > 1000
।
मनोबल : बहुत शोर के आंकड़ों के लिए, अधिक से अधिक आकार के पेड़ उगाने से निचले पूर्वाग्रह की तुलना में पेड़ों को अलग करना बेहतर होता है।