OOB संस्करण के दो स्रोत हैं। एक ही प्रक्रिया की यादृच्छिकता है; पेड़ों की संख्या बढ़ाकर इसे कम किया जा सकता है।
विचरण का दूसरा स्रोत सीमित डेटा होने और जटिल दुनिया में रहने की अप्रासंगिक स्थिति है। पेड़ों की संख्या बढ़ने से इसे ठीक नहीं किया जा सकता है।
इसके अतिरिक्त, कभी-कभी समस्या को हल करने के लिए पर्याप्त डेटा नहीं होता है। उदाहरण के लिए, कल्पना करें कि दो उदाहरणों में विपरीत लेबल हैं लेकिन समान सुविधा मान हैं। इन नमूनों में से एक हमेशा गर्भपात किया जाएगा। (यह एक चरम उदाहरण है, लेकिन यह बताता है कि कुछ समस्याएं कैसे अपरिहार्य हैं। हम एक वेक्टर के लिए एक छोटे से गड़बड़ी पर विचार करके इसे कुछ हद तक आराम कर सकते हैं; अब इसे आमतौर पर इसके जुड़वां के रूप में ही वर्गीकृत किया जाएगा, लेकिन हमेशा नहीं।) , आपको दो बिंदुओं को अलग करने के लिए अतिरिक्त माप एकत्र करना होगा।
पेड़ों की संख्या बढ़ने से जैसी किसी चीज़ के अनुमान के विचरण को कम किया जा सकता है । केंद्रीय सीमा प्रमेय के परिणामों पर विचार करें: नमूना आकार में वृद्धि एक औसत की तरह एक आंकड़े के विचरण को कम कर सकती है, लेकिन इसे खत्म नहीं कर सकती। यादृच्छिक वन भविष्यवाणियों सभी पेड़ों की भविष्यवाणियों का एक औसत है, और ये भविष्यवाणियां स्वयं यादृच्छिक चर हैं (क्योंकि बूटस्ट्रैपिंग और सुविधाओं के यादृच्छिक सबसेट; दोनों स्वतंत्र रूप से होते हैं, इसलिए वोट भी iid हैं)। CLT प्रदान करता है कि एक सामान्य वितरण , जहां सही अर्थ है औरp(y=1|x)x¯x¯x¯∼N(μ,σ2n)μσ2पेड़ों के मतों का विचरण है। (वोट या तो 0 या 1 के मान लेते हैं, इसलिए औसत वोटों का परिमित विचरण होता है।) मुद्दा यह है कि पेड़ों की संख्या को दोगुना करने से का विचरण आधे में कट जाएगा , लेकिन इसे ड्राइव नहीं करेंगे शून्य। x¯(जब , लेकिन हम जानते हैं कि यहां ऐसा नहीं है।)σ2=0
इरेड्यूसिबल विचरण बूटस्ट्रैपिंग द्वारा तय नहीं किया जा सकता है। इसके अलावा, यादृच्छिक वन पहले से ही बूटस्ट्रैप्ड हैं; यह इस कारण का हिस्सा है कि इसके नाम में "यादृच्छिक" है। (अन्य कारण यह है कि सुविधाओं का एक यादृच्छिक सबसेट प्रत्येक विभाजन पर चुना जाता है।)