मेरे यादृच्छिक वन परिणाम इतने परिवर्तनशील क्यों हैं?

मैं 2 समूहों के बीच नमूनों को वर्गीकृत करने के लिए यादृच्छिक वन की क्षमता का परीक्षण करने की कोशिश कर रहा हूं; वर्गीकरण के लिए इस्तेमाल किए गए चर के 54 नमूने और अलग-अलग संख्याएं हैं।

मैं सोच रहा था कि जब मैं 50k पेड़ों का उपयोग कर रहा हूं तो आउट-ऑफ-बैग (OOB) का अनुमान एक दूसरे से 5% तक भिन्न क्यों हो सकता है? क्या यह कुछ ऐसा है जो बूटस्ट्रैपिंग के साथ मदद कर सकता है?

machine-learning random-forest

— Sethzard
स्रोत

आपको कुछ नमूने लेने होंगे। 50k पेड़ इतने कम नमूनों से कोई मतलब नहीं रखते। भिन्नता सबसे अधिक संभावना है कि केवल एक नमूना रन के बीच गलत तरीके से वर्गीकृत किया गया है।

— थिएस

@ मुझे लगता है कि पेड़ों की संख्या बढ़ने से मुझे मिलने वाले विचरण की मात्रा कम हो जाएगी। क्या प्रभावी रूप से शून्य करने के लिए इसे कम करने का एक तरीका है या पता है कि कौन सा सबसे सटीक है?

— सेथजार्ड

OOB संस्करण के दो स्रोत हैं। एक ही प्रक्रिया की यादृच्छिकता है; पेड़ों की संख्या बढ़ाकर इसे कम किया जा सकता है।

विचरण का दूसरा स्रोत सीमित डेटा होने और जटिल दुनिया में रहने की अप्रासंगिक स्थिति है। पेड़ों की संख्या बढ़ने से इसे ठीक नहीं किया जा सकता है।

इसके अतिरिक्त, कभी-कभी समस्या को हल करने के लिए पर्याप्त डेटा नहीं होता है। उदाहरण के लिए, कल्पना करें कि दो उदाहरणों में विपरीत लेबल हैं लेकिन समान सुविधा मान हैं। इन नमूनों में से एक हमेशा गर्भपात किया जाएगा। (यह एक चरम उदाहरण है, लेकिन यह बताता है कि कुछ समस्याएं कैसे अपरिहार्य हैं। हम एक वेक्टर के लिए एक छोटे से गड़बड़ी पर विचार करके इसे कुछ हद तक आराम कर सकते हैं; अब इसे आमतौर पर इसके जुड़वां के रूप में ही वर्गीकृत किया जाएगा, लेकिन हमेशा नहीं।) , आपको दो बिंदुओं को अलग करने के लिए अतिरिक्त माप एकत्र करना होगा।

पेड़ों की संख्या बढ़ने से जैसी किसी चीज़ के अनुमान के विचरण को कम किया जा सकता है । केंद्रीय सीमा प्रमेय के परिणामों पर विचार करें: नमूना आकार में वृद्धि एक औसत की तरह एक आंकड़े के विचरण को कम कर सकती है, लेकिन इसे खत्म नहीं कर सकती। यादृच्छिक वन भविष्यवाणियों सभी पेड़ों की भविष्यवाणियों का एक औसत है, और ये भविष्यवाणियां स्वयं यादृच्छिक चर हैं (क्योंकि बूटस्ट्रैपिंग और सुविधाओं के यादृच्छिक सबसेट; दोनों स्वतंत्र रूप से होते हैं, इसलिए वोट भी iid हैं)। CLT प्रदान करता है कि एक सामान्य वितरण , जहां सही अर्थ है और $p(y=1|x)$ $\bar{x}$ $\bar{x}$ $\bar{x}\sim\mathcal{N}(\mu,\frac{\sigma^2}{n})$ $\mu$ $\sigma^2$ पेड़ों के मतों का विचरण है। (वोट या तो 0 या 1 के मान लेते हैं, इसलिए औसत वोटों का परिमित विचरण होता है।) मुद्दा यह है कि पेड़ों की संख्या को दोगुना करने से का विचरण आधे में कट जाएगा , लेकिन इसे ड्राइव नहीं करेंगे शून्य। $\bar{x}$ (जब , लेकिन हम जानते हैं कि यहां ऐसा नहीं है।) $\sigma^2=0$

इरेड्यूसिबल विचरण बूटस्ट्रैपिंग द्वारा तय नहीं किया जा सकता है। इसके अलावा, यादृच्छिक वन पहले से ही बूटस्ट्रैप्ड हैं; यह इस कारण का हिस्सा है कि इसके नाम में "यादृच्छिक" है। (अन्य कारण यह है कि सुविधाओं का एक यादृच्छिक सबसेट प्रत्येक विभाजन पर चुना जाता है।)

— साइकोरैक्स का कहना है कि मोनिका को बहाल करो
स्रोत