मेरे यादृच्छिक वन परिणाम इतने परिवर्तनशील क्यों हैं?


10

मैं 2 समूहों के बीच नमूनों को वर्गीकृत करने के लिए यादृच्छिक वन की क्षमता का परीक्षण करने की कोशिश कर रहा हूं; वर्गीकरण के लिए इस्तेमाल किए गए चर के 54 नमूने और अलग-अलग संख्याएं हैं।

मैं सोच रहा था कि जब मैं 50k पेड़ों का उपयोग कर रहा हूं तो आउट-ऑफ-बैग (OOB) का अनुमान एक दूसरे से 5% तक भिन्न क्यों हो सकता है? क्या यह कुछ ऐसा है जो बूटस्ट्रैपिंग के साथ मदद कर सकता है?


6
आपको कुछ नमूने लेने होंगे। 50k पेड़ इतने कम नमूनों से कोई मतलब नहीं रखते। भिन्नता सबसे अधिक संभावना है कि केवल एक नमूना रन के बीच गलत तरीके से वर्गीकृत किया गया है।
थिएस

@ मुझे लगता है कि पेड़ों की संख्या बढ़ने से मुझे मिलने वाले विचरण की मात्रा कम हो जाएगी। क्या प्रभावी रूप से शून्य करने के लिए इसे कम करने का एक तरीका है या पता है कि कौन सा सबसे सटीक है?
सेथजार्ड

जवाबों:


12

OOB संस्करण के दो स्रोत हैं। एक ही प्रक्रिया की यादृच्छिकता है; पेड़ों की संख्या बढ़ाकर इसे कम किया जा सकता है।

विचरण का दूसरा स्रोत सीमित डेटा होने और जटिल दुनिया में रहने की अप्रासंगिक स्थिति है। पेड़ों की संख्या बढ़ने से इसे ठीक नहीं किया जा सकता है।

इसके अतिरिक्त, कभी-कभी समस्या को हल करने के लिए पर्याप्त डेटा नहीं होता है। उदाहरण के लिए, कल्पना करें कि दो उदाहरणों में विपरीत लेबल हैं लेकिन समान सुविधा मान हैं। इन नमूनों में से एक हमेशा गर्भपात किया जाएगा। (यह एक चरम उदाहरण है, लेकिन यह बताता है कि कुछ समस्याएं कैसे अपरिहार्य हैं। हम एक वेक्टर के लिए एक छोटे से गड़बड़ी पर विचार करके इसे कुछ हद तक आराम कर सकते हैं; अब इसे आमतौर पर इसके जुड़वां के रूप में ही वर्गीकृत किया जाएगा, लेकिन हमेशा नहीं।) , आपको दो बिंदुओं को अलग करने के लिए अतिरिक्त माप एकत्र करना होगा।

पेड़ों की संख्या बढ़ने से जैसी किसी चीज़ के अनुमान के विचरण को कम किया जा सकता है । केंद्रीय सीमा प्रमेय के परिणामों पर विचार करें: नमूना आकार में वृद्धि एक औसत की तरह एक आंकड़े के विचरण को कम कर सकती है, लेकिन इसे खत्म नहीं कर सकती। यादृच्छिक वन भविष्यवाणियों सभी पेड़ों की भविष्यवाणियों का एक औसत है, और ये भविष्यवाणियां स्वयं यादृच्छिक चर हैं (क्योंकि बूटस्ट्रैपिंग और सुविधाओं के यादृच्छिक सबसेट; दोनों स्वतंत्र रूप से होते हैं, इसलिए वोट भी iid हैं)। CLT प्रदान करता है कि एक सामान्य वितरण , जहां सही अर्थ है औरp(y=1|x)x¯x¯x¯N(μ,σ2n)μσ2पेड़ों के मतों का विचरण है। (वोट या तो 0 या 1 के मान लेते हैं, इसलिए औसत वोटों का परिमित विचरण होता है।) मुद्दा यह है कि पेड़ों की संख्या को दोगुना करने से का विचरण आधे में कट जाएगा , लेकिन इसे ड्राइव नहीं करेंगे शून्य। x¯(जब , लेकिन हम जानते हैं कि यहां ऐसा नहीं है।)σ2=0

इरेड्यूसिबल विचरण बूटस्ट्रैपिंग द्वारा तय नहीं किया जा सकता है। इसके अलावा, यादृच्छिक वन पहले से ही बूटस्ट्रैप्ड हैं; यह इस कारण का हिस्सा है कि इसके नाम में "यादृच्छिक" है। (अन्य कारण यह है कि सुविधाओं का एक यादृच्छिक सबसेट प्रत्येक विभाजन पर चुना जाता है।)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.