बेतरतीब जंगल की धारणाएं


43

मैं नए तरह के यादृच्छिक वन में हूं इसलिए मैं अभी भी कुछ बुनियादी अवधारणाओं से जूझ रहा हूं।
रैखिक प्रतिगमन में, हम स्वतंत्र अवलोकन, निरंतर विचरण करते हैं ...

  • जब हम यादृच्छिक वन का उपयोग करते हैं, तो हम कौन सी मूल धारणाएं / परिकल्पना करते हैं?
  • मॉडल मान्यताओं के संदर्भ में यादृच्छिक वन और भोले की खाड़ी के बीच मुख्य अंतर क्या हैं?

जवाबों:


33

बहुत अच्छे प्रश्न के लिए धन्यवाद! मैं इसके पीछे अपना अंतर्ज्ञान देने की कोशिश करूंगा।

इसे समझने के लिए, रैंडम फॉरेस्ट क्लासिफायर के "अवयवों" को याद रखें (कुछ संशोधन हैं, लेकिन यह सामान्य पाइपलाइन है):

  1. व्यक्तिगत पेड़ के निर्माण के प्रत्येक चरण में हम डेटा का सबसे अच्छा विभाजन पाते हैं
  2. एक पेड़ का निर्माण करते समय हम पूरे डेटासेट का उपयोग नहीं करते हैं, लेकिन बूटस्ट्रैप नमूना
  3. हम व्यक्तिगत ट्री आउटपुट को औसत से जोड़ते हैं (वास्तव में 2 और 3 का अर्थ है एक साथ अधिक सामान्य बैगिंग प्रक्रिया )।

पहले बिंदु को मान लें। यह हमेशा सबसे अच्छा विभाजन खोजने के लिए संभव नहीं है। उदाहरण के लिए निम्नलिखित डेटासेट में प्रत्येक विभाजन बिल्कुल एक गलत वस्तु देगा। कोई सर्वश्रेष्ठ विभाजन के साथ डाटासेट का उदाहरण

और मुझे लगता है कि वास्तव में यह बिंदु भ्रामक हो सकता है: वास्तव में, अलग-अलग विभाजन का व्यवहार किसी तरह से नाइव बेयस क्लासिफायर के व्यवहार के समान है: यदि चर निर्भर हैं - निर्णय पेड़ और नाइके बेयर्स क्लासिफायर के लिए कोई बेहतर विभाजन नहीं है। (बस याद दिलाने के लिए: स्वतंत्र चर मुख्य धारणा है जिसे हम नैवे बेस क्लासिफायर में बनाते हैं; अन्य सभी धारणाएं उस संभाव्य मॉडल से आती हैं जिसे हम चुनते हैं)।

लेकिन यहां निर्णय पेड़ों का बहुत फायदा मिलता है: हम कोई भी विभाजन लेते हैं और आगे विभाजन जारी रखते हैं । और निम्नलिखित विभाजन के लिए हम एक अलग जुदाई पाएंगे (लाल रंग में)। निर्णय सीमा का उदाहरण

और जैसा कि हमारे पास कोई संभाव्य मॉडल नहीं है, लेकिन सिर्फ बाइनरी स्प्लिट है, हमें बिल्कुल भी कोई धारणा बनाने की आवश्यकता नहीं है।

यह डिसीजन ट्री के बारे में था, लेकिन यह रैंडम फॉरेस्ट के लिए भी लागू होता है। अंतर यह है कि रैंडम फ़ॉरेस्ट के लिए हम बूटस्ट्रैप एग्रीगेशन का उपयोग करते हैं। इसका कोई मॉडल नहीं है, और केवल यह धारणा कि यह निर्भर करता है कि नमूना प्रतिनिधि है । लेकिन यह आमतौर पर एक आम धारणा है। उदाहरण के लिए, यदि एक वर्ग में दो घटक होते हैं और हमारे डेटासेट में एक घटक को 100 नमूनों द्वारा दर्शाया जाता है, और एक अन्य घटक को 1 नमूने द्वारा दर्शाया जाता है - शायद सबसे अधिक व्यक्तिगत निर्णय वाले पेड़ केवल पहले घटक को देखेंगे और रैंडम फ़ॉरेस्ट दूसरे को मिसकॉलिज़ करेगा। । दूसरे घटक के कमजोर प्रतिनिधित्व का उदाहरण

आशा है कि यह कुछ और समझ देगा।


10

2010 के एक पेपर में लेखकों ने यह प्रमाणित किया कि यादृच्छिक वन मॉडल में चर के महत्व का अनुमान लगाया गया था जब बहु-आयामी सांख्यिकीय अंतरिक्ष में चर मल्टीकोलिनियर थे। मैं आमतौर पर यादृच्छिक वन मॉडल चलाने से पहले इसके लिए जांच करता हूं।

http://www.esajournals.org/doi/abs/10.1890/08-0879.1


3
आप कोलोराडो राज्य के लेखकों द्वारा मशीन लर्निंग एल्गोरिदम के विषय में मशीन लर्निंग में कोलोराडो राज्य के लेखकों द्वारा लिखी गई पारिस्थितिकी में "येलोस्टोन के परिदृश्य के साथ येलोस्टोन नेशनल पार्क में बोफोर्स बोरिंग कनेक्टिविटी की मात्रा निर्धारित करना" का निष्कर्ष मानते हैं?
हैक-आर

8
मुझे नहीं लगता कि वे एक दूसरे के साथ हैं। ब्रिमन ने बहुआयामी अंतरिक्ष में बहुरंगीता के इस 'विशेष मामले' की जांच नहीं की। इसके अलावा, कोलोराडो राज्य के लोग भी स्मार्ट हो सकते हैं- और ये लोग हैं।
मीना
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.