यादृच्छिक वन एल्गोरिदम चरणों के पीछे प्रेरणा


11

एक यादृच्छिक वन के निर्माण के लिए मैं जिस विधि से परिचित हूं वह इस प्रकार है: ( http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm से )

जंगल में एक पेड़ बनाने के लिए हम:

  1. बूटस्ट्रैप आकार N का एक नमूना जहां N हमारे प्रशिक्षण सेट का आकार है। इस पेड़ के लिए प्रशिक्षण सेट के रूप में बूटस्ट्रैप्ड नमूने का उपयोग करें।
  2. पेड़ के प्रत्येक नोड पर बेतरतीब ढंग से हमारे एम सुविधाओं का चयन करें। पर विभाजित करने के लिए इन मीटर सुविधाओं में से सर्वश्रेष्ठ का चयन करें। (जहाँ m हमारे रैंडम फ़ॉरेस्ट का एक पैरामीटर है)
  3. प्रत्येक पेड़ को सबसे बड़ी हद तक संभव हो जाना - यानी कोई छंटाई नहीं करना।

हालांकि यह एल्गोरिथम एक प्रक्रियात्मक स्तर पर समझ में आता है और निश्चित रूप से अच्छे परिणाम देता है, मैं स्पष्ट नहीं हूं कि चरण 1, 2 के पीछे सैद्धांतिक प्रेरणा क्या है, और 3. क्या कोई समझा सकता है कि किसी ने इस प्रक्रिया के साथ आने के लिए क्या प्रेरित किया और क्यों। इतनी अच्छी तरह से काम करता है?

उदाहरण के लिए: हमें चरण 1 करने की आवश्यकता क्यों है? ऐसा नहीं लगता कि हम विचरण-कमी के अपने सामान्य उद्देश्य के लिए बूटस्ट्रैपिंग कर रहे हैं।

जवाबों:


9

पहनावा के तरीकों (जैसे यादृच्छिक जंगलों) को डेटासेट में भिन्नता के कुछ तत्व की आवश्यकता होती है जो व्यक्तिगत आधार पर वर्गीकृत किए जाते हैं (अन्यथा यादृच्छिक वन पेड़ों के जंगल के साथ समाप्त हो जाएंगे जो बहुत समान हैं)। चूंकि निर्णय वृक्ष प्रशिक्षण सेट में टिप्पणियों के प्रति अत्यधिक संवेदनशील हैं, इसलिए टिप्पणियों को अलग करना (बूटस्ट्रैप का उपयोग करना) था, मुझे लगता है, आवश्यक विविधता प्राप्त करने के लिए एक प्राकृतिक दृष्टिकोण। स्पष्ट विकल्प यह है कि उपयोग की जाने वाली सुविधाओं को अलग-अलग करें, जैसे मूल विशेषताओं के सबसेट पर प्रत्येक पेड़ को प्रशिक्षित करें। बूटस्ट्रैप नमूनों का उपयोग करने से हमें आउट-ऑफ-बैग (ओओबी) त्रुटि दर और चर महत्व का अनुमान लगाने की अनुमति मिलती है।

2 अनिवार्य रूप से जंगल में यादृच्छिकता को इंजेक्ट करने का एक और तरीका है। इसका व्यापार-बंद होने (संभावित रूप से) के साथ पूर्वानुमानात्मक शक्ति बिगड़ने के साथ पेड़ों के बीच सहसंबंध को कम करने (कम mtry मूल्य का उपयोग करके) पर भी प्रभाव पड़ता है। Mtry के बहुत अधिक मूल्य का उपयोग करने से पेड़ एक दूसरे के समान बढ़ते जाएंगे (और चरम में आप बैगिंग के साथ समाप्त होते हैं)

मेरा मानना ​​है कि प्रूनिंग न करने का कारण इस तथ्य के कारण अधिक है कि इसकी किसी और चीज की तुलना में आवश्यक नहीं है। एक एकल निर्णय पेड़ के साथ आप आमतौर पर इसे अधिक होने के लिए अतिसंवेदनशील होने के बाद से इसे आमतौर पर prune करेंगे। हालांकि, बूटस्ट्रैप के नमूनों का उपयोग करके और कई पेड़ों को बेतरतीब ढंग से बढ़ने से ऐसे पेड़ उग सकते हैं जो व्यक्तिगत रूप से मजबूत होते हैं, लेकिन विशेष रूप से एक दूसरे से सहसंबद्ध नहीं होते हैं। मूल रूप से, व्यक्तिगत पेड़ अधिक होते हैं, लेकिन बशर्ते उनकी त्रुटियां सहसंबद्ध न हों, जंगल यथोचित सटीक होना चाहिए।

कारण यह अच्छी तरह से काम करता है कोंडोरसेट की जूरी प्रमेय के समान है (और बढ़ाने के तरीके के पीछे तर्क)। मूल रूप से आपके पास बहुत सारे कमजोर शिक्षार्थी हैं जिन्हें केवल यादृच्छिक अनुमान लगाने की तुलना में बेहतर प्रदर्शन करने की आवश्यकता है। यदि यह सही है तो आप कमजोर शिक्षार्थियों को जोड़ सकते हैं, और सीमा में आपको अपने पहनावा से सही भविष्यवाणियां मिलेंगी। स्पष्ट रूप से यह शिक्षार्थियों के सहसंबद्ध बनने की त्रुटियों के कारण प्रतिबंधित है, जो कलाकारों की टुकड़ी के प्रदर्शन में सुधार को रोकता है।


अच्छा जवाब, और कोंडोरसेट की ज्यूरी प्रमेय के साथ संबंध समझ में आता है। औपचारिक रूप से, कारण यह अच्छी तरह से काम करता है क्योंकि जेनसन की असमानता है!
जेकुआहुआ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.