रैंडम फॉरेस्ट एंड डिसीजन ट्री एलगोरिदम


14

एक यादृच्छिक जंगल निर्णय की अवधारणा के बाद निर्णय पेड़ों का एक संग्रह है। जब हम एक निर्णय वृक्ष से अगले निर्णय वृक्ष की ओर बढ़ते हैं तो अंतिम निर्णय वृक्ष द्वारा सीखी गई जानकारी आगे कैसे बढ़ती है?

क्योंकि, मेरी समझ के अनुसार, एक प्रशिक्षित मॉडल की तरह कुछ भी नहीं है जो हर निर्णय पेड़ के लिए बनाया जाता है और फिर अगले निर्णय पेड़ से पहले ही गलत तरीके से त्रुटि से सीखना शुरू हो जाता है।

तो यह कैसे काम करता है?


"जब हम एक निर्णय वृक्ष से अगले निर्णय वृक्ष की ओर बढ़ते हैं"। यह एक रैखिक प्रक्रिया का सुझाव देता है। हमने समानांतर कार्यान्वयन का निर्माण किया है जहां हमने एक पेड़ पर प्रति सीपीयू कोर पर काम किया है; यह पूरी तरह से ठीक काम करता है जब तक कि आप प्रशिक्षण में सीपीयू कोर प्रति एक अलग यादृच्छिक संख्या जनरेटर का उपयोग नहीं करते हैं, जो सभी एक ही बीज साझा करते हैं। उस मामले में आप बहुत सारे समान पेड़ों के साथ समाप्त हो सकते हैं।
एमएस

जवाबों:


23

पेड़ों के बीच कोई सूचना नहीं दी जाती है। एक यादृच्छिक जंगल में, सभी पेड़ों को समान रूप से वितरित किया जाता है, क्योंकि सभी पेड़ों के लिए एक ही यादृच्छिककरण रणनीति का उपयोग करके पेड़ उगाए जाते हैं। सबसे पहले, डेटा का बूटस्ट्रैप नमूना लें, और फिर सुविधाओं के बेतरतीब ढंग से चुने गए सबसेट से विभाजन का उपयोग करके पेड़ को उगाएं। यह पहनावा में किसी भी अन्य पेड़ों पर ध्यान दिए बिना प्रत्येक पेड़ के लिए व्यक्तिगत रूप से होता है। हालाँकि, प्रशिक्षण डेटा के एक सामान्य पूल से एक नमूने पर प्रशिक्षित किए जा रहे प्रत्येक पेड़ के आधार पर पेड़ों को शुद्ध रूप से सहसंबद्ध किया जाता है; एक ही डेटा सेट से कई नमूने समान हो जाएंगे, इसलिए पेड़ उस समानता में से कुछ को कूटेंगे।

आपको उच्च-गुणवत्ता वाले पाठ से यादृच्छिक जंगलों के लिए परिचय पढ़ना उपयोगी हो सकता है। लियो ब्रीमन द्वारा एक "रैंडम फॉरेस्ट" है। Hastie et al द्वारा सांख्यिकीय लर्निंग के तत्वों में एक अध्याय भी है ।

यह संभव है कि आप AdaBoost या ग्रेडिएंट-बूस्टेड ट्री जैसे बूस्टिंग जंगलों के साथ यादृच्छिक जंगलों को भ्रमित करें। बूस्टिंग तरीके समान नहीं हैं, क्योंकि वे अगले बूस्टिंग राउंड को सूचित करने के लिए पिछले बूस्टिंग राउंड से मिसफिट के बारे में जानकारी का उपयोग करते हैं। देखें: क्या यादृच्छिक वन एक बूस्टिंग एल्गोरिथ्म है?


11

यादृच्छिक जंगलों कई निर्णय वृक्ष जो का एक संग्रह है स्वतंत्र रूप से एक दूसरे के लिए प्रशिक्षित किया जाता । इसलिए क्रमिक रूप से निर्भर प्रशिक्षण (जो एल्गोरिदम को बढ़ावा देने में मामला है ) की कोई धारणा नहीं है । इसके परिणामस्वरूप, जैसा कि एक अन्य उत्तर में उल्लेख किया गया है, पेड़ों का समानांतर प्रशिक्षण करना संभव है।

आपको यह जानना पसंद होगा कि यादृच्छिक वन में "यादृच्छिक" कहां से आता है: पेड़ों को सीखने की प्रक्रिया में यादृच्छिकता को इंजेक्ट करने के दो तरीके हैं। पहला पेड़ों के प्रत्येक प्रशिक्षण के लिए उपयोग किए जाने वाले डेटा बिंदुओं का यादृच्छिक चयन है, और दूसरा प्रत्येक पेड़ के निर्माण में उपयोग की जाने वाली सुविधाओं का यादृच्छिक चयन है। चूंकि एकल निर्णय ट्री आमतौर पर डेटा पर ओवरफिट करता है, इस तरह से यादृच्छिकता का इंजेक्शन पेड़ों का एक गुच्छा होने में परिणत होता है, जहां उनमें से प्रत्येक में उपलब्ध प्रशिक्षण के एक अलग उपसमुच्चय पर एक अच्छी सटीकता (और संभवतः ओवरफिट) होती है। । इसलिए, जब हम सभी पेड़ों द्वारा की गई भविष्यवाणियों का औसत लेते हैं, तो हम ओवरफिटिंग ( सभी उपलब्ध आंकड़ों पर एक निर्णय वृक्ष के प्रशिक्षण के मामले की तुलना में) में कमी का निरीक्षण करेंगे ।

एन

  1. मैं=0
  2. एसमैं
  3. मैंटीमैंएसमैं
    • प्रशिक्षण प्रक्रिया एक निर्णय पेड़ को प्रशिक्षित करने के समान है, केवल इस अंतर को छोड़कर कि पेड़ में प्रत्येक नोड पर केवल नोड में विभाजन के लिए सुविधाओं का एक यादृच्छिक चयन किया जाता है।
  1. मैं=मैं+1
  2. मैं<एन

टी1टी2टीएन

  • यदि इसका उपयोग प्रतिगमन कार्य के लिए किया जाता है, तो यादृच्छिक वन की अंतिम भविष्यवाणी के रूप में भविष्यवाणियों का औसत लें।

  • यदि इसे एक वर्गीकरण कार्य के लिए उपयोग किया जाता है, तो नरम मतदान रणनीति का उपयोग करें : प्रत्येक वर्ग के लिए पेड़ों द्वारा भविष्यवाणी की गई संभावनाओं का औसत लें, फिर यादृच्छिक वन की अंतिम भविष्यवाणी के रूप में उच्चतम औसत संभावना वाले वर्ग की घोषणा करें।

इसके अलावा, यह ध्यान देने योग्य है कि पेड़ों को क्रमिक रूप से निर्भर तरीके से प्रशिक्षित करना संभव है और ठीक यही क्रमिक रूप से बढ़ावा देने वाले पेड़ों का एल्गोरिथ्म करता है, जो यादृच्छिक जंगलों से बिल्कुल अलग विधि है।


8

रैंडम फॉरेस्ट एक बूस्टिंग एल्गोरिदम के बजाय एक बैगिंग एल्गोरिथम है।

यादृच्छिक वन डेटा के यादृच्छिक नमूने का उपयोग करके स्वतंत्र रूप से पेड़ का निर्माण करता है। एक समानांतर कार्यान्वयन संभव है।

आप क्रमिक बूस्टिंग की जांच करना पसंद कर सकते हैं जहां पेड़ों को क्रमिक रूप से बनाया जाता है जहां नया पेड़ पहले की गई गलती को ठीक करने की कोशिश करता है।


6

तो यह कैसे काम करता है?

रैंडम फ़ॉरेस्ट निर्णय पेड़ों का एक संग्रह है। पेड़ों का निर्माण स्वतंत्र रूप से किया जाता है। प्रत्येक पेड़ को सुविधाओं के सबसेट और प्रतिस्थापन के साथ चुने गए नमूने के सबसेट पर प्रशिक्षित किया जाता है।

जब भविष्यवाणी करते हैं, वर्गीकरण के लिए कहते हैं, इनपुट पैरामीटर जंगल में प्रत्येक पेड़ को दिए जाते हैं और वर्गीकरण पर प्रत्येक पेड़ "वोट" होता है, अधिकांश वोट जीत के साथ लेबल होता है।

सरल निर्णय वृक्ष पर रैंडम वन का उपयोग क्यों करें? पूर्वाग्रह / भिन्न व्यापार बंद। एक ही निर्णय वृक्ष की तुलना में बहुत सरल पेड़ों से यादृच्छिक वन बनाए जाते हैं। आमतौर पर बेतरतीब जंगल, पूर्वाग्रह के कारण त्रुटि की एक बड़ी कमी प्रदान करते हैं और पूर्वाग्रह के कारण त्रुटि में छोटी वृद्धि होती है।


अगर हम हर डिसीजन ट्री के लिए अलग-अलग फीचर्स को चुन रहे हैं, तो पिछले डिसीजन ट्री में सुविधाओं के एक सेट से सीखने में सुधार होता है, जबकि हम आगे के डिक्लेरेशन वाले मानों को आगे के डिसीजन ट्री में भेजते हैं, इसमें पूरी तरह से एक नया फीचर है?
अभय राज सिंह

3
@AbhayRajSingh - आप रैंडम फ़ॉरेस्ट में "मिसकॉलिफाइड वैल्यूज़ को आगे नहीं भेजते हैं"। जैसा कि अकवाल कहता है, "पेड़ों का निर्माण स्वतंत्र रूप से किया जाता है"
हेनरी

1

हां, जैसा कि ऊपर के लेखकों ने कहा, रैंडम फॉरेस्ट एल्गोरिथ्म एक बैगिंग है, एल्गोरिथ्म को बढ़ावा नहीं।

बैजिंग से क्लासिफ़िकेटर के विचरण को कम किया जा सकता है, क्योंकि आधार एल्गोरिदम, जो विभिन्न नमूनों पर फिट किए जाते हैं और उनकी त्रुटियों को मतदान में पारस्परिक रूप से मुआवजा दिया जाता है। पूर्वानुमान लगाने से तात्पर्य है कि एक ही मॉडल के थोड़े अलग संस्करणों को औसत रूप से अनुमानित शक्ति में सुधार करने के लिए। बैगिंग लागू करने के लिए हम बस बी बूटस्ट्रैप्ड प्रशिक्षण सेटों का उपयोग करके बी प्रतिगमन पेड़ों का निर्माण करते हैं, और परिणामी भविष्यवाणियों को औसत करते हैं

बैगिंग का एक सामान्य और काफी सफल अनुप्रयोग रैंडम फॉरेस्ट है

लेकिन यादृच्छिक जंगल में इन निर्णय वृक्षों का निर्माण करते समय, हर बार एक पेड़ में विभाजन को माना जाता है, mभविष्यवक्ताओं का एक यादृच्छिक नमूना पी भविष्यवक्ताओं के पूर्ण सेट से विभाजित उम्मीदवारों के रूप में चुना जाता है। विभाजन को उन mभविष्यवाणियों में से केवल एक का उपयोग करने की अनुमति है ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.