ग्रेडिएंट बूस्टिंग ट्री बनाम रैंडम फॉरेस्ट


110

फ्रेडमैन द्वारा प्रस्तावित ग्रेडिएंट ट्री बूस्ट बेस शिक्षार्थियों के रूप में निर्णय पेड़ों का उपयोग करता है। मैं सोच रहा हूं कि क्या हमें आधार निर्णय पेड़ को यथासंभव जटिल (पूरी तरह से विकसित) या सरल बनाना चाहिए? क्या पसंद का कोई स्पष्टीकरण है?

बेस फ़ॉरेस्ट के रूप में निर्णय पेड़ों का उपयोग करके रैंडम फ़ॉरेस्ट एक और पहनावा तरीका है। मेरी समझ के आधार पर, हम आमतौर पर प्रत्येक पुनरावृत्ति में लगभग पूरी तरह से विकसित निर्णय पेड़ों का उपयोग करते हैं। क्या मैं सही हू?


1
आप यहाँ बढ़े हुए पेड़ों के लिए एक और बहुत अच्छा संदर्भ पा सकते हैं: xgboost.readthedocs.io/en/latest/model.html
नागमहल

@ नगमेह - मृत लिंक; प्रतीत होता है कि xgboost.readthedocs.io/en/latest/tutorials/model.html
mlibby

जवाबों:


149

error = bias + variance

  • बूस्टिंग कमजोर शिक्षार्थियों (उच्च पूर्वाग्रह, कम विचरण) पर आधारित है । निर्णय पेड़ों के संदर्भ में, कमजोर शिक्षार्थी उथले पेड़ हैं, कभी-कभी निर्णय स्टंप के रूप में भी छोटे होते हैं (दो पत्तियों वाले पेड़)। बूस्टिंग मुख्य रूप से पूर्वाग्रह को कम करके (और कुछ मॉडल के आउटपुट को एकत्र करके, कुछ हद तक भिन्नता को कम करके) त्रुटि को कम करता है।
  • दूसरी ओर, रैंडम फ़ॉरेस्ट उपयोग करता है जैसा कि आपने कहा कि पूरी तरह से विकसित निर्णय पेड़ (कम पूर्वाग्रह, उच्च विचरण)। यह त्रुटि को कम करने के कार्य को विपरीत तरीके से करता है: विचरण को कम करके। पेड़ों को विचरण में कमी को अधिकतम करने के लिए असंबद्ध बनाया जाता है, लेकिन एल्गोरिथ्म पूर्वाग्रह (जो जंगल में एक व्यक्तिगत पेड़ के पूर्वाग्रह से थोड़ा अधिक है) को कम नहीं कर सकता है। इसलिए बड़े, अप्रकट पेड़ों की आवश्यकता है, ताकि पूर्वाग्रह शुरू में जितना कम हो सके।

कृपया ध्यान दें कि बूस्टिंग (जो अनुक्रमिक है) के विपरीत, आरएफ समानांतर में पेड़ बढ़ता है । iterativeआपके द्वारा उपयोग किया गया शब्द इस प्रकार अनुचित है।


1
"पेड़ों को विचरण में कमी को अधिकतम करने के लिए असंबंधित किया जाता है, लेकिन एल्गोरिथ्म पूर्वाग्रह को कम नहीं कर सकता है (जो जंगल में एक व्यक्तिगत पेड़ के पूर्वाग्रह से थोड़ा अधिक है)" - एक व्यक्ति के पूर्वाग्रह से थोड़ा अधिक "के बारे में हिस्सा" जंगल में पेड़ "गलत लगता है। देखें web.stanford.edu/~hastie/Papers/ESLII.pdf सेक्शन 15.4.2: "जैसा कि बैगिंग में, यादृच्छिक वन का पूर्वाग्रह वैसा ही है जैसा कि किसी व्यक्ति के सैंपल वाले पेड़ों के पूर्वाग्रह का होता है।" हो सकता है कि आपका मतलब "मूल डेटा के लिए पूरी तरह से विकसित पेड़ के पूर्वाग्रह की तुलना में अधिक है"?
एड्रियन

1
@ मुझे लगता है कि ओपी में अनुत्तरित एक महत्वपूर्ण प्रश्न है, जो: जीबीएम के 1 चरण में पूर्ण विकसित पेड़ का उपयोग क्यों नहीं किया जाता है? कमजोर शिक्षार्थी के अनुक्रम का उपयोग एक पूर्ण विकसित पेड़ से बेहतर क्यों है? मैं इसके बारे में उत्सुक हूं
ftxx

55

इस प्रश्न को इस बहुत अच्छी पोस्ट में संबोधित किया गया है। कृपया इस पर और इसके संदर्भों पर एक नज़र डालें। http://fastml.com/what-is-better-gradient-boosted-trees-or-random-forest/

लेख में ध्यान दें कि अंशांकन के बारे में बोलता है, और इसके बारे में एक और (अच्छा) ब्लॉग पोस्ट से लिंक करता है। फिर भी, मुझे पता चलता है कि बूस्टिंग से कैलिब्रेटेड प्रोबेबिलिटीज प्राप्त करने वाला पेपर आपको एक बेहतर समझ देता है कि बूस्टेड क्लासिफायर के संदर्भ में क्या अंशांकन है, और इसे करने के लिए मानक तरीके क्या हैं।

और अंत में एक पहलू गायब (थोड़ा और अधिक सैद्धांतिक)। RF और GBM दोनों अनुरुप विधियां हैं, जिसका अर्थ है कि आप बड़ी संख्या में छोटे क्लासिफायरियर का वर्गीकरण करते हैं। अब मूलभूत अंतर उपयोग की गई विधि पर है:

  1. आरएफ निर्णय वृक्षों का उपयोग करता है, जो बहुत अधिक संभावना वाले हैं। उच्च सटीकता प्राप्त करने के लिए, RF बैगिंग के आधार पर उनमें से एक बड़ी संख्या बनाने का निर्णय लेता है । मूल विचार यह है कि प्रत्येक नमूना को बार-बार डेटा को फिर से वर्गीकृत किया जाए और एक नया क्लासिफायर ट्रेन किया जाए। विभिन्न क्लासिफायर एक अलग तरीके से डेटा को ओवरफिट करते हैं, और मतदान के माध्यम से उन अंतरों को औसतन निकाल दिया जाता है।
  2. GBM एक बूस्टिंग तरीका है, जो कमजोर क्लासिफायर पर बनाता है । एक समय में एक क्लासिफायर जोड़ने का विचार है, ताकि अगले क्लासिफायरियर को पहले से प्रशिक्षित पहनावा सुधारने के लिए प्रशिक्षित किया जाए। ध्यान दें कि आरएफ के लिए प्रत्येक पुनरावृत्ति वर्गीकरण को बाकी हिस्सों से स्वतंत्र रूप से प्रशिक्षित किया जाता है।

3
क्या यह आपके जवाब से उचित निष्कर्ष होगा कि RF GBM से अधिक ओवरफिट करता है?

4
@ 8 @ मैं उस निष्कर्ष को नहीं निकालूंगा - जबकि RF में एक एकल पेड़ GBM (क्योंकि ये बहुत छोटे होते हैं) में एक ही पेड़ से अधिक ओवरफिट होगा, RF में ये ओवरफिट औसतन बाहर निकाले जाएंगे जब बहुत से पेड़ लगाते हैं, जबकि GBM जितने अधिक पेड़ आप जोड़ते हैं, उतने अधिक जोखिम का जोखिम होता है। संक्षेप में, जैसा कि एन (उपयोग किए गए पेड़ों की संख्या) अनंत तक जाती है, मुझे उम्मीद है कि आरएफ जीबीएम से बहुत कम ओवरफिट करता है
एंट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.