ग्रेडिएंट बूस्टिंग ट्री बनाम रैंडम फॉरेस्ट

110

फ्रेडमैन द्वारा प्रस्तावित ग्रेडिएंट ट्री बूस्ट बेस शिक्षार्थियों के रूप में निर्णय पेड़ों का उपयोग करता है। मैं सोच रहा हूं कि क्या हमें आधार निर्णय पेड़ को यथासंभव जटिल (पूरी तरह से विकसित) या सरल बनाना चाहिए? क्या पसंद का कोई स्पष्टीकरण है?

बेस फ़ॉरेस्ट के रूप में निर्णय पेड़ों का उपयोग करके रैंडम फ़ॉरेस्ट एक और पहनावा तरीका है। मेरी समझ के आधार पर, हम आमतौर पर प्रत्येक पुनरावृत्ति में लगभग पूरी तरह से विकसित निर्णय पेड़ों का उपयोग करते हैं। क्या मैं सही हू?

— FihopZz
स्रोत

1

आप यहाँ बढ़े हुए पेड़ों के लिए एक और बहुत अच्छा संदर्भ पा सकते हैं: xgboost.readthedocs.io/en/latest/model.html

— नागमहल

@ नगमेह - मृत लिंक; प्रतीत होता है कि xgboost.readthedocs.io/en/latest/tutorials/model.html

— mlibby

149

$\text{error = bias + variance}$

बूस्टिंग कमजोर शिक्षार्थियों (उच्च पूर्वाग्रह, कम विचरण) पर आधारित है । निर्णय पेड़ों के संदर्भ में, कमजोर शिक्षार्थी उथले पेड़ हैं, कभी-कभी निर्णय स्टंप के रूप में भी छोटे होते हैं (दो पत्तियों वाले पेड़)। बूस्टिंग मुख्य रूप से पूर्वाग्रह को कम करके (और कुछ मॉडल के आउटपुट को एकत्र करके, कुछ हद तक भिन्नता को कम करके) त्रुटि को कम करता है।
दूसरी ओर, रैंडम फ़ॉरेस्ट उपयोग करता है जैसा कि आपने कहा कि पूरी तरह से विकसित निर्णय पेड़ (कम पूर्वाग्रह, उच्च विचरण)। यह त्रुटि को कम करने के कार्य को विपरीत तरीके से करता है: विचरण को कम करके। पेड़ों को विचरण में कमी को अधिकतम करने के लिए असंबद्ध बनाया जाता है, लेकिन एल्गोरिथ्म पूर्वाग्रह (जो जंगल में एक व्यक्तिगत पेड़ के पूर्वाग्रह से थोड़ा अधिक है) को कम नहीं कर सकता है। इसलिए बड़े, अप्रकट पेड़ों की आवश्यकता है, ताकि पूर्वाग्रह शुरू में जितना कम हो सके।

कृपया ध्यान दें कि बूस्टिंग (जो अनुक्रमिक है) के विपरीत, आरएफ समानांतर में पेड़ बढ़ता है । iterativeआपके द्वारा उपयोग किया गया शब्द इस प्रकार अनुचित है।

— एंटोनी
स्रोत

1

"पेड़ों को विचरण में कमी को अधिकतम करने के लिए असंबंधित किया जाता है, लेकिन एल्गोरिथ्म पूर्वाग्रह को कम नहीं कर सकता है (जो जंगल में एक व्यक्तिगत पेड़ के पूर्वाग्रह से थोड़ा अधिक है)" - एक व्यक्ति के पूर्वाग्रह से थोड़ा अधिक "के बारे में हिस्सा" जंगल में पेड़ "गलत लगता है। देखें web.stanford.edu/~hastie/Papers/ESLII.pdf सेक्शन 15.4.2: "जैसा कि बैगिंग में, यादृच्छिक वन का पूर्वाग्रह वैसा ही है जैसा कि किसी व्यक्ति के सैंपल वाले पेड़ों के पूर्वाग्रह का होता है।" हो सकता है कि आपका मतलब "मूल डेटा के लिए पूरी तरह से विकसित पेड़ के पूर्वाग्रह की तुलना में अधिक है"?

— एड्रियन

1

@ मुझे लगता है कि ओपी में अनुत्तरित एक महत्वपूर्ण प्रश्न है, जो: जीबीएम के 1 चरण में पूर्ण विकसित पेड़ का उपयोग क्यों नहीं किया जाता है? कमजोर शिक्षार्थी के अनुक्रम का उपयोग एक पूर्ण विकसित पेड़ से बेहतर क्यों है? मैं इसके बारे में उत्सुक हूं

— ftxx

55

इस प्रश्न को इस बहुत अच्छी पोस्ट में संबोधित किया गया है। कृपया इस पर और इसके संदर्भों पर एक नज़र डालें। http://fastml.com/what-is-better-gradient-boosted-trees-or-random-forest/

लेख में ध्यान दें कि अंशांकन के बारे में बोलता है, और इसके बारे में एक और (अच्छा) ब्लॉग पोस्ट से लिंक करता है। फिर भी, मुझे पता चलता है कि बूस्टिंग से कैलिब्रेटेड प्रोबेबिलिटीज प्राप्त करने वाला पेपर आपको एक बेहतर समझ देता है कि बूस्टेड क्लासिफायर के संदर्भ में क्या अंशांकन है, और इसे करने के लिए मानक तरीके क्या हैं।

और अंत में एक पहलू गायब (थोड़ा और अधिक सैद्धांतिक)। RF और GBM दोनों अनुरुप विधियां हैं, जिसका अर्थ है कि आप बड़ी संख्या में छोटे क्लासिफायरियर का वर्गीकरण करते हैं। अब मूलभूत अंतर उपयोग की गई विधि पर है:

आरएफ निर्णय वृक्षों का उपयोग करता है, जो बहुत अधिक संभावना वाले हैं। उच्च सटीकता प्राप्त करने के लिए, RF बैगिंग के आधार पर उनमें से एक बड़ी संख्या बनाने का निर्णय लेता है । मूल विचार यह है कि प्रत्येक नमूना को बार-बार डेटा को फिर से वर्गीकृत किया जाए और एक नया क्लासिफायर ट्रेन किया जाए। विभिन्न क्लासिफायर एक अलग तरीके से डेटा को ओवरफिट करते हैं, और मतदान के माध्यम से उन अंतरों को औसतन निकाल दिया जाता है।
GBM एक बूस्टिंग तरीका है, जो कमजोर क्लासिफायर पर बनाता है । एक समय में एक क्लासिफायर जोड़ने का विचार है, ताकि अगले क्लासिफायरियर को पहले से प्रशिक्षित पहनावा सुधारने के लिए प्रशिक्षित किया जाए। ध्यान दें कि आरएफ के लिए प्रत्येक पुनरावृत्ति वर्गीकरण को बाकी हिस्सों से स्वतंत्र रूप से प्रशिक्षित किया जाता है।

— jpmuc
स्रोत

3

क्या यह आपके जवाब से उचित निष्कर्ष होगा कि RF GBM से अधिक ओवरफिट करता है?

— ः

4

@ 8 @ मैं उस निष्कर्ष को नहीं निकालूंगा - जबकि RF में एक एकल पेड़ GBM (क्योंकि ये बहुत छोटे होते हैं) में एक ही पेड़ से अधिक ओवरफिट होगा, RF में ये ओवरफिट औसतन बाहर निकाले जाएंगे जब बहुत से पेड़ लगाते हैं, जबकि GBM जितने अधिक पेड़ आप जोड़ते हैं, उतने अधिक जोखिम का जोखिम होता है। संक्षेप में, जैसा कि एन (उपयोग किए गए पेड़ों की संख्या) अनंत तक जाती है, मुझे उम्मीद है कि आरएफ जीबीएम से बहुत कम ओवरफिट करता है

— एंट