किन परिस्थितियों में ग्रेडिएंट बूस्टिंग मशीन आउटपरफॉर्म रैंडम फॉरेस्ट करती हैं?

क्या फ्रेडमैन की ग्रेडिंग बूस्टिंग मशीन ब्रेमेन के रैंडम फॉरेस्ट से बेहतर प्रदर्शन हासिल कर सकती है ? यदि हां, तो किन स्थितियों में या किस तरह का डेटा सेट gbm को बेहतर बना सकता है?

— user22062
स्रोत

प्राथमिकता बताने का कोई तरीका नहीं है; आपको इसे आज़माना होगा।

— बायरज

ठीक है, अभ्यास में, लगभग हमेशा आउटपरफॉर्म आरएफ को बूस्ट करना ... हालांकि मुझे वास्तव में पता नहीं है कि, मुझे व्यक्तिगत रूप से किसी भी उदाहरण का सामना नहीं करना पड़ा है जहां आरएफ ने बूस्टिंग को बेहतर बनाया है।

— एंटोनी

@ गैर डेटा और / या लेबल शोर के साथ एक सीखने को बढ़ावा देने के लिए एक विशेष रूप से भयानक उपयोग मामला है।

— मार्क क्लेसेन

खैर, आरएफ और बूस्टिंग मुख्य रूप से पर्यवेक्षित शिक्षण कार्यों के लिए उपयोग किए जाते हैं, भले ही कभी-कभी यह सच है कि आरएफ का उपयोग क्लस्टरिंग के लिए किया जा सकता है। Adaboost घातीय नुकसान फ़ंक्शन के कारण गुमराह करने के लिए बहुत मजबूत नहीं है जो शोर से अत्यधिक प्रभावित होता है, लेकिन सामान्य मामले में स्टोचस्टिक ग्रेडिएंट बूस्टिंग (उदाहरण के लिए बहुपद विचलन) अधिक मजबूत है।

— एंटोनी

@MarcClaesen कृपया इस प्रश्न पर एक नज़र डाल सकते हैं ?

— एंटोनी

जवाबों:

निम्नलिखित के अनुसार एक स्पष्टीकरण प्रदान करता है कि बूस्टिंग आमतौर पर अभ्यास में रैंडम फ़ॉरेस्ट को बेहतर बनाता है, लेकिन मुझे यह जानने में बहुत दिलचस्पी होगी कि कौन से अन्य कारक विशिष्ट सेटिंग्स में आरएफ पर बूस्टिंग के किनारे की व्याख्या कर सकते हैं।

मूल रूप से, के भीतर ढांचे, आरएफ केवल त्रुटि विचरण को कम करने के माध्यम से कम कर सकते हैं ( Hastie एट अल। 2009 $error=bias+variance$ पृ। 588)। जंगल में एक ही पेड़ के पूर्वाग्रह के बराबर पूर्वाग्रह निर्धारित है (इसलिए बहुत बड़े पेड़ों को उगाने की आवश्यकता है, जिनमें बहुत कम पूर्वाग्रह हैं)।

दूसरी ओर, बढ़ाने पूर्वाग्रह कम कर देता है (ताकि क्या पूर्ववर्ती पेड़ से याद किया गया था कब्जा कर लिया है क्रम में प्रत्येक नए पेड़ जोड़कर), लेकिन यह भी विचरण (कई मॉडल के संयोजन के द्वारा)।

इसलिए, बूस्टिंग दोनों मोर्चों पर त्रुटि को कम करता है, जबकि RF केवल विचरण को कम करके त्रुटि को कम कर सकता है। बेशक, जैसा कि मैंने कहा, अभ्यास में मनाया गया बूस्टिंग के बेहतर प्रदर्शन के लिए अन्य स्पष्टीकरण हो सकते हैं। उदाहरण के लिए, उपरोक्त पुस्तक का पृष्ठ ५ ९ १, यह कहा जाता है कि नेस्टेड क्षेत्र की समस्या पर आउटपोफॉर्मफॉर्म आरएफ को बढ़ावा देना क्योंकि उस विशेष मामले में सही निर्णय सीमा योगात्मक है । (?) वे यह भी रिपोर्ट करते हैं कि बूस्टिंग स्पैम और कैलिफोर्निया आवास डेटा के लिए आरएफ से बेहतर है।

एक और संदर्भ जो बूस्टरिंग टू आउटफॉर्मफॉर्म आरएफ पाया गया, वह है कारुआना और निकुलेस्कु-मिज़िल 2006 । दुर्भाग्य से, वे परिणामों की रिपोर्ट करते हैं, लेकिन यह बताने की कोशिश नहीं करते कि उनके कारण क्या हैं। उन्होंने 8 अलग-अलग प्रदर्शन मेट्रिक्स के लिए 11 बाइनरी वर्गीकरण समस्याओं पर दो क्लासिफायर (और कई और) की तुलना की।

— एंटोनी
स्रोत

जैसा कि बेयरज ने कहा, एक प्राथमिकता जानने का कोई तरीका नहीं है!

यादृच्छिक जंगलों को जांचना अपेक्षाकृत आसान है: अधिकांश कार्यान्वयन के डिफ़ॉल्ट पैरामीटर (आर या पायथन, प्रति उदाहरण) महान परिणाम प्राप्त करते हैं।

दूसरी ओर, जी.बी.एम. को कठिन होता है (बहुत बड़ी संख्या में पेड़ ओवरफिट हो जाते हैं, अधिकतम गहराई महत्वपूर्ण होती है, सीखने की दर और पेड़ों की संख्या एक साथ कार्य करती है ...) और लंबे समय तक प्रशिक्षित (बहुस्तरीय कार्यान्वयन दुर्लभ हैं) । शिथिल प्रदर्शन वाली ट्यूनिंग कम प्रदर्शन का कारण बन सकती है।

हालांकि, मेरे अनुभव से, यदि आप जीबीएम पर पर्याप्त समय बिताते हैं, तो आपको यादृच्छिक वन की तुलना में बेहतर प्रदर्शन प्राप्त होने की संभावना है।

संपादित करें। GBM रैंडम फ़ॉरेस्ट को बेहतर क्यों बनाते हैं? एंटोनी का उत्तर अधिक कठोर है, यह सिर्फ एक सहज व्याख्या है। उनके पास अधिक महत्वपूर्ण पैरामीटर हैं। यादृच्छिक जंगलों की तरह, आप पेड़ों की संख्या को कैलिब्रेट कर सकते हैं और $m$ जिस पर पेड़-पौधे उगाए जाते हैं। लेकिन आप सीखने की दर और अधिकतम गहराई को भी जांच सकते हैं। जैसा कि आप एक यादृच्छिक जंगल के साथ करते हैं, उससे अधिक अलग-अलग मॉडल का निरीक्षण करते हैं, तो आपको कुछ बेहतर मिलने की संभावना है।

— RUser4512
स्रोत

A loosely performed tuning may lead to dramatic performance?गलत व्याख्या से सावधान रहें, क्योंकि अंग्रेजी में dramaticइसका मतलब बहुत अच्छा, असाधारण, अभूतपूर्व आदि है! मुझे लगता है कि आप जो कहना चाहते थे उसके विपरीत है ... इसके अलावा, क्या आपके पास कोई स्पष्टीकरण है कि ध्यान से जीबीएम आउटसोफॉर्म आरएफ को ट्यून क्यों करें? यह मूल रूप से सवाल है ...

— एंटोनी