क्या फ्रेडमैन की ग्रेडिंग बूस्टिंग मशीन ब्रेमेन के रैंडम फॉरेस्ट से बेहतर प्रदर्शन हासिल कर सकती है ? यदि हां, तो किन स्थितियों में या किस तरह का डेटा सेट gbm को बेहतर बना सकता है?
क्या फ्रेडमैन की ग्रेडिंग बूस्टिंग मशीन ब्रेमेन के रैंडम फॉरेस्ट से बेहतर प्रदर्शन हासिल कर सकती है ? यदि हां, तो किन स्थितियों में या किस तरह का डेटा सेट gbm को बेहतर बना सकता है?
जवाबों:
निम्नलिखित के अनुसार एक स्पष्टीकरण प्रदान करता है कि बूस्टिंग आमतौर पर अभ्यास में रैंडम फ़ॉरेस्ट को बेहतर बनाता है, लेकिन मुझे यह जानने में बहुत दिलचस्पी होगी कि कौन से अन्य कारक विशिष्ट सेटिंग्स में आरएफ पर बूस्टिंग के किनारे की व्याख्या कर सकते हैं।
मूल रूप से, के भीतर ढांचे, आरएफ केवल त्रुटि विचरण को कम करने के माध्यम से कम कर सकते हैं ( Hastie एट अल। 2009 पृ। 588)। जंगल में एक ही पेड़ के पूर्वाग्रह के बराबर पूर्वाग्रह निर्धारित है (इसलिए बहुत बड़े पेड़ों को उगाने की आवश्यकता है, जिनमें बहुत कम पूर्वाग्रह हैं)।
दूसरी ओर, बढ़ाने पूर्वाग्रह कम कर देता है (ताकि क्या पूर्ववर्ती पेड़ से याद किया गया था कब्जा कर लिया है क्रम में प्रत्येक नए पेड़ जोड़कर), लेकिन यह भी विचरण (कई मॉडल के संयोजन के द्वारा)।
इसलिए, बूस्टिंग दोनों मोर्चों पर त्रुटि को कम करता है, जबकि RF केवल विचरण को कम करके त्रुटि को कम कर सकता है। बेशक, जैसा कि मैंने कहा, अभ्यास में मनाया गया बूस्टिंग के बेहतर प्रदर्शन के लिए अन्य स्पष्टीकरण हो सकते हैं। उदाहरण के लिए, उपरोक्त पुस्तक का पृष्ठ ५ ९ १, यह कहा जाता है कि नेस्टेड क्षेत्र की समस्या पर आउटपोफॉर्मफॉर्म आरएफ को बढ़ावा देना क्योंकि उस विशेष मामले में सही निर्णय सीमा योगात्मक है । (?) वे यह भी रिपोर्ट करते हैं कि बूस्टिंग स्पैम और कैलिफोर्निया आवास डेटा के लिए आरएफ से बेहतर है।
एक और संदर्भ जो बूस्टरिंग टू आउटफॉर्मफॉर्म आरएफ पाया गया, वह है कारुआना और निकुलेस्कु-मिज़िल 2006 । दुर्भाग्य से, वे परिणामों की रिपोर्ट करते हैं, लेकिन यह बताने की कोशिश नहीं करते कि उनके कारण क्या हैं। उन्होंने 8 अलग-अलग प्रदर्शन मेट्रिक्स के लिए 11 बाइनरी वर्गीकरण समस्याओं पर दो क्लासिफायर (और कई और) की तुलना की।
जैसा कि बेयरज ने कहा, एक प्राथमिकता जानने का कोई तरीका नहीं है!
यादृच्छिक जंगलों को जांचना अपेक्षाकृत आसान है: अधिकांश कार्यान्वयन के डिफ़ॉल्ट पैरामीटर (आर या पायथन, प्रति उदाहरण) महान परिणाम प्राप्त करते हैं।
दूसरी ओर, जी.बी.एम. को कठिन होता है (बहुत बड़ी संख्या में पेड़ ओवरफिट हो जाते हैं, अधिकतम गहराई महत्वपूर्ण होती है, सीखने की दर और पेड़ों की संख्या एक साथ कार्य करती है ...) और लंबे समय तक प्रशिक्षित (बहुस्तरीय कार्यान्वयन दुर्लभ हैं) । शिथिल प्रदर्शन वाली ट्यूनिंग कम प्रदर्शन का कारण बन सकती है।
हालांकि, मेरे अनुभव से, यदि आप जीबीएम पर पर्याप्त समय बिताते हैं, तो आपको यादृच्छिक वन की तुलना में बेहतर प्रदर्शन प्राप्त होने की संभावना है।
संपादित करें। GBM रैंडम फ़ॉरेस्ट को बेहतर क्यों बनाते हैं? एंटोनी का उत्तर अधिक कठोर है, यह सिर्फ एक सहज व्याख्या है। उनके पास अधिक महत्वपूर्ण पैरामीटर हैं। यादृच्छिक जंगलों की तरह, आप पेड़ों की संख्या को कैलिब्रेट कर सकते हैं औरजिस पर पेड़-पौधे उगाए जाते हैं। लेकिन आप सीखने की दर और अधिकतम गहराई को भी जांच सकते हैं। जैसा कि आप एक यादृच्छिक जंगल के साथ करते हैं, उससे अधिक अलग-अलग मॉडल का निरीक्षण करते हैं, तो आपको कुछ बेहतर मिलने की संभावना है।
A loosely performed tuning may lead to dramatic performance?
गलत व्याख्या से सावधान रहें, क्योंकि अंग्रेजी में dramatic
इसका मतलब बहुत अच्छा, असाधारण, अभूतपूर्व आदि है! मुझे लगता है कि आप जो कहना चाहते थे उसके विपरीत है ... इसके अलावा, क्या आपके पास कोई स्पष्टीकरण है कि ध्यान से जीबीएम आउटसोफॉर्म आरएफ को ट्यून क्यों करें? यह मूल रूप से सवाल है ...