रैंडमफॉरस्टेस्ट क्लासीफायर बनाम एक्स्ट्राट्रीक्लासिफायर इन स्किकिट सीखें


94

क्या कोई रैंडमफॉरस्टेस्ट क्लासीफायर और एक्स्ट्राट्रीक्लास क्लासिफायर के बीच अंतर को स्पष्ट कर सकता है। मैंने पेपर पढ़ने में अच्छा समय बिताया है:

पी। ज्यूरेट्स, डी। अर्न्स्ट, और एल। वेन्केल, "अत्यधिक यादृच्छिक पेड़", मशीन लर्निंग, 63 (1), 3-42, 2006

ऐसा लगता है कि ये ईटी के लिए अंतर हैं:

1) जब एक विभाजन पर चर चुनते हैं, तो प्रशिक्षण सेट के बूटस्ट्रैप नमूने के बजाय पूरे प्रशिक्षण सेट से नमूने तैयार किए जाते हैं।

2) प्रत्येक विभाजन पर नमूने में मूल्यों की सीमा से पूरी तरह से यादृच्छिक पर विभाजन को चुना जाता है।

इन दो चीजों से परिणाम कई "पत्ते" हैं।


6
एक्सट्रेटेक्लासिफ़ायर में मेरी दिलचस्पी के कारण यह है कि मुझे किसी विशेष समस्या पर ईटी के साथ बेहतर परिणाम मिल रहे हैं। मेरी सुविधा वेक्टर बड़ी है> 200 चर और चर बहुत शोर हैं। मानक RDF क्लासिफायर में घटिया परिणाम मिलते हैं लेकिन ET को F1 स्कोर> 90% मिल रहा है। कक्षाएं अपेक्षाकृत कम सकारात्मक वर्ग के नमूनों और कई नकारात्मक के साथ असंतुलित हैं।
डेन्सन

इसे और भी हालिया उत्तर देखें: सांख्यिकी.stackexchange.com/questions/175523/…
Archie

जवाबों:


56

हां, दोनों निष्कर्ष सही हैं, हालांकि स्किकिट-लर्न में रैंडम फॉरेस्ट कार्यान्वयन बूटस्ट्रैप रिस्पॉन्सिंग को सक्षम या अक्षम करना संभव बनाता है।

व्यवहार में, RFs अक्सर ET की तुलना में अधिक कॉम्पैक्ट होते हैं। ईटी आमतौर पर कम्प्यूटेशनल दृष्टिकोण से प्रशिक्षित करने के लिए सस्ता होता है, लेकिन बहुत बड़ा हो सकता है। ETs कभी-कभी RF की तुलना में बेहतर सामान्य कर सकते हैं, लेकिन यह अनुमान लगाना कठिन है कि यह पहली बार (और ट्यूनिंग n_estimators, max_featuresऔर min_samples_splitक्रॉस-वैरिफाइड ग्रिड खोज दोनों) की कोशिश किए बिना मामला है ।


21

एक्सट्रा ट्रीज़ क्लासिफायर हमेशा रैंडम स्प्लिट्स को सुविधाओं के अंश पर रैंडम करता है (रैंडम फ़ॉरेस्ट के विपरीत, जो सुविधाओं के अंश पर सभी संभावित विभाजन का परीक्षण करता है)


13
मुझे खुशी है कि यह टिप्पणी सचमुच एक कौरेज़र क्विज़ प्रश्न का शब्द-दर-शब्द उत्तर है
Bob

हाँ @ यास है। मुझे यह उत्तर बहुत उपयोगी लगा, इसीलिए मैंने यहाँ पोस्ट किया, यह अतिरिक्त-वृक्षों और यादृच्छिक वन के बीच अंतर को समझने में अन्य की मदद करता है।
मुहम्मद उमर अमानत

3
भी उसी पाठ्यक्रम से आया था। और यह उत्तर मददगार था!
किलजियो

हाँ @ skeller88 यह आश्चर्यजनक पाठ्यक्रम है। आप इस coursera.org/learn/competitive-data-science?specialization=aml
मुहम्मद उमर अमानत

0

यादृच्छिक जंगलों और अतिरिक्त पेड़ों के बीच मुख्य अंतर (आमतौर पर चरम यादृच्छिक वन कहा जाता है) इस तथ्य में निहित है कि, विचार के तहत प्रत्येक सुविधा के लिए स्थानीय रूप से इष्टतम सुविधा / विभाजन संयोजन (यादृच्छिक वन के लिए) के बजाय, एक यादृच्छिक मूल्य चुना जाता है। विभाजन के लिए (अतिरिक्त पेड़ों के लिए)। अधिक विस्तार से रैंडम वन बनाम अतिरिक्त पेड़ में उनके अंतर के बारे में अधिक जानने के लिए यहां एक अच्छा संसाधन है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.