रैंडम फ़ॉरेस्ट और अत्यधिक रेंडमाइज़्ड पेड़ों के बीच अंतर


38

मैं समझ गया कि रैंडम फ़ॉरेस्ट और एक्सट्रीमली रेंडमाइज्ड ट्री इस मायने में भिन्न होते हैं कि रैंडम फ़ॉरेस्ट में पेड़ों के विभाजन नियतात्मक होते हैं जबकि वे अत्यधिक रैंडमाइज्ड ट्रीज़ के मामले में रैंडम होते हैं (अधिक सटीक होने के लिए, अगला स्प्लिट बेस्ट स्प्लिट है वर्तमान पेड़ के लिए चयनित चर में यादृच्छिक वर्दी विभाजन के बीच)। लेकिन मैं विभिन्न स्थितियों में इस अलग विभाजन के प्रभाव को पूरी तरह से नहीं समझता।

  • वे पूर्वाग्रह / विचरण के संदर्भ में कैसे तुलना करते हैं?
  • वे अप्रासंगिक चर की उपस्थिति में तुलना कैसे करते हैं?
  • वे सहसंबद्ध चर की उपस्थिति में तुलना कैसे करते हैं?

2
(ए) ईआरटी कभी-कभी कम इष्टतम विभाजन के कारण अधिक पक्षपाती हो सकता है / ईआरटी कभी-कभी पेड़ों के आगे सजावट के कारण विचरण को कम करेगा; (बी) मुझे वही लगता है, निश्चित नहीं; (c) मुझे वही लगता है, निश्चित नहीं। अतिरिक्त: मैं यादृच्छिक चर नमूने के कारण आरएफ नियतांक के विभाजन को नहीं कहूंगा, और पेड़ बूटस्ट्रैपिंग के कारण निश्चित रूप से नहीं हैं।
सोरेन हवेलुंड वेलिंग

एक क्या है uniform split?
ऑक्टेवियन

जवाबों:


27

एक्स्ट्रा- (रैंडमाइज्ड) -ट्रीज (ET) लेख में पूर्वाग्रह-विचरण विश्लेषण होता है। पृष्ठ 16 पर आप छह परीक्षणों (ट्री वर्गीकरण और तीन प्रतिगमन) पर आरएफ सहित कई तरीकों के साथ तुलना देख सकते हैं।

दोनों तरीके समान हैं, जब उच्च शोर सुविधाओं (उच्च आयामी डेटा-सेटों) में ईटी थोड़ा खराब हो रहा है।

यह कहा गया है, बशर्ते (शायद मैनुअल) सुविधा चयन इष्टतम के पास है, प्रदर्शन उसी के बारे में है, हालांकि, ईटी को कम्प्यूटेशनल रूप से तेज किया जा सकता है।

लेख से ही:

एल्गोरिथ्म के विश्लेषण और कई परीक्षण समस्या वेरिएंट्स पर कश्मीर के इष्टतम मूल्य के निर्धारण से पता चला है कि मूल्य सिद्धांत विशेष पर निर्भर है, विशेष रूप से अप्रासंगिक विशेषताओं के अनुपात में । [...] पूर्वाग्रह / विचरण विश्लेषण से पता चला है कि एक्स्ट्रा-ट्रीज़ विचरण को कम करते हुए काम करते हैं जबकि एक ही समय में पूर्वाग्रह बढ़ जाते हैं । [...] जब यादृच्छिककरण को अधिकतम स्तर से ऊपर बढ़ाया जाता है, तो विचरण थोड़ा कम हो जाता है जबकि पूर्वाग्रह अक्सर काफी बढ़ जाता है।

हमेशा की तरह कोई चांदी की गोली नहीं।


पियरे जॉर्जेट्स, डेमियन अर्न्स्ट, लुई वेन्हके। "अत्यधिक यादृच्छिक पेड़"


2
ईटी के बारे में कोई भी संदर्भ (अनुभवजन्य या सिद्धांत) थोड़ा खराब होने पर शोर की अधिक संख्या होती है? या यह अनुभव पर आधारित है?
रमशीर

1
मेरे अनुभव में विपरीत सच है: अतिरिक्त-पेड़ कई शोर सुविधाओं के साथ बेहतर करते हैं। कैवेट के साथ कि आपके पास एक बड़ा जंगल (कई अनुमानक, स्केलेर में n_estimators) होना चाहिए और काम करने के लिए प्रत्येक विभाजन (स्केलेर में अधिकतम_फ्रीचर) पर विचार की जाने वाली सुविधाओं की संख्या को ट्यून करें। एक सिंगल एक्स्ट्रा-ट्री एक से अधिक रैंडम फॉरेस्ट ट्री को ओवरफिट करेगा लेकिन अगर आपके पास कई एक्स्ट्रा-ट्री हैं तो वे अलग-अलग तरीकों से ओवरफिट करेंगे और ओवरफिट नहीं। मुझे अक्सर 3000 अनुमान लगाने वालों को पर्याप्त सुधार मिलता है।
डेन्सन

3

जवाब है कि यह निर्भर करता है। मेरा सुझाव है कि आप अपनी समस्या पर यादृच्छिक वन और अतिरिक्त पेड़ दोनों का प्रयास करें। बड़े वन (1000 - 3000 पेड़ / अनुमानक, स्केलेर में n_estimators) आज़माएं और प्रत्येक विभाजन पर विचार की जाने वाली सुविधाओं की संख्या को ट्यून करें (अधिकतम स्केलेर में) और साथ ही प्रति नमूने न्यूनतम नमूने (स्केलेर में min_sents_split) और अधिकतम वृक्ष की गहराई ( sklearn में max_depth)। उस ने कहा, आपको यह ध्यान रखना चाहिए कि ओवर ट्यूनिंग ओवरफिटिंग का एक रूप हो सकता है।

यहां दो समस्याएं हैं जिन पर मैंने व्यक्तिगत रूप से काम किया है जहां अतिरिक्त पेड़ बहुत शोर डेटा के साथ उपयोगी साबित हुए हैं:

बड़े, शोर सीफ्लोर सुविधा सेटों के मशीन लर्निंग वर्गीकरण के लिए निर्णय वन

पेस्ट किए गए नमूनों के साथ एक कुशल वितरित प्रोटीन विकार भविष्यवाणी


2

जवाब के लिए बहुत बहुत धन्यवाद! जैसा कि मैंने अभी भी सवाल किया था, मैंने इन दो तरीकों के व्यवहार के बारे में अधिक अंतर्दृष्टि के लिए कुछ संख्यात्मक सिमुलेशन का प्रदर्शन किया।

  • अतिरिक्त पेड़ शोर सुविधाओं की उपस्थिति में एक उच्च प्रदर्शन रखने लगते हैं।

नीचे दी गई तस्वीर प्रदर्शन को दर्शाती है (क्रॉस वेलिडेशन के साथ मूल्यांकन किया गया है) लक्ष्य के लिए बेतरतीब कॉलम अप्रासंगिक होकर डेटासेट में जुड़ जाते हैं। लक्ष्य पहले तीन स्तंभों का एक रैखिक संयोजन है। यादृच्छिक वन बनाम अप्रासंगिक चर की उपस्थिति में अतिरिक्त पेड़

  • जब सभी चर प्रासंगिक होते हैं, तो दोनों विधियाँ समान प्रदर्शन प्राप्त करती हैं,

  • रैंडम फ़ॉरेस्ट की तुलना में अतिरिक्त पेड़ तीन गुना तेज़ लगते हैं (कम से कम, सीखें कार्यान्वयन में)

सूत्रों का कहना है

पूर्ण लेख के लिए लिंक: यादृच्छिक वन बनाम अतिरिक्त पेड़


आपके लिंक किए गए लेख से: "नीले रंग में यादृच्छिक वन से परिणाम प्रस्तुत किए जाते हैं और अतिरिक्त पेड़ों के लिए लाल होते हैं।"
tomsv
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.