एक यादृच्छिक वन वृक्ष के लिए एक बेहतर लागत फ़ंक्शन: गिन्नी इंडेक्स या एन्ट्रॉपी?


12

एक यादृच्छिक वन वृक्ष के लिए एक बेहतर लागत फ़ंक्शन: गिन्नी इंडेक्स या एन्ट्रॉपी?

मैं क्लोजर में यादृच्छिक वन को लागू करने की कोशिश कर रहा हूं।

जवाबों:


9

जैसा कि मैंने टैन एट द्वारा डाटा माइनिंग के परिचय में पाया। अल:

अध्ययनों से पता चला है कि अशुद्धता के माप के विकल्प का निर्णय पेड़ के प्रेरण एल्गोरिदम के प्रदर्शन पर बहुत कम प्रभाव पड़ता है। ऐसा इसलिए है क्योंकि कई अशुद्धता के उपाय एक-दूसरे के साथ काफी सुसंगत हैं [...]। वास्तव में, पेड़ को चुभाने के लिए इस्तेमाल की जाने वाली रणनीति का अशुद्धता के उपाय की तुलना में अंतिम पेड़ पर अधिक प्रभाव पड़ता है।

इसलिए, आप C4.5 की तरह CART या Entropy जैसे गिन्नी इंडेक्स का उपयोग करना चुन सकते हैं।

मैं एंट्रॉपी का उपयोग करता हूं, विशेष रूप से C4.5 का लाभ अनुपात क्योंकि आप क्विनलान द्वारा अच्छी तरह से लिखी गई पुस्तक का पालन कर सकते हैं: मशीन लर्निंग के लिए C4.5 प्रोग्राम।


3
छोटी टिप्पणी - एन्ट्रापी लॉग का उपयोग करता है, एक कम्प्यूटेशनल समय मुद्दा क्या हो सकता है।

8
यह टिप्पणी शुद्ध निर्णय वाले पेड़ों के बारे में है, न कि बेतरतीब जंगलों के कारण। आप आम तौर पर एक यादृच्छिक जंगल में एक पेड़ को पसंद नहीं करते हैं क्योंकि आप एक सर्वश्रेष्ठ पेड़ बनाने की कोशिश नहीं कर रहे हैं। तो यह बात करना भ्रामक लगता है कि क्या अधिक महत्वपूर्ण है: छंटाई या अशुद्धता माप। लक्ष्य यादृच्छिक वन के साथ उपयोग करने के लिए सबसे अच्छा पेड़ खोजने के लिए है।
चान-हो सुह
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.