रैंडम फ़ॉरेस्ट क्लासिफ़ायर के लिए इष्टतम पैरामीटर क्या होना चाहिए?


14

वर्तमान में मैं एक द्विआधारी वर्गीकरण समस्या के लिए MATLAB पर आरएफ टूलबॉक्स का उपयोग कर रहा हूं

डेटा सेट: 50000 नमूने और 250 से अधिक विशेषताएं

तो पेड़ों को उगाने के लिए प्रत्येक विभाजन पर पेड़ों की संख्या और बेतरतीब ढंग से चुनी गई विशेषता क्या होनी चाहिए? क्या कोई अन्य पैरामीटर परिणामों को बहुत प्रभावित कर सकता है?

जवाबों:


8

, पेड़ की एक बड़ी संख्या उठाओ मैं इंटरनेट पर क्या पढ़ा है से 100 का कहना है, लेने बेतरतीब ढंग से चयनित सुविधाएँ। हालांकि,मूल पेपर में, एम लॉग करने के लिए ब्रेमेन ने निकटतम पूर्णांक का उपयोग किया250लॉगलॉग2

मैं कहूंगा कि क्रॉस-वैलिडेशन आमतौर पर इष्टतम मापदंडों को खोजने की कुंजी है, लेकिन मुझे यादृच्छिक जंगलों के बारे में पर्याप्त नहीं पता है।


1+लॉग2

धन्यवाद, मैंने लिंक को अपडेट कर दिया है। अब, यह बर्कले के लिए प्रत्यक्ष है।
वोक

12

पेड़ों की संख्या जितनी बड़ी, उतना ही बेहतर। आप इस पैरामीटर के साथ लगभग निरीक्षण नहीं कर सकते हैं, लेकिन निश्चित रूप से ऊपरी सीमा उस कम्प्यूटेशनल समय पर निर्भर करती है जिस पर आप आरएफ पर खर्च करना चाहते हैं।
अच्छा विचार यह है कि पहले एक लंबा जंगल बनाया जाए और फिर देखें (मुझे आशा है कि यह MATLAB कार्यान्वयन में उपलब्ध है) जब ओओबी सटीकता परिवर्तित होती है।

आज़माई गई विशेषताओं की संख्या डिफ़ॉल्ट विशेषताओं की पूरी संख्या का वर्गमूल है, फिर भी आमतौर पर जंगल इस पैरामीटर के मूल्य के बारे में बहुत संवेदनशील नहीं है - वास्तव में यह शायद ही कभी अनुकूलित होता है, खासकर क्योंकि आरएफ का स्टोचस्टिक पहलू बड़े बदलाव पेश कर सकता है।


7

पेड़ों की संख्या बड़ी, बेहतर: सहमत।

कोशिश की गई विशेषताओं की संख्या निर्भर करेगी। यदि आपके पास पहले से ही जानकारी के प्रसार के तरीके के बारे में कोई प्राथमिकता है या सुविधाओं के बीच नहीं है। यदि जानकारी कई विशेषताओं द्वारा साझा की जाती है, तो बेहतर परिणाम उस पैरामीटर के छोटे मूल्य के साथ आएंगे। जबकि, दूसरी ओर, यदि केवल कुछ सुविधाएँ ही जानकारी ले रही हैं, तो आपको बड़े मानों का उपयोग करना चाहिए। दूसरे शब्दों में, कई प्रासंगिक चर के साथ: छोटे मूल्य बेहतर हैं और कई अप्रासंगिक चर के साथ: बड़े मूल्य बेहतर हैं।


1
जब तक आपके द्वारा सुझाई गई विशेषताओं की संख्या के बारे में आपका दावा समझ में नहीं आता, क्या आपके पास इसके लिए एक प्रशस्ति पत्र है?
जेम्स ओवर्स

मैं इस थीसिस को पढ़ने की सलाह दूंगा : github.com/glouppe/phd-thesis साथ ही साथ यह एक: orbi.ulg.ac.be/handle/2268/25737
0asa
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.