क्या यादृच्छिक वन में पेड़ों की इष्टतम संख्या भविष्यवक्ताओं की संख्या पर निर्भर करती है?


46

क्या कोई समझा सकता है कि जब भविष्यवक्ताओं की संख्या बड़ी है तो हमें यादृच्छिक वन में बड़ी संख्या में पेड़ों की आवश्यकता क्यों है? हम पेड़ों की इष्टतम संख्या कैसे निर्धारित कर सकते हैं?

जवाबों:


70

रैंडम जंगल का उपयोग करता है जीतना (बल्कि उन सभी को अधिक से टिप्पणियों का एक नमूना उठा) और यादृच्छिक उपस्पेस विधि (दूसरे शब्दों में नहीं बल्कि उन सभी को अधिक से सुविधाओं का एक नमूना उठा, - विशेषता जीतना ) एक पेड़ विकसित करने के लिए। यदि अवलोकनों की संख्या बड़ी है, लेकिन पेड़ों की संख्या बहुत कम है, तो कुछ अवलोकनों की भविष्यवाणी केवल एक बार या बिल्कुल भी नहीं की जाएगी। यदि भविष्यवाणियों की संख्या बड़ी है, लेकिन पेड़ों की संख्या बहुत कम है, तो उपयोग किए गए सभी उप-स्थानों में कुछ विशेषताएं (सैद्धांतिक रूप से) याद की जा सकती हैं। दोनों मामलों में यादृच्छिक वन पूर्वानुमानात्मक शक्ति की कमी होती है। लेकिन अंतिम एक अतिवादी मामला है, क्योंकि प्रत्येक नोड पर सबस्पास का चयन किया जाता है।

वर्गीकरण के दौरान उप-आयामी स्वरूप है डिफ़ॉल्ट रूप से p (बल्कि छोटा,pभविष्यवाणियों की कुल संख्या है), लेकिन एक पेड़ में कई नोड होते हैं। प्रतिगमन के दौरान उप-आयामी आयामडिफ़ॉल्ट रूपसेp/3(काफी बड़ा) है, हालांकि एक पेड़ में कम नोड होते हैं। तो एक यादृच्छिक जंगल में पेड़ों की इष्टतम संख्या केवल चरम मामलों में भविष्यवक्ताओं की संख्या पर निर्भर करती है।पीपीपी/3

ntreekeep.inbagnn1ntree


-2

इस लेख के अनुसार

उनका सुझाव है कि एक यादृच्छिक जंगल में 64 - 128 पेड़ों के बीच कई पेड़ होने चाहिए । इसके साथ, आपके पास आरओसी एयूसी और प्रसंस्करण समय के बीच एक अच्छा संतुलन होना चाहिए।


10
यह अजीब लगता है कि डेटासेट में सुविधाओं की संख्या पर उनके परिणामों में कोई निर्भरता नहीं है ...
n

-5

यदि आप 1000 से अधिक सुविधाएँ और 1000 पंक्तियाँ जोड़ते हैं, तो आप कुछ जोड़ सकते हैं, यदि आप पेड़ की संख्या को नहीं ले सकते हैं।

मेरा सुझाव है कि आप सबसे पहले सीपीयू और राम की संख्या का पता लगाएं, उनके बीच के अनुपात और पेड़ की संख्या का पता लगाने के लिए क्रॉस सत्यापन शुरू करने का प्रयास करें

यदि आप अजगर का उपयोग सीखते हैं, तो आपके पास n_jobs=-1सभी प्रक्रिया का उपयोग करने का विकल्प होता है, लेकिन लागत प्रत्येक कोर डेटा की प्रतिलिपि की आवश्यकता होती है, उसके बाद आप इस फॉर्मूले को ट्राइ कर सकते हैं

ntree = sqrt (पंक्ति की संख्या * स्तंभों की संख्या) / numberofcpu


6
मुझे लगता है कि आपको अपने बयानों के लिए सबूत और औचित्य प्रदान करने के लिए इसे संपादित करने की आवश्यकता है।
mdewey
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.