जवाबों:
रैंडम जंगल का उपयोग करता है जीतना (बल्कि उन सभी को अधिक से टिप्पणियों का एक नमूना उठा) और यादृच्छिक उपस्पेस विधि (दूसरे शब्दों में नहीं बल्कि उन सभी को अधिक से सुविधाओं का एक नमूना उठा, - विशेषता जीतना ) एक पेड़ विकसित करने के लिए। यदि अवलोकनों की संख्या बड़ी है, लेकिन पेड़ों की संख्या बहुत कम है, तो कुछ अवलोकनों की भविष्यवाणी केवल एक बार या बिल्कुल भी नहीं की जाएगी। यदि भविष्यवाणियों की संख्या बड़ी है, लेकिन पेड़ों की संख्या बहुत कम है, तो उपयोग किए गए सभी उप-स्थानों में कुछ विशेषताएं (सैद्धांतिक रूप से) याद की जा सकती हैं। दोनों मामलों में यादृच्छिक वन पूर्वानुमानात्मक शक्ति की कमी होती है। लेकिन अंतिम एक अतिवादी मामला है, क्योंकि प्रत्येक नोड पर सबस्पास का चयन किया जाता है।
वर्गीकरण के दौरान उप-आयामी स्वरूप है डिफ़ॉल्ट रूप से p (बल्कि छोटा,pभविष्यवाणियों की कुल संख्या है), लेकिन एक पेड़ में कई नोड होते हैं। प्रतिगमन के दौरान उप-आयामी आयामडिफ़ॉल्ट रूपसेp/3(काफी बड़ा) है, हालांकि एक पेड़ में कम नोड होते हैं। तो एक यादृच्छिक जंगल में पेड़ों की इष्टतम संख्या केवल चरम मामलों में भविष्यवक्ताओं की संख्या पर निर्भर करती है।
इस लेख के अनुसार
उनका सुझाव है कि एक यादृच्छिक जंगल में 64 - 128 पेड़ों के बीच कई पेड़ होने चाहिए । इसके साथ, आपके पास आरओसी एयूसी और प्रसंस्करण समय के बीच एक अच्छा संतुलन होना चाहिए।
यदि आप 1000 से अधिक सुविधाएँ और 1000 पंक्तियाँ जोड़ते हैं, तो आप कुछ जोड़ सकते हैं, यदि आप पेड़ की संख्या को नहीं ले सकते हैं।
मेरा सुझाव है कि आप सबसे पहले सीपीयू और राम की संख्या का पता लगाएं, उनके बीच के अनुपात और पेड़ की संख्या का पता लगाने के लिए क्रॉस सत्यापन शुरू करने का प्रयास करें
यदि आप अजगर का उपयोग सीखते हैं, तो आपके पास n_jobs=-1
सभी प्रक्रिया का उपयोग करने का विकल्प होता है, लेकिन लागत प्रत्येक कोर डेटा की प्रतिलिपि की आवश्यकता होती है, उसके बाद आप इस फॉर्मूले को ट्राइ कर सकते हैं
ntree = sqrt (पंक्ति की संख्या * स्तंभों की संख्या) / numberofcpu