मुझे लगता है कि मूल पेपर में वे ) का उपयोग करने का सुझाव देते हैं , लेकिन इस तरह से विचार निम्नलिखित है:log2(N+1
यादृच्छिक रूप से चयनित सुविधाओं की संख्या दो तरीकों से सामान्यीकरण त्रुटि को प्रभावित कर सकती है: कई सुविधाओं का चयन व्यक्तिगत पेड़ों की ताकत को बढ़ाता है जबकि सुविधाओं की संख्या को कम करने से पेड़ों की संख्या में समग्र रूप से जंगल की ताकत बढ़ जाती है।
यह दिलचस्प है कि रैंडम फ़ॉरेस्ट (पीडीएफ) के लेखक वर्गीकरण और प्रतिगमन के बीच एक अनुभवजन्य अंतर पाते हैं:
प्रतिगमन और वर्गीकरण के बीच एक दिलचस्प अंतर यह है कि सहसंबंध काफी धीरे-धीरे बढ़ता है क्योंकि उपयोग की जाने वाली सुविधाओं की संख्या बढ़ जाती है।
N/3N−−√
N−−√logN
इन-द-रेंज आम तौर पर बड़ी होती है। इस श्रेणी में, जैसे-जैसे सुविधाओं की संख्या बढ़ती जाती है, सहसंबंध बढ़ता जाता है, लेकिन पीई * (पेड़) घटते हुए क्षतिपूर्ति करता है।
(पीई * सामान्यीकरण त्रुटि)
जैसा कि वे सांख्यिकीय लर्निंग के तत्वों में कहते हैं:
व्यवहार में इन मापदंडों के लिए सर्वोत्तम मूल्य समस्या पर निर्भर करेगा, और उन्हें ट्यूनिंग मापदंडों के रूप में माना जाना चाहिए।
आपकी समस्या जिस पर निर्भर कर सकती है, वह है श्रेणीबद्ध चर की संख्या। यदि आपके पास कई श्रेणीबद्ध चर हैं जो डमी-चर के रूप में एन्कोड किए गए हैं तो यह आमतौर पर पैरामीटर को बढ़ाने के लिए समझ में आता है। फिर से, रैंडम फॉरेस्ट पेपर से:
int(log2M+1)