रैंडम फ़ॉरेस्ट का उपयोग करके नमूना करने के लिए कितनी सुविधाएँ


14

विकिपीडिया पृष्ठ जो उद्धरण "सांख्यिकीय लर्निंग के तत्वों" का कहना है:

आमतौर पर, साथ श्रेणीबद्ध समस्यायें के लिए सुविधाओं, p सुविधाओं प्रत्येक विभाजन में उपयोग किया जाता है।p

मैं समझता हूं कि यह एक बहुत अच्छा शिक्षित अनुमान है और संभवतः अनुभवजन्य साक्ष्य द्वारा इसकी पुष्टि की गई थी, लेकिन क्या अन्य कारण हैं कि कोई वर्गमूल क्यों उठाएगा? क्या वहां कोई सांख्यिकीय घटना घट रही है?

क्या यह किसी तरह त्रुटियों को कम करने में मदद करता है?

क्या यह प्रतिगमन और वर्गीकरण के लिए समान है?

जवाबों:


17

मुझे लगता है कि मूल पेपर में वे ) का उपयोग करने का सुझाव देते हैं , लेकिन इस तरह से विचार निम्नलिखित है:log2(N+1

यादृच्छिक रूप से चयनित सुविधाओं की संख्या दो तरीकों से सामान्यीकरण त्रुटि को प्रभावित कर सकती है: कई सुविधाओं का चयन व्यक्तिगत पेड़ों की ताकत को बढ़ाता है जबकि सुविधाओं की संख्या को कम करने से पेड़ों की संख्या में समग्र रूप से जंगल की ताकत बढ़ जाती है।

यह दिलचस्प है कि रैंडम फ़ॉरेस्ट (पीडीएफ) के लेखक वर्गीकरण और प्रतिगमन के बीच एक अनुभवजन्य अंतर पाते हैं:

प्रतिगमन और वर्गीकरण के बीच एक दिलचस्प अंतर यह है कि सहसंबंध काफी धीरे-धीरे बढ़ता है क्योंकि उपयोग की जाने वाली सुविधाओं की संख्या बढ़ जाती है।

N/3N

NlogN

इन-द-रेंज आम तौर पर बड़ी होती है। इस श्रेणी में, जैसे-जैसे सुविधाओं की संख्या बढ़ती जाती है, सहसंबंध बढ़ता जाता है, लेकिन पीई * (पेड़) घटते हुए क्षतिपूर्ति करता है।

(पीई * सामान्यीकरण त्रुटि)

जैसा कि वे सांख्यिकीय लर्निंग के तत्वों में कहते हैं:

व्यवहार में इन मापदंडों के लिए सर्वोत्तम मूल्य समस्या पर निर्भर करेगा, और उन्हें ट्यूनिंग मापदंडों के रूप में माना जाना चाहिए।

आपकी समस्या जिस पर निर्भर कर सकती है, वह है श्रेणीबद्ध चर की संख्या। यदि आपके पास कई श्रेणीबद्ध चर हैं जो डमी-चर के रूप में एन्कोड किए गए हैं तो यह आमतौर पर पैरामीटर को बढ़ाने के लिए समझ में आता है। फिर से, रैंडम फॉरेस्ट पेपर से:

int(log2M+1)


धन्यवाद, यह एक बहुत ही उपयोगी जवाब है। दरअसल, मैं सोच रहा था कि प्रत्येक पेड़ बनाम जंगल की ताकत के साथ कुछ करना है। और वास्तव में, बहुत दिलचस्प है कि प्रतिगमन और वर्गीकरण के बीच ऐसा अंतर है। मूल पेपर को जोड़ने के लिए बहुत बहुत धन्यवाद। बहुत सारी तकनीकों के लिए ऐसे कागजात इकट्ठा करने की कोशिश कर रहा है।
वैलेंटाइन कैलोमी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.