मेरा प्रश्न: रैंडम फ़ॉरेस्ट प्रत्येक पेड़ के बजाय नोड स्तर पर बंटवारे के लिए सुविधाओं के यादृच्छिक सबसेट पर विचार क्यों करता है ?
पृष्ठभूमि: यह एक इतिहास का सवाल है। टिन कम हो ने 1998 में प्रत्येक पेड़ को उगाने के लिए सुविधाओं के एक सबसेट का चयन करके "निर्णय वन" के निर्माण पर इस पत्र को प्रकाशित किया था। कई सालों बाद, 2001 में, लियो ब्रिमन ने अपना सेमिनल रैंडम फ़ॉरेस्ट पेपर प्रकाशित किया , जिसमें सुविधा उप-क्रम बेतरतीब ढंग से प्रकाशित हुई प्रत्येक पेड़ के भीतर प्रत्येक नोड पर चयनित, प्रत्येक पेड़ पर नहीं। जबकि ब्रिमन ने हो का हवाला दिया, उन्होंने विशेष रूप से ट्री-लेवल से नोड-लेवल रैंडम फीचर के चयन के बारे में नहीं बताया।
मैं सोच रहा हूं कि इस विकास को किसने प्रेरित किया। ऐसा लगता है कि पेड़ के स्तर पर सुविधा सबसेट का चयन करना अभी भी पेड़ों की वांछित सजावट को पूरा करेगा।
मेरा सिद्धांत: मैंने इस स्पष्ट रूप से कहीं और नहीं देखा है, लेकिन ऐसा लगता है कि यादृच्छिक उप-विधि विधि सुविधा के महत्व के अनुमान प्राप्त करने के मामले में कम कुशल होगी। प्रत्येक पेड़ के लिए चर महत्व के अनुमानों को प्राप्त करने के लिए, सुविधाओं को एक-एक करके बेतरतीब ढंग से अनुमति दी जाती है, और आउट-ऑफ-बैग टिप्पणियों के लिए त्रुटि में वृद्धि या त्रुटि में वृद्धि दर्ज की जाती है। इस यादृच्छिक क्रमपरिवर्तन से उत्पन्न होने वाले परिवर्तन जिनके कारण गर्भपात या त्रुटि बढ़ जाती है, वे सबसे बड़े महत्व वाले होते हैं।
यदि हम प्रत्येक पेड़ के लिए यादृच्छिक उप-विधि विधि का उपयोग करते हैं, तो हम केवल सुविधाओं के पर विचार कर रहे हैं । यह कई पेड़ लेने के सभी पर विचार करने के कर सकते हैं एक बार भी भविष्यवक्ताओं। दूसरी ओर, यदि हम एक अलग सबसेट पर विचार के सुविधाओं प्रत्येक नोड में , हम प्रत्येक सुविधा से अधिक बार कम पेड़ के बाद विचार करते हैं, हमें सुविधा महत्व का एक और अधिक मजबूत अनुमान देने होंगे।
मैंने इस प्रकार दूर तक देखा है: अब तक, मैंने ब्रीमन के पेपर और हो के पेपर को पढ़ा है, और एक निश्चित उत्तर नहीं पाकर तरीकों की तुलना के लिए एक व्यापक ऑनलाइन खोज की है। ध्यान दें कि इससे पहले एक समान प्रश्न पूछा गया था। यह सवाल मेरी अटकलों / काम को संभव समाधान की दिशा में शामिल करके थोड़ा आगे बढ़ जाता है। मुझे किसी भी उत्तर, प्रासंगिक उद्धरण, या सिमुलेशन अध्ययन में दो दृष्टिकोणों की तुलना करने में दिलचस्पी होगी। यदि कोई भी आगामी नहीं है, तो मैं दो तरीकों की तुलना करके अपना खुद का सिमुलेशन चलाने की योजना बना रहा हूं।