पुराना धागा, लेकिन मैं एक कंबल के बयान से सहमत नहीं हूं कि यादृच्छिक वन मॉडल के साथ कोलिनैरिटी एक मुद्दा नहीं है। जब डेटासेट में दो (या अधिक) सहसंबंधित विशेषताएं होती हैं, तो मॉडल के दृष्टिकोण से, इन सहसंबद्ध विशेषताओं में से किसी को भी अन्य के ऊपर एक ठोस वरीयता के साथ, भविष्यवक्ता के रूप में उपयोग किया जा सकता है।
हालांकि उनमें से एक का उपयोग करने के बाद, दूसरों की अहमियत काफी कम हो जाती है क्योंकि प्रभावी रूप से जिस अशुद्धता को वे हटा सकते हैं, वह पहले से ही पहले फीचर से दूर हो जाती है।
एक परिणाम के रूप में, उनके पास कम महत्व का महत्व होगा। यह एक मुद्दा नहीं है जब हम ओवरफिटिंग को कम करने के लिए सुविधा चयन का उपयोग करना चाहते हैं, क्योंकि यह उन विशेषताओं को हटाने के लिए समझ में आता है जो ज्यादातर अन्य सुविधाओं द्वारा दोहराए जाते हैं, लेकिन जब डेटा की व्याख्या करते हैं , तो यह गलत निष्कर्ष निकाल सकता है कि चर में से एक है एक मजबूत भविष्यवक्ता, जबकि एक ही समूह के अन्य लोग महत्वहीन हैं, जबकि वास्तव में वे प्रतिक्रिया चर के साथ अपने संबंधों के संदर्भ में बहुत करीब हैं।
प्रत्येक नोड निर्माण पर सुविधाओं के यादृच्छिक चयन के लिए इस घटना का प्रभाव कुछ हद तक कम हो जाता है, लेकिन सामान्य रूप से प्रभाव पूरी तरह से हटाया नहीं जाता है।
ऊपर से ज्यादातर यहां से लिखा गया है: अच्छी सुविधाओं का चयन करना
multicollinearity
यादृच्छिक वन मॉडल पर NO प्रभाव के रूप में देखा है । उदाहरण के लिए, यहां , सबसे उत्कीर्ण उत्तर का कहना है कि "यादृच्छिक वन मॉडल का कोई भी हिस्सा अत्यधिक कोलीनियर वैरिएबल द्वारा नुकसान नहीं पहुँचाता है"। क्या इसकी कोई मान्यता है?