यादृच्छिक वन विकृत सटीकता और सुविधा-चयन में अत्यधिक सहसंबद्ध चर नहीं होंगे?


32

मेरी समझ में, अत्यधिक सहसंबद्ध चर यादृच्छिक वन मॉडल में बहु-संप्रभुता मुद्दों का कारण नहीं बनेंगे (कृपया मुझे गलत समझें तो सही करें)। हालांकि, दूसरे तरीके से, अगर मेरे पास समान जानकारी वाले कई चर हैं, तो क्या मॉडल का वजन दूसरों के बजाय इस सेट पर बहुत अधिक होगा?

उदाहरण के लिए, सूचनाओं के दो सेट हैं (ए, बी) एक ही भविष्य कहनेवाला शक्ति के साथ। चर , एक्स 2 , ... एक्स 1000 में सभी जानकारी ए होती है, और केवल वाई में जानकारी बी होती है। जब यादृच्छिक नमूने चर होते हैं, तो क्या अधिकांश पेड़ सूचना ए पर विकसित होंगे, और परिणामस्वरूप सूचना बी पूरी तरह से कब्जा नहीं किया जाता है?एक्स1एक्स2एक्स1000

जवाबों:


19

यह सही है, लेकिन इसलिए उन सभी उप-नमूनों में जहां चर वाई उपलब्ध था, यह सबसे अच्छा संभव विभाजन का उत्पादन करेगा।

आप mtry बढ़ाने की कोशिश कर सकते हैं, यह सुनिश्चित करने के लिए कि यह अधिक बार होता है।

आप या तो पुनरावर्ती सहसंबंध छंटाई की कोशिश कर सकते हैं, जो बारी-बारी से दो चर में से एक को हटाने के लिए होता है जिनके साथ सबसे अधिक संबंध होता है। एक समझदार इस छंटाई को रोकने के लिए सीमा हो सकता है कि सहसंबंध (पियर्सन) के किसी भी जोड़ी से कम है आर2<.7

आप पुनरावर्ती परिवर्तनीय महत्व की कोशिश कर सकते हैं, जो कि हटाने के लिए बदल जाता है, उदाहरण के लिए सबसे कम चर महत्व के साथ 20%। रैंडम फॉरेस्ट पैकेज से उदाहरण के लिए rfcv आज़माएं।

आप अपने निरर्थक चर के कुछ अपघटन / एकत्रीकरण का प्रयास कर सकते हैं।


3
कुछ स्रोतों में, मैंने multicollinearityयादृच्छिक वन मॉडल पर NO प्रभाव के रूप में देखा है । उदाहरण के लिए, यहां , सबसे उत्कीर्ण उत्तर का कहना है कि "यादृच्छिक वन मॉडल का कोई भी हिस्सा अत्यधिक कोलीनियर वैरिएबल द्वारा नुकसान नहीं पहुँचाता है"। क्या इसकी कोई मान्यता है?
बजे

5
मुझे लगता है कि आप NO को अक्षरश: पढ़ रहे हैं। आरएफ मॉडल बहुत अच्छी तरह से सहसंबद्ध / निरर्थक चर संभालते हैं, हाँ। लेकिन इसका मतलब यह नहीं है कि आपके मॉडल जरूरी असंबंधित या पूरी तरह से निरर्थक चर (जैसे रैखिक पुनर्संयोजन) से लाभ उठाते हैं, यह दुर्घटना भी नहीं करता है। मैं केवल क्रॉस वेरिफाइड मॉडल प्रदर्शन के मामूली सुधार की उम्मीद करने के लिए मामूली चर चयन की वकालत करता हूं।
सोरेन हवेलुंड वेलिंग

24

पुराना धागा, लेकिन मैं एक कंबल के बयान से सहमत नहीं हूं कि यादृच्छिक वन मॉडल के साथ कोलिनैरिटी एक मुद्दा नहीं है। जब डेटासेट में दो (या अधिक) सहसंबंधित विशेषताएं होती हैं, तो मॉडल के दृष्टिकोण से, इन सहसंबद्ध विशेषताओं में से किसी को भी अन्य के ऊपर एक ठोस वरीयता के साथ, भविष्यवक्ता के रूप में उपयोग किया जा सकता है।

हालांकि उनमें से एक का उपयोग करने के बाद, दूसरों की अहमियत काफी कम हो जाती है क्योंकि प्रभावी रूप से जिस अशुद्धता को वे हटा सकते हैं, वह पहले से ही पहले फीचर से दूर हो जाती है।

एक परिणाम के रूप में, उनके पास कम महत्व का महत्व होगा। यह एक मुद्दा नहीं है जब हम ओवरफिटिंग को कम करने के लिए सुविधा चयन का उपयोग करना चाहते हैं, क्योंकि यह उन विशेषताओं को हटाने के लिए समझ में आता है जो ज्यादातर अन्य सुविधाओं द्वारा दोहराए जाते हैं, लेकिन जब डेटा की व्याख्या करते हैं , तो यह गलत निष्कर्ष निकाल सकता है कि चर में से एक है एक मजबूत भविष्यवक्ता, जबकि एक ही समूह के अन्य लोग महत्वहीन हैं, जबकि वास्तव में वे प्रतिक्रिया चर के साथ अपने संबंधों के संदर्भ में बहुत करीब हैं।

प्रत्येक नोड निर्माण पर सुविधाओं के यादृच्छिक चयन के लिए इस घटना का प्रभाव कुछ हद तक कम हो जाता है, लेकिन सामान्य रूप से प्रभाव पूरी तरह से हटाया नहीं जाता है।

ऊपर से ज्यादातर यहां से लिखा गया है: अच्छी सुविधाओं का चयन करना


3
यह आरएफ के साथ फीचर चयन के लिए मेरा लेख है, क्योंकि चर महत्व को अक्सर मीट्रिक bmcbioinformatics.biomedcentral.com/articles/10.1186/ के रूप में उपयोग किया जाता है। दो साल पहले से मैं फ़ीचर चयन के बारे में अधिक उलझन में हो गया हूं। चयन चयन की अधिकता को पार करता है -परिवर्तन अगर एक उचित बाहरी क्रॉस-सत्यापन पाश के भीतर नहीं किया गया है। यदि ठीक से किया जाता है, तो मैं अक्सर कोई नहीं या केवल भविष्यवाणी प्रदर्शन के बहुत कम अनुकूलन देखता हूं। अब मैं मुख्य रूप से उत्पादन में भविष्यवाणी मशीनों को सरल बनाने या अंतिम मॉडल को अधिक पारदर्शी बनाने के लिए फीचर चयन का उपयोग करता हूं।
सोरेन हवेलुंड वेलिंग

@SorenHavelundWelling - आप कहते हैं कि "फ़ीचर चयन पैदावार को पार कर जाता है, यदि उचित बाहरी क्रॉस-वैल्यूएशन लूप के भीतर नहीं किया गया है"। क्या आप उसे समझा सकते हैं, या उस स्रोत का संदर्भ दे सकते हैं जो समझा रहा है? यह मेरे द्वारा अब तक पढ़ी गई हर चीज के खिलाफ जाता है ...
16:27 पर जैक फ्लीटिंग

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.