जब चयनित सुविधाओं की संख्या कम हो जाती है, तो यादृच्छिक वन OOB त्रुटि का अनुमान क्यों सुधारता है?


14

मैं एक माइक्रोएरे डेटासेट पर एक क्लासिफायरियर के रूप में एक यादृच्छिक वन एल्गोरिथ्म लागू कर रहा हूं जो विभिन्न विशेषताओं के साथ दो ज्ञात समूहों में विभाजित हैं। प्रारंभिक रन के बाद मैं सुविधाओं के महत्व को देखता हूं और 5, 10 और 20 सबसे महत्वपूर्ण विशेषताओं के साथ फिर से ट्री एल्गोरिथ्म चलाता हूं। मुझे लगता है कि सभी सुविधाओं के लिए, शीर्ष 10 और 20 कि त्रुटि दर का ओओबी अनुमान 1.19% है जहां शीर्ष 5 सुविधाओं के लिए यह 0% है। यह मेरे लिए प्रति-सहज लगता है, इसलिए मैं सोच रहा था कि क्या आप बता सकते हैं कि मुझे कुछ याद आ रहा है या मैं गलत मीट्रिक का उपयोग कर रहा हूं।

मैं R में ntree = 1000 के साथ randomForest पैकेज का उपयोग कर रहा हूं, nodesize = 1 और mtry = sqrt ()


2
बस स्पष्ट होने के लिए: क्या आप आरएफ को एक पुनरावृत्त तरीके से लागू कर रहे हैं, जो कि पूरे इनपुट स्थान से शीर्ष रैंक वाली सुविधाओं (गिनी सूचकांक के अनुसार या एमएसई में कमी) का चयन करके है? मुझे पता है कि बढ़ती पेड़ों की संख्या के साथ आरएफ आवश्यक रूप से सुधार नहीं कर सकते हैं, लेकिन आप जो दर्शा रहे हैं वह समझ में आता है (सबसे अच्छी सुविधाओं को 100% सटीकता के साथ भविष्यवाणी करने की अनुमति है ओओबी नमूने), हालांकि इस तरह से आगे बढ़ने पर स्पष्ट रूप से ओवरफिटिंग का खतरा होता है। ।
chl

हां, मैं यही कर रहा हूं
danielsbrewer

2
@chl, क्या आप बता सकते हैं कि केवल 5 सुविधाओं का उपयोग करके ओवरफ़िटिंग का जोखिम क्यों है?
tashuhka

जवाबों:


15

यह फ़ीचर चयन ओवरफिट है और यह बहुत ज्ञात है - देखें एम्ब्रोइज़ एंड मैक्लाक्लन 2002 । समस्या इस तथ्य पर आधारित है कि RF बहुत स्मार्ट है और वस्तुओं की संख्या बहुत कम है। बाद के मामले में, यह आमतौर पर बेतरतीब ढंग से विशेषता बनाने के लिए बहुत आसान है जो निर्णय के साथ अच्छा संबंध हो सकता है। और जब विशेषताओं की संख्या बड़ी होती है, तो आप निश्चित हो सकते हैं कि कुछ पूरी तरह से अप्रासंगिक वाले बहुत अच्छे भविष्यवक्ता होंगे, यहां तक ​​कि एक क्लस्टर बनाने के लिए पर्याप्त है जो 100% में निर्णय को फिर से बनाने में सक्षम होगा, खासकर जब विशाल लचीलापन RF को माना जाता है। और इसलिए, यह स्पष्ट हो जाता है कि जब विशेषताओं के सर्वोत्तम संभव सबसेट को खोजने का निर्देश दिया जाता है, तो एफएस प्रक्रिया इस क्लस्टर को ढूंढती है।
एक समाधान (CV) A & McL में दिया गया है, आप इस विषय पर हमारे दृष्टिकोण का परीक्षण कर सकते हैं,बोरुता एल्गोरिथ्म , जो मूल रूप से डिजाइन द्वारा यादृच्छिक बनाने के लिए "छाया विशेषताओं" के साथ सेट का विस्तार करता है और वास्तविक गुणों के लिए उनके आरएफ महत्व की तुलना यह निर्धारित करने के लिए करता है कि उनमें से कौन सा वास्तव में यादृच्छिक हैं और उन्हें हटाया जा सकता है; यह महत्वपूर्ण होने के लिए कई बार दोहराया जाता है। बोरुटा का उद्देश्य थोड़ा अलग काम करना है, लेकिन जहां तक ​​मेरे परीक्षणों से पता चला है, परिणामस्वरूप सेट FS ओवरफिट समस्या से मुक्त है।


2

मैंने सोचा कि मैं इस पैटर्न के लिए एक सहज व्याख्या जोड़ूंगा।

प्रत्येक निर्णय वृक्ष में यादृच्छिक वन शामिल होते हैं, डेटा एकल आयामों के साथ पुनरावृत्त होते हैं। महत्वपूर्ण रूप से, इस प्रक्रिया में शामिल है

1) सभी व्याख्यात्मक चर के केवल एक छोटे, बेतरतीब ढंग से चयनित सबसेट पर विचार करना, और

2) डेटा को विभाजित करने के लिए इस बेतरतीब ढंग से चयनित चर सबसेट के भीतर सबसे दृढ़ता से जुड़े व्याख्यात्मक चर का चयन करना।

इसलिए, किसी भी विशेष नोड पर चुने जाने वाले n सबसे महत्वपूर्ण चर की संभावना कम हो जाती है क्योंकि व्याख्यात्मक चर की संख्या बढ़ जाती है। इसलिए, यदि कोई बड़ी संख्या में वैरिएबल में जोड़ता है जो कि कम-से-कम व्याख्यात्मक शक्ति का योगदान देता है, तो यह स्वचालित रूप से वन की त्रुटि दर में वृद्धि की ओर जाता है। और इसके विपरीत, समावेशन के लिए केवल सबसे महत्वपूर्ण चर का चयन करने से त्रुटि दर में कमी की संभावना होगी।

यादृच्छिक वन इसके लिए काफी मजबूत हैं और इसे आमतौर पर प्रदर्शन को सार्थक रूप से कम करने के लिए इन 'शोर' मापदंडों के बहुत बड़े अतिरिक्त की आवश्यकता होती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.