समूहीकृत डेटा पर यादृच्छिक वन


11

मैं उच्च-आयामी समूहीकृत डेटा (50 संख्यात्मक इनपुट चर) पर यादृच्छिक वन का उपयोग कर रहा हूं, जिसमें एक श्रेणीबद्ध संरचना है। डेटा 70 अलग-अलग वस्तुओं के 30 पदों पर 6 प्रतिकृति के साथ एकत्र किए गए थे जिसके परिणामस्वरूप 12600 डेटा पॉइंट थे, जो स्वतंत्र नहीं हैं।

ऐसा लगता है कि रैंडम फ़ॉरेस्ट डेटा को ओवर-फिटिंग कर रहा है, क्योंकि ओब एरर एरर से बहुत छोटा होता है, जो हमें ट्रेनिंग के दौरान एक ऑब्जेक्ट से डेटा छोड़ने पर मिलता है और उसके बाद ट्रेनिंग रैंडम फ़ॉरेस्ट के साथ लेफ्ट आउट ऑब्जेक्ट के परिणाम की भविष्यवाणी करता है। इसके अलावा मैंने अवशिष्टों को सहसंबद्ध किया है।

मुझे लगता है कि ओवरफिटिंग के कारण होता है क्योंकि यादृच्छिक वन स्वतंत्र डेटा की उम्मीद कर रहे हैं। क्या डेटा के पदानुक्रमित संरचना के बारे में यादृच्छिक वन को बताना संभव है? या फिर एक और शक्तिशाली पहनावा या सिकुड़न विधि है जो एक मजबूत इंटरैक्शन संरचना के साथ उच्च-आयामी समूहीकृत डेटा को संभाल सकती है?

कोई संकेत कैसे मैं बेहतर कर सकता हूं?


पदानुक्रमित डेटा की प्रकृति क्या है? क्या यह आपको डेटा की पत्तियों को अपने डेटा बिंदुओं के रूप में उपयोग करने की अनुमति देता है?
कैस्परऑन

1
क्या आपने व्यक्ति के बजाय पदानुक्रम के उच्चतम स्तर को बूटस्ट्रैपिंग माना है?
जेनेरिक_सर

जवाबों:


1

पार्टी के लिए बहुत देर हो चुकी है, लेकिन मुझे लगता है कि कुछ साल पहले मैंने जो कुछ किया उससे संबंधित हो सकता है। वह काम यहाँ प्रकाशित हुआ:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379

और निर्णय वृक्षों के पहनावे में परिवर्तनशील सहसंबंध से निपटने के बारे में है। आपको इस प्रकार की समस्याओं (जो "आनुवांशिक" क्षेत्र में आम है) से निपटने के लिए कई प्रस्ताव की ओर इशारा करने वाली ग्रंथ सूची पर एक नज़र होनी चाहिए।

स्रोत कोड यहां उपलब्ध है (लेकिन वास्तव में अब इसका रखरखाव नहीं किया गया है)।


-1

रैंडम फ़ॉरेस्ट का ओवर-फिटिंग विभिन्न कारणों से हो सकता है, और यह आरएफ मापदंडों पर अत्यधिक निर्भर करता है। यह आपके पोस्ट से स्पष्ट नहीं है कि आपने अपने आरएफ को कैसे ट्यून किया है।

यहां कुछ सुझाव दिए गए हैं जो मदद कर सकते हैं:

  1. पेड़ों की संख्या बढ़ाई जाए

  2. पेड़ों की अधिकतम गहराई ट्यून। यह पैरामीटर अत्यधिक समस्या पर निर्भर करता है। छोटे पेड़ों का उपयोग ओवरफिटिंग की समस्या से निपटने में मदद कर सकता है।


2
पार्टी के लिए बहुत देर हो चुकी है, लेकिन यह जवाब डेटा सेट के एक पदानुक्रमित प्रकृति के कारण किसी भी समस्या का समाधान नहीं करेगा।
साइबेल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.