मैं उच्च-आयामी समूहीकृत डेटा (50 संख्यात्मक इनपुट चर) पर यादृच्छिक वन का उपयोग कर रहा हूं, जिसमें एक श्रेणीबद्ध संरचना है। डेटा 70 अलग-अलग वस्तुओं के 30 पदों पर 6 प्रतिकृति के साथ एकत्र किए गए थे जिसके परिणामस्वरूप 12600 डेटा पॉइंट थे, जो स्वतंत्र नहीं हैं।
ऐसा लगता है कि रैंडम फ़ॉरेस्ट डेटा को ओवर-फिटिंग कर रहा है, क्योंकि ओब एरर एरर से बहुत छोटा होता है, जो हमें ट्रेनिंग के दौरान एक ऑब्जेक्ट से डेटा छोड़ने पर मिलता है और उसके बाद ट्रेनिंग रैंडम फ़ॉरेस्ट के साथ लेफ्ट आउट ऑब्जेक्ट के परिणाम की भविष्यवाणी करता है। इसके अलावा मैंने अवशिष्टों को सहसंबद्ध किया है।
मुझे लगता है कि ओवरफिटिंग के कारण होता है क्योंकि यादृच्छिक वन स्वतंत्र डेटा की उम्मीद कर रहे हैं। क्या डेटा के पदानुक्रमित संरचना के बारे में यादृच्छिक वन को बताना संभव है? या फिर एक और शक्तिशाली पहनावा या सिकुड़न विधि है जो एक मजबूत इंटरैक्शन संरचना के साथ उच्च-आयामी समूहीकृत डेटा को संभाल सकती है?
कोई संकेत कैसे मैं बेहतर कर सकता हूं?