मैं नमूनों की तुलना में अधिक भविष्यवक्ताओं के साथ "विस्तृत" डेटासेट में निरंतर परिणाम की व्याख्या करने की कोशिश करने के लिए एक यादृच्छिक वन मॉडल विकसित करने के लिए आर में यादृच्छिकतम पैकेज का उपयोग कर रहा हूं।
विशेष रूप से, मैं एक आरएफ मॉडल फिटिंग कर रहा हूं, जो प्रक्रिया को ~ 75 भविष्यवक्ता चर के एक सेट से चुनने की अनुमति देता है जो मुझे लगता है कि महत्वपूर्ण हैं।
मैं इस बात का परीक्षण कर रहा हूं कि मॉडल पहले से पोस्ट किए गए दृष्टिकोण का उपयोग करके, एक आरक्षित परीक्षण सेट के लिए वास्तविक परिणाम की कितनी अच्छी भविष्यवाणी करता है , अर्थात्
... या आर में:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
लेकिन अब मेरे पास एक अतिरिक्त ~ 25 भविष्यवक्ता चर हैं जिन्हें मैं जोड़ सकता हूं। ~ 100 भविष्यवाणियों के सेट का उपयोग करते समय, R higher अधिक होता है। मैं दूसरे शब्दों में सांख्यिकीय रूप से इस परीक्षण करने के लिए, चाहते हैं, जब ~ 100 भविष्यवक्ताओं के सेट का उपयोग कर, मॉडल परीक्षण करता है काफी बेहतर ~ 75 भविष्यवक्ताओं का उपयोग कर मॉडल फिट से डेटा के परीक्षण में। यानी, कम डेटासेट पर RF मॉडल के परीक्षण से R is की तुलना में पूर्ण डेटासेट पर RF मॉडल के फिट होने के परीक्षण से R² है।
यह मेरे लिए परीक्षण करने के लिए महत्वपूर्ण है, क्योंकि यह पायलट डेटा है, और उन अतिरिक्त 25 भविष्यवक्ताओं को प्राप्त करना महंगा था, और मुझे यह जानने की जरूरत है कि क्या मुझे एक बड़े अनुवर्ती अध्ययन में उन भविष्यवक्ताओं को मापने के लिए भुगतान करना चाहिए।
मैं किसी तरह की resampling / क्रमचय दृष्टिकोण के बारे में सोचने की कोशिश कर रहा हूं, लेकिन कुछ भी समझ में नहीं आता है।