मैं 6 श्रेणियों के बीच भेदभाव करने के लिए रैंडम फ़ॉरेस्ट के साथ एक वर्गीकरण मॉडल का प्रशिक्षण दे रहा हूं। मेरे लेन-देन के डेटा में लगभग 60k + अवलोकन और 35 चर हैं। यहाँ एक उदाहरण है कि यह लगभग कैसा दिखता है।
_________________________________________________
|user_id|acquisition_date|x_var_1|x_var_2| y_vay |
|-------|----------------|-------|-------|--------|
|111 | 2013-04-01 | 12 | US | group1 |
|222 | 2013-04-12 | 6 | PNG | group1 |
|333 | 2013-05-05 | 30 | DE | group2 |
|444 | 2013-05-10 | 78 | US | group3 |
|555 | 2013-06-15 | 15 | BR | group1 |
|666 | 2013-06-15 | 237 | FR | group6 |
एक बार मॉडल बन जाने के बाद, मैं पिछले कुछ सप्ताह से अवलोकन करना चाहूंगा। जैसा कि सिस्टम में बदलाव हुए हैं, हाल ही में किए गए अवलोकन वर्तमान टिप्पणियों के वातावरण से अधिक निकटता से मेल खाते हैं, जिसकी मैं भविष्यवाणी करना चाहता हूं। इसलिए, मैं एक वजन चर बनाना चाहता हूं ताकि रैंडम फ़ॉरेस्ट हाल की टिप्पणियों पर अधिक महत्व दे।
क्या किसी को पता है कि आर में यादृच्छिकफोरस्ट पैकेज प्रति अवलोकन वजन को संभालने में सक्षम है?
इसके अलावा, क्या आप सुझाव दे सकते हैं कि वज़न चर बनाने के लिए एक अच्छी विधि क्या है? उदाहरण के लिए, जैसा कि मेरा डेटा 2013 से है, मैं सोच रहा था कि मैं महीने की तारीख को वजन के रूप में ले सकता हूं। क्या किसी को इस विधि के साथ कोई समस्या दिखाई देती है?
अग्रिम में बहुत धन्यवाद!