मैं एक पेपर मिल के प्रदर्शन पर पूर्वानुमान बनाने के लिए आरएफ प्रतिगमन का उपयोग करने का प्रयास कर रहा हूं।
मेरे पास इनपुट्स (लकड़ी की लुगदी आदि की दर और मात्रा ...) के साथ-साथ मशीन के प्रदर्शन (कागज का उत्पादन, मशीन द्वारा तैयार की गई शक्ति) और मैं भविष्यवाणियां करने में 10 मिनट लगा रहा हूं। प्रदर्शन चर पर आगे।
मुझे 12 महीने का डेटा मिला है, इसलिए प्रशिक्षण सेट के लिए इसे 11 महीने में अलग कर दिया है, और परीक्षण के लिए अंतिम महीना।
अब तक मैंने 10 नई सुविधाएँ बनाई हैं जो प्रत्येक प्रदर्शन चर के लिए 1-10 मिनट के मान से पिछड़ी हुई हैं, और भविष्यवाणियां करने के लिए इनका उपयोग इनपुट के रूप में भी किया है। टेस्ट सेट पर प्रदर्शन काफी अच्छा रहा है (सिस्टम काफी अनुमानित है), लेकिन मुझे चिंता है कि मैं अपने दृष्टिकोण में कुछ याद कर रहा हूं।
उदाहरण के लिए, इस पत्र में , लेखक अपने यादृच्छिक वन मॉडल की भविष्य कहनेवाला क्षमता के परीक्षण में अपना दृष्टिकोण बताते हैं:
अनुवर्ती रूप से डेटा के एक नए सप्ताह को जोड़ते हुए सिमुलेशन आगे बढ़ता है, अपडेट किए गए डेटा के आधार पर एक नए मॉडल को प्रशिक्षित करता है, और अगले सप्ताह के लिए प्रकोपों की संख्या की भविष्यवाणी करता है
यह परीक्षण के रूप में समय श्रृंखला में 'बाद के' डेटा के उपयोग से कैसे अलग है? क्या मुझे अपने आरएफ प्रतिगमन मॉडल को इस दृष्टिकोण के साथ-साथ परीक्षण डेटा सेट पर मान्य करना चाहिए? इसके अलावा, इस प्रकार का 'वनस्पतिक' दृष्टिकोण यादृच्छिक वन प्रतिगमन के लिए समय श्रृंखला के लिए मान्य है, और क्या मुझे भविष्य में 10 मिनट की भविष्यवाणी में दिलचस्पी है, तो क्या मुझे इस तरह के कई परिवर्तनशील चर बनाने की आवश्यकता है?