मैं आर में कैरेट पैकेज का उपयोग वर्गीकरण और प्रतिगमन के लिए भविष्य कहनेवाला मॉडल बनाने के लिए कर रहा हूं । कैरेट क्रॉस सत्यापन या बूट स्टैपिंग द्वारा मॉडल हाइपर-मापदंडों को ट्यून करने के लिए एक एकीकृत इंटरफ़ेस प्रदान करता है। उदाहरण के लिए, यदि आप वर्गीकरण के लिए एक सरल 'निकटतम पड़ोसी' मॉडल बना रहे हैं, तो आपको कितने पड़ोसियों का उपयोग करना चाहिए? 2? 10? 100? कैरेट आपको अपने डेटा को फिर से सैंपल करके, अलग-अलग मापदंडों की कोशिश करके, और फिर परिणामों को कुल मिलाकर यह तय करने में मदद करता है कि कौन सी सबसे अच्छी भविष्यवाणी की सटीकता प्राप्त करता है।
मुझे यह दृष्टिकोण पसंद है क्योंकि यह मॉडल हाइपर-मापदंडों को चुनने के लिए एक मजबूत कार्यप्रणाली प्रदान करता है, और एक बार आपने अंतिम हाइपर-मापदंडों को चुना है, यह वर्गीकरण मॉडल के लिए सटीकता का उपयोग करके मॉडल को 'अच्छा' कैसे है, का एक क्रॉस-वैलिडेटेड अनुमान प्रदान करता है। और प्रतिगमन मॉडल के लिए आरएमएसई।
मेरे पास अब कुछ समय-श्रृंखला के डेटा हैं, जिनके लिए मैं एक प्रतिगमन मॉडल बनाना चाहता हूं, शायद एक यादृच्छिक वन का उपयोग कर रहा हूं। डेटा की प्रकृति को देखते हुए, मेरे मॉडल की अनुमानित सटीकता का आकलन करने के लिए एक अच्छी तकनीक क्या है? यदि यादृच्छिक वन वास्तव में समय श्रृंखला डेटा पर लागू नहीं होते हैं, तो समय श्रृंखला विश्लेषण के लिए एक सटीक पहनावा मॉडल बनाने का सबसे अच्छा तरीका क्या है?