मेरे पास कुछ पूर्वानुमानित मॉडल हैं, जिनका प्रदर्शन मैं बैक-टेस्ट करना चाहता हूं (अर्थात, मेरे डेटासेट को "रिवाइंड" करके इसे पिछले बिंदु तक ले जाऊंगा और फिर देखूंगा कि मॉडल ने कैसा प्रदर्शन किया है)।
समस्या यह है कि मेरे कुछ मॉडल एक इंटरैक्टिव प्रक्रिया के माध्यम से बनाए गए थे। उदाहरण के लिए, फ्रैंक हरेल के प्रतिगमन मॉडलिंग रणनीतियों में सलाह का पालन करते हुए , एक मॉडल में मैंने सुविधाओं और प्रतिक्रिया के बीच संभव नॉनलाइनियर संघों को संभालने के लिए प्रतिबंधित क्यूबिक स्प्लिन का उपयोग किया। मैंने डोमेन ज्ञान और एसोसिएशन की ताकत के अविभाज्य उपायों के संयोजन के आधार पर प्रत्येक स्पलाइन की स्वतंत्रता की डिग्री आवंटित की। लेकिन स्वतंत्रता की डिग्री जिसे मैं अपने मॉडल की अनुमति देना चाहता हूं स्पष्ट रूप से डेटासेट के आकार पर निर्भर करता है, जो कि बैकिंग करते समय नाटकीय रूप से भिन्न होता है। अगर मैं हर बार अलग-अलग आजादी की डिग्री को हाथ से नहीं खींचना चाहता, जिस पर मॉडल का समर्थन किया जाता है, तो मेरे अन्य विकल्प क्या हैं?
एक अन्य उदाहरण के लिए, मैं वर्तमान में उच्च उत्तोलन के साथ अंक खोजने के माध्यम से बाह्य पहचान पर काम कर रहा हूं। अगर मुझे हाथ से ऐसा करने में खुशी होती है, तो मैं बस प्रत्येक हाई-लीवरेज डेटा बिंदु, स्वच्छता-जांच को देखूंगा कि डेटा साफ था, और या तो इसे फ़िल्टर करें या इसे हाथ से साफ़ करें। लेकिन यह डोमेन ज्ञान के एक समूह पर निर्भर करता है, इसलिए मुझे नहीं पता कि प्रक्रिया को कैसे स्वचालित किया जाए।
मैं मॉडल-निर्माण प्रक्रिया के इंटरेक्टिव भागों को स्वचालित करने की सामान्य समस्या (या इन दोनों मामलों के लिए विशिष्ट सलाह) दोनों की सलाह और समाधान की सराहना करता हूं। धन्यवाद!