मैं जानना चाहता हूं कि क्या नीचे वर्णित प्रक्रिया वैध / स्वीकार्य और उपलब्ध कोई औचित्य है।
यह विचार: पर्यवेक्षित शिक्षण एल्गोरिदम डेटा के बारे में अंतर्निहित संरचनाओं / वितरणों को नहीं मानते हैं। दिन के अंत में वे आउटपुट पॉइंट अनुमान लगाते हैं। मैं किसी भी तरह अनुमानों की अनिश्चितता की मात्रा की उम्मीद करता हूं। अब, एमएल मॉडल निर्माण की प्रक्रिया स्वाभाविक रूप से यादृच्छिक है (जैसे हाइपरपैरेट ट्यूनिंग के लिए क्रॉस-मान्यता के लिए नमूने में और स्टोचैस्टिक जीबीएम में सबसम्पलिंग में), इसलिए एक मॉडलिंग पाइपलाइन मुझे प्रत्येक अलग बीज वाले एक ही भविष्यवक्ता के लिए एक अलग आउटपुट देने जा रही है। मेरे (भोले) विचार को भविष्यवाणी के वितरण के साथ आने के लिए इस प्रक्रिया को बार-बार चलाना है, और मैं भविष्यवाणियों की अनिश्चितता के बारे में उम्मीद कर सकता हूं।
यदि यह मायने रखता है, तो मेरे साथ काम करने वाले डेटासेट आमतौर पर बहुत छोटे होते हैं (~ 200 पंक्तियों)।
इसका कोई मतलब भी है क्या?
स्पष्ट करने के लिए, मैं वास्तव में पारंपरिक अर्थों में डेटा बूटस्ट्रैपिंग नहीं कर रहा हूं (यानी मैं डेटा का पुन: नमूना नहीं बना रहा हूं)। एक ही डेटासेट का उपयोग हर पुनरावृत्ति में किया जाता है, मैं सिर्फ xval और stochastic GBM में यादृच्छिकता का शोषण कर रहा हूँ।