किसी भी सवाल पर एक सांख्यिकीविद् से पूछें और उनका उत्तर "यह निर्भर करता है" का कुछ रूप होगा।
यह निर्भर करता है । मॉडल के प्रकार के अलावा (अच्छे बिंदु केबेलेइट्स!), प्रशिक्षण सेट बिंदुओं की संख्या और भविष्यवक्ताओं की संख्या? यदि मॉडल वर्गीकरण के लिए है, तो एक बड़े वर्ग के असंतुलन से मुझे पुनरावृत्ति की संख्या में वृद्धि होगी। इसके अलावा, यदि मैं एक फीचर चयन प्रक्रिया को फिर से शुरू कर रहा हूं, तो मैं खुद को और अधिक resamples के प्रति पूर्वाग्रह करूंगा।
इस संदर्भ में उपयोग की जाने वाली किसी भी पुनरुत्पादन विधि के लिए, याद रखें कि (शास्त्रीय बूटस्ट्रैपिंग के विपरीत), आपको केवल वितरण के साधनों का "सटीक पर्याप्त" अनुमान प्राप्त करने के लिए पर्याप्त पुनरावृत्तियों की आवश्यकता है। यह व्यक्तिपरक है लेकिन कोई भी उत्तर होगा।
एक दूसरे के लिए दो वर्गों के साथ वर्गीकरण के साथ चिपके हुए, मान लें कि आप मॉडल की सटीकता के बारे में 0.80 की उम्मीद करते हैं। चूंकि रेज़मैपलिंग प्रक्रिया सटीकता अनुमान (कहना p
) का नमूना ले रही है , इसलिए मानक त्रुटि वह होगी sqrt[p*(1-p)]/sqrt(B)
जहां B
रेज़मैल्स की संख्या है। B = 10
सटीकता के लिए , मानक त्रुटि 0.13 है और इसके साथ B = 100
लगभग 0.04 है। आप इस फॉर्मूले का उपयोग इस विशेष मामले के लिए एक मोटे गाइड के रूप में कर सकते हैं।
यह भी विचार करें कि, इस उदाहरण में, सटीकता का विचरण अधिकतम है जो आपको 0.50 के करीब मिलता है, इसलिए एक सटीक मॉडल को कम प्रतिकृति की आवश्यकता होनी चाहिए क्योंकि मानक त्रुटि उन मॉडल की तुलना में कम होनी चाहिए जो कमजोर शिक्षार्थी हैं।
HTH,
मैक्स