बड़े सत्यापन सेट आउट-ऑफ-सैंपल प्रदर्शन के अधिक सटीक अनुमान देते हैं। लेकिन जैसा कि आपने देखा है कि कुछ बिंदु पर अनुमान उतना सटीक हो सकता है जितना आपको इसकी आवश्यकता हो, और आप उस बिंदु तक पहुंचने के लिए आवश्यक सत्यापन नमूना आकार के अनुसार कुछ मोटे अनुमान लगा सकते हैं।
सरल सही / गलत वर्गीकरण सटीकता के लिए, आप के रूप में अनुमान की मानक त्रुटि की गणना कर सकते (बर्नौली चर का मानक विचलन), जहांpएक सही वर्गीकरण की संभावना है, औरnसत्यापन सेट का आकार है। बेशक आपपी कोनहीं जानते हैं, लेकिन आपको इसकी सीमा का कुछ अंदाजा हो सकता है। उदाहरण के लिए, मान लें कि आप 60-80% के बीच सटीकता की उम्मीद करते हैं, और आप चाहते हैं कि आपके अनुमान में मानक त्रुटि 0.1% से कम हो:
anp(1−p)/n−−−−−−−−−√pnpn(सत्यापन सेट का आकार)
कितना बड़ा होनाचाहिए? के लिएपी=0.6हम पाते हैं:
n> 0.6 - 0.6 2
p(1−p)/n−−−−−−−−−√<0.001
np=0.6
के लिए
पी=0.8हम पाते हैं:
n>0.8-0.82n>0.6−0.620.0012=240,000
p=0.8
तो यह बताता है कि आप सत्यापन के लिए अपने 5 मिलियन डेटा नमूनों में से 5% से कम का उपयोग करके दूर हो सकते हैं। यदि आप उच्च प्रदर्शन की अपेक्षा करते हैं, तो यह प्रतिशत नीचे जाता है, या विशेष रूप से यदि आप अपने आउट-ऑफ-सैंपल प्रदर्शन अनुमान की निम्न मानक त्रुटि से संतुष्ट हैं (जैसे
p=0.7और se <1% के लिए, तो आपको केवल 2100 सत्यापन नमूनों की आवश्यकता है , या आपके डेटा के बीस प्रतिशत से कम)।
n>0.8−0.820.0012=160,000
p=0.7
ये गणनाएँ टिम द्वारा बनाए गए बिंदु को भी अपने उत्तर में दर्शाती हैं, कि आपके अनुमानों की सटीकता आपके सत्यापन सेट के निरपेक्ष आकार पर निर्भर करती है (यानी पर ), इसके आकार के बजाय प्रशिक्षण सेट के सापेक्ष।n
((मैं यह भी जोड़ सकता हूं कि मैं यहां प्रतिनिधि नमूना ग्रहण कर रहा हूं। यदि आपका डेटा बहुत विषम है तो आपको यह सुनिश्चित करने के लिए बड़े सत्यापन सेट का उपयोग करने की आवश्यकता हो सकती है कि सत्यापन डेटा में आपकी ट्रेन और परीक्षण डेटा जैसी सभी शर्तें शामिल हैं)। )