मुझे लगता है कि सबसे महत्वपूर्ण बात यह है कि आपके डेटा में नमूने अच्छी तरह से फैले हुए हैं, क्योंकि आपके पास कितना भी डेटा हो, अधिक डेटा हमेशा बेहतर होगा। आखिरकार, यदि आप बिल्ली और कुत्ते के चित्रों के बीच अंतर करना सीखने की कोशिश करते हैं, तो आप अपने मॉडल से अच्छे प्रदर्शन की उम्मीद नहीं कर सकते हैं यदि आप इसे केवल बिल्ली के चित्र खिलाते हैं।
के रूप में सुझाव दिया केविन एल द्वारा जवाब में कहा गया है , प्रशिक्षण त्रुटि और परीक्षण त्रुटि के बीच अंतर पर विचार करना समझ में आता है। यदि आपका परीक्षण डेटा आपके प्रशिक्षण डेटा से स्वतंत्र है, तो यह इस बात का संकेत देता है कि आपका मॉडल उस डेटा के सामान्यीकरण के लिए कितना अच्छा है जो अनुपलब्ध है। कुछ ऐसा जो मैं जोड़ना चाहूंगा वह यह है कि प्रशिक्षण और परीक्षण त्रुटि के बीच एक बड़ा अंतर केवल आपको बताता है कि आपका मॉडल अच्छी तरह से सामान्य नहीं होता है, अर्थात आप प्रशिक्षण डेटा पर ओवरफिट कर रहे हैं। अधिक डेटा शायद मदद करेगा, क्योंकि अब नेटवर्क को भी अतिरिक्त डेटा बिंदुओं को मॉडल करने की आवश्यकता होती है, इसलिए अब वह अधिक ओवरफिट नहीं कर सकता है। हालाँकि, अपने मॉडल को बदलने के लिए यह अधिक सार्थक हो सकता है कि यह सामान्य रूप से बेहतर हो। एक उत्कृष्ट पुस्तक का यह अध्याय बताते हैं कि किस प्रकार के नियमितीकरण मौजूद हैं और उन्हें नेटवर्क में कैसे लागू किया जा सकता है ताकि बेहतर सामान्यीकरण हो सके।
यदि आप अधिक मात्रात्मक माप की तलाश में थे, तो मैंने हाल ही में पाया यह प्रश्न क्वोरा पर पाया। यह एक ऑटो-एनकोडर के बारे में है, लेकिन मुझे लगता है कि यह आपके उदाहरण पर भी लागू होना चाहिए। मुझे नहीं पता कि क्या यह सही है (कृपया मुझे बताएं), लेकिन मैं इसका कारण होगा कि उदाहरण के लिए, MNIST के लिए, कोई यह तर्क दे सकता है कि आप अधिकतम 28 * 28 * 8 * 10 000 = 62 720 000 के साथ छवियों को कम करने की कोशिश करते हैं 10 * 10 * 10 000 = 1 000 000 बिट्स एन्ट्रापी के साथ एक-हॉट एन्कोडिंग में दस वर्गों के लिए बिट्स एन्ट्रापी। क्योंकि हम केवल उत्पादन में 1 000 000 बिट्स एन्ट्रापी में रुचि रखते हैं, हम कह सकते हैं कि 1 000 000 मापदंडों के साथ, प्रत्येक पैरामीटर एक एकल बिट का प्रतिनिधित्व करता है, जो प्रति नमूना 1e-4 बिट है। इसका मतलब है कि आपको अधिक डेटा की आवश्यकता होगी। या आपके पास बहुत अधिक पैरामीटर हैं, क्योंकि 100 मापदंडों के साथ, आपके पास प्रति पैरामीटर 10 000 बिट्स हैं और इसलिए प्रति नमूना 1 बिट है। तथापि,