यह वास्तव में आपके पास मौजूद डेटा की मात्रा, तरीकों की विशिष्ट लागत और वास्तव में आप अपना परिणाम कैसे चाहते हैं, पर निर्भर करता है।
कुछ उदाहरण:
यदि आपके पास बहुत कम डेटा है, तो आप शायद क्रॉस-वैलिडेशन (k- गुना, लीव-वन-आउट, आदि) का उपयोग करना चाहते हैं। आपका मॉडल संभवतः किसी भी तरह से प्रशिक्षित और परीक्षण करने के लिए अधिक संसाधन नहीं लेगा। यह आपके डेटा का अधिकतम लाभ उठाने के अच्छे तरीके हैं
आपके पास बहुत अधिक डेटा है: आप संभवतः एक बड़ा परीक्षण सेट लेना चाहते हैं, यह सुनिश्चित करते हुए कि बहुत कम संभावना होगी कि कुछ अजीब नमूने आपके परिणामों को बहुत अधिक विचरण देंगे। आपको कितना डेटा लेना चाहिए? यह आपके डेटा और मॉडल पर पूरी तरह से निर्भर करता है। उदाहरण के लिए भाषण मान्यता में, यदि आप बहुत अधिक डेटा लेते हैं (मान लें कि 3000 वाक्य), तो आपके प्रयोगों में कुछ दिन लगेंगे, क्योंकि 7-10 का रियलटाइम कारक आम है। यदि आप बहुत कम लेते हैं, तो यह उन वक्ताओं पर बहुत अधिक निर्भर करता है जिन्हें आप चुन रहे हैं (जो प्रशिक्षण सेट में अनुमति नहीं है)।
यह भी याद रखें, बहुत सारे मामलों में सत्यापन / विकास सेट होना भी अच्छा है!