जब आप एक बड़े डेटासेट के लिए मॉडल फिट करने की कोशिश कर रहे हैं, तो आम सलाह डेटा को तीन भागों में विभाजित करना है: प्रशिक्षण, सत्यापन और परीक्षण डेटासेट।
ऐसा इसलिए है क्योंकि मॉडल में आमतौर पर मापदंडों के तीन "स्तर" होते हैं: पहला "पैरामीटर" मॉडल वर्ग (जैसे एसवीएम, तंत्रिका नेटवर्क, यादृच्छिक वन) है, मापदंडों का दूसरा सेट "नियमितीकरण" पैरामीटर या "हाइपरपरमेटर्स" हैं ( उदाहरण के लिए लास्सो दंड गुणांक, गिरी का विकल्प, तंत्रिका नेटवर्क संरचना) और तीसरा सेट वह है जिसे आमतौर पर "पैरामीटर" माना जाता है (जैसे सहसंयोजकों के लिए गुणांक।)
एक मॉडल वर्ग और हाइपरपैरेटर्स की पसंद को देखते हुए, कोई भी पैरामीटर चुनकर उन मापदंडों का चयन करता है जो प्रशिक्षण सेट पर त्रुटि को कम करते हैं। एक मॉडल वर्ग को देखते हुए, सत्यापन सेट पर त्रुटि को कम करके हाइपरपरमीटर को ट्यून करता है। एक परीक्षण सेट पर प्रदर्शन के द्वारा मॉडल वर्ग का चयन करता है।
लेकिन अधिक विभाजन क्यों नहीं? अक्सर कोई हाइपरपरमेटर्स को दो समूहों में विभाजित कर सकता है, और दूसरे को फिट करने के लिए पहले और "सत्यापन 2" को फिट करने के लिए "सत्यापन 1" का उपयोग करता है। या कोई भी प्रशिक्षण डेटा / सत्यापन डेटा विभाजन के आकार का इलाज एक हाइपरपरमीटर के रूप में किया जा सकता है।
क्या यह पहले से ही कुछ अनुप्रयोगों में एक आम बात है? क्या डेटा के इष्टतम विभाजन पर कोई सैद्धांतिक काम है?