मुझे पता है कि क्लासिफायर के प्रदर्शन का उपयोग करने के लिए मुझे डेटा को प्रशिक्षण / परीक्षण सेट में विभाजित करना होगा। लेकिन इसे पढ़ना :
जब आकलनकर्ताओं के लिए विभिन्न सेटिंग्स ("हाइपरपरमेटर्स") का मूल्यांकन करते हैं, जैसे कि सी सेटिंग जो मैन्युअल रूप से एक एसवीएम के लिए निर्धारित की जानी चाहिए, परीक्षण सेट पर अभी भी ओवरफिटिंग का खतरा है क्योंकि पैरामीटर को तब तक ट्विस्ट किया जा सकता है जब तक कि अनुमानकर्ता को आशावादी रूप से प्राप्त नहीं किया जाता है। इस तरह, परीक्षण सेट के बारे में ज्ञान मॉडल और मूल्यांकन मेट्रिक्स में "लीक" कर सकता है जो अब सामान्यीकरण प्रदर्शन पर रिपोर्ट नहीं करता है। इस समस्या को हल करने के लिए, डेटासेट के एक अन्य भाग को तथाकथित "सत्यापन सेट" के रूप में रखा जा सकता है: प्रशिक्षण सेट पर प्रशिक्षण आय, जिसके बाद मूल्यांकन सेट पर मूल्यांकन किया जाता है, और जब प्रयोग सफल होता है , अंतिम मूल्यांकन परीक्षण सेट पर किया जा सकता है।
मैं देख रहा हूं कि एक और (तीसरा) सत्यापन सेट पेश किया गया है जो हाइपरपरमेटर्स ट्यूनिंग के दौरान परीक्षण सेट के ओवरफिटिंग द्वारा उचित है।
समस्या यह है कि मैं यह नहीं समझ सकता कि यह ओवरफिटिंग कैसे दिखाई दे सकती है और इसलिए तीसरे सेट के औचित्य को समझ नहीं सकता है।