मुझे पता है कि क्रॉस-वैलिडेशन के बाहर हाइपरपैरेट ट्यूनिंग करने से बाहरी वैधता का पक्षपाती-उच्च अनुमान हो सकता है, क्योंकि प्रदर्शन को मापने के लिए आप जो डेटासेट का उपयोग करते हैं, वही आप सुविधाओं को ट्यून करने के लिए उपयोग करते हैं।
मैं सोच रहा हूँ कि यह एक समस्या का कितना बुरा है । मैं समझ सकता हूं कि फीचर चयन के लिए यह वास्तव में कितना बुरा होगा, क्योंकि यह आपको ट्यून करने के लिए बड़ी संख्या में पैरामीटर देता है। लेकिन क्या होगा यदि आप LASSO (जिसमें केवल एक पैरामीटर, नियमितीकरण शक्ति है), या सुविधा चयन के बिना एक यादृच्छिक जंगल (जैसे कुछ पैरामीटर हो सकते हैं लेकिन शोर सुविधाओं को जोड़ने / छोड़ने के रूप में नाटकीय रूप में कुछ भी नहीं हो सकता है) का उपयोग कर रहे हैं?
इन परिदृश्यों में, आप अपने प्रशिक्षण त्रुटि के अनुमान के बारे में कितनी आशावादी हो सकते हैं?
मैं इस पर किसी भी जानकारी की सराहना करता हूँ - मामले का अध्ययन, कागज, उपाख्यान, आदि धन्यवाद!
संपादित करें: स्पष्ट करने के लिए, मैं प्रशिक्षण डेटा पर मॉडल प्रदर्शन का अनुमान लगाने के बारे में बात नहीं कर रहा हूं (यानी, क्रॉस सत्यापन का उपयोग नहीं कर रहा हूं )। "क्रॉस-वैलिडेशन के बाहर हाइपरपैरेट ट्यूनिंग" से मेरा मतलब है कि केवल प्रत्येक व्यक्तिगत मॉडल के प्रदर्शन का अनुमान लगाने के लिए क्रॉस-वैलिडेशन का उपयोग करना, लेकिन हाइपरपैरेट ट्यूनिंग प्रक्रिया के भीतर सही करने के लिए एक बाहरी, दूसरा क्रॉस-वैलिडेशन लूप शामिल नहीं है (जैसा कि अलग है) प्रशिक्षण प्रक्रिया के दौरान ओवरफिटिंग)। उदाहरण यहाँ देखें ।