क्रॉस-सत्यापन का दुरुपयोग (सबसे अच्छा हाइपरपरमीटर मान के लिए प्रदर्शन प्रदर्शन)


30

हाल ही में मैं एक पेपर पर आया हूं जो एक विशिष्ट डेटासेट पर k-NN क्लासिफायर का उपयोग करने का प्रस्ताव करता है। लेखकों ने विभिन्न k मानों के लिए k-fold क्रॉस सत्यापन करने के लिए उपलब्ध सभी डेटा नमूनों का उपयोग किया और सबसे अच्छा हाइपरमीटर व्यास कॉन्फ़िगरेशन के क्रॉस सत्यापन परिणामों की रिपोर्ट की।

मेरी जानकारी के लिए, यह परिणाम पक्षपाती है, और उन्हें हाइपरपरिमेट ऑप्टिमाइज़ेशन का उपयोग नहीं करने वाले नमूनों पर एक सटीकता अनुमान प्राप्त करने के लिए एक अलग परीक्षण सेट को बनाए रखना चाहिए था।

क्या मैं सही हू? क्या आप कुछ संदर्भ (अधिमानतः शोध पत्र) प्रदान कर सकते हैं जो क्रॉस सत्यापन के इस दुरुपयोग का वर्णन करते हैं?


3
ध्यान दें कि एक अलग परीक्षण सेट के बजाय कोई तथाकथित नेस्टेड-क्रॉस-सत्यापन का उपयोग कर सकता है । यदि आप इस साइट पर इस शब्द को खोजते हैं, तो आपको बहुत सारी चर्चाएँ मिलेंगी। @DikranMarsupial द्वारा उत्तर के लिए विशेष रूप से देखें जो स्वीकार किए गए उत्तर में उद्धृत दूसरे पेपर के लेखकों में से एक है।
अमीबा का कहना है कि

जवाबों:


29

हां, केवल के-गुना सीवी परिणामों की रिपोर्टिंग के साथ समस्याएं हैं। आप अपने उद्देश्य के लिए निम्नलिखित तीन प्रकाशनों का उपयोग कर सकते हैं (हालांकि वहाँ अधिक हैं, ज़ाहिर है) लोगों को सही दिशा की ओर इंगित करने के लिए:

मैं व्यक्तिगत रूप से उन्हें पसंद करता हूं क्योंकि वे मैथ की तुलना में सादे अंग्रेजी में अधिक मुद्दों को बताने की कोशिश करते हैं।


2
अधिक सटीक रूप से, समस्या क्रॉस सत्यापन परिणामों की रिपोर्ट नहीं कर रही है, लेकिन प्रदर्शन के अनुमानों की रिपोर्टिंग जो चयन / अनुकूलन प्रक्रिया का हिस्सा रही है।
cbeleites

1
यह भी ध्यान दें कि बेंगियो और ग्रैंडावलेट पेपर कुछ हद तक प्रासंगिक है अगर यहाँ समस्या एक विशेष डेटा सेट पर प्रशिक्षित एक विशिष्ट मॉडल का प्रदर्शन है - वे एक ही आबादी से नए डेटा सेटों के लिए लागू एक ही ट्रेनिग एल्गोरिथ्म के प्रदर्शन पर चर्चा करते हैं (जिसकी आवश्यकता है) एक ही स्रोत से अलग किए गए एक ही आकार के विभिन्न डेटा सेटों के बीच विचरण को शामिल करना - जो कि अगर हम किसी विशिष्ट डेटा सेट पर प्रशिक्षित मॉडल के पूर्वानुमान प्रदर्शन के बारे में बात कर रहे हैं तो कोई समस्या नहीं है)।
cbeleites मोनिका

1
@cbeleites सही ढंग से स्पॉट किए गए: उत्तर के अपने पहले ड्राफ्ट में मैंने गलती से दूसरे संदर्भ के बजाय तीसरा संदर्भ उठाया था, लेकिन बाद में पहले से स्वीकार किए गए उत्तर से किसी भी जानकारी को दूर नहीं करना चाहता था - यही वजह है कि मैंने इसके बजाय दूसरा जोड़ा के बीच (उत्तर के संस्करण देखें)। फिर भी, मुझे लगता है कि प्रश्न मुख्य रूप से रिपोर्ट की गई त्रुटि के आसपास था, और वे कागजात कुछ ऐसी चीजों को इंगित करते हैं, जो इस संबंध में सीवी के साथ गलत तरीके से आईएमएचओ के साथ गलत कर सकते हैं।
8
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.