टेस्ट त्रुटि का सीवी का अनुमान वास्तविक परीक्षण त्रुटि को कम क्यों करता है?


10

यह मेरी समझ है कि परीक्षण त्रुटि का k- गुना क्रॉस-सत्यापन अनुमान आमतौर पर वास्तविक परीक्षण त्रुटि को कम करता है। मैं उलझन में हूं कि ऐसा क्यों है। मैं देखता हूं कि प्रशिक्षण त्रुटि आमतौर पर परीक्षण त्रुटि से कम क्यों होती है - क्योंकि आप मॉडल को उसी डेटा पर प्रशिक्षण दे रहे हैं जिस पर आप त्रुटि का अनुमान लगा रहे हैं! लेकिन यह क्रॉस-वेलिडेशन के मामले में नहीं है - आप जिस त्रुटि को मापते हैं वह विशेष रूप से प्रशिक्षण प्रक्रिया के दौरान छोड़ दिया जाता है।

इसके अलावा, क्या यह कहना सही है कि परीक्षण त्रुटि का क्रॉस-वैलिडेशन अनुमान नीचे की ओर पूर्वाग्रहित है?


1
आप यह कहां देखते हैं? क्या आप कुछ संदर्भ दे सकते हैं?
19

1
(+1) मैंने एक ही वक्तव्य देखा और मेरा मानना ​​है कि यह सही है लेकिन मुझे तर्क समझ में नहीं आता है
केविनकिम

जवाबों:


9

एक उदाहरण देने के लिए: यदि आपके पास मूल रूप से कई मॉडल हैं (प्रत्येक में एक निश्चित सीवी त्रुटि और त्रुटि विचरण) है, तो इस मॉडल का केवल सीवी त्रुटि की रिपोर्ट करना समस्याग्रस्त है, फिर इस त्रुटि को अपने आवेदन के लिए सबसे उपयुक्त मॉडल चुना । यह समस्याग्रस्त है क्योंकि प्रत्येक मॉडल के साथ आपके पास अभी भी एक निश्चित मौका है कि आप भाग्यशाली / बदकिस्मत हैं (और बेहतर / बदतर परिणाम प्राप्त करते हैं) - और एक मॉडल का चयन करके, आपने संभवतः वह भी चुना जहां आप अधिक भाग्यशाली थे। इसलिए, इस त्रुटि को अंतिम त्रुटि अनुमान के रूप में रिपोर्ट करने से अत्यधिक आशावादी हो जाता है।

यदि आप विवरण में गहराई से खुदाई करना चाहते हैं: यह उत्तर इस समस्या पर कुछ आसान-से-पढ़ने वाले पत्रों से लिंक करता है: क्रॉस-सत्यापन का दुरुपयोग (सबसे अच्छा हाइपरपरमीटर मान के लिए प्रदर्शन प्रदर्शन)

जैसा कि @cbeleites बताते हैं: यह समस्या है कि अगर कोई प्राप्त किए गए k- गुना CV त्रुटि का उपयोग करता है जैसे कि a) ने विभिन्न हाइपरपैरामीटर का उपयोग करने से कई मॉडलों में से सबसे अच्छा मॉडल चुना, जो प्रशिक्षण प्रक्रिया का हिस्सा है, और b) तो एक अलग, आयोजित-बैक परीक्षण सेट का उपयोग करने के बजाय परीक्षण त्रुटि के समान त्रुटि की रिपोर्ट करता है । यदि आप इसके बजाय स्वयं शुद्ध सीवी त्रुटि के लिए पूछना चाहते हैं - बिना किसी मॉडल का उपयोग किए बिना - @cbeleites द्वारा उत्तर की संभावना अधिक है कि आप क्या खोज रहे हैं।


फिर, यहाँ समस्या एक प्रशिक्षण त्रुटि की रिपोर्ट कर रही है (प्रशिक्षण इस प्रकार है: इस अनुमान का उपयोग एक अंतिम मॉडल प्राप्त करने की प्रक्रिया में किया जाता है) सामान्यीकरण त्रुटि के लिए अनुमान - भले ही यह त्रुटि क्रॉस सत्यापन के माध्यम से गणना की गई हो, या जो भी हो। अन्य त्रुटि आकलन विधि।
SX

1
@cbeleites फिर से, सही बिंदु - मैं आमतौर पर मानता हूं कि सीवी परिणाम किसी तरह मॉडल चयन के लिए उपयोग किया जाएगा (जो कि कुछ के लिए पहली जगह में सीवी का उपयोग करने का कारण है) - इसलिए इसे इंगित करें। मैंने उसी हिसाब से अपना जवाब अपडेट किया है।
geekoverdose

9

ठीक से मोटे तौर पर इसका मतलब यह है कि क्रॉस सत्यापन के भीतर परीक्षण और प्रशिक्षण सेट में विभाजन वास्तव में ऐसे मामलों का परीक्षण करता है जो वास्तव में मॉडल से स्वतंत्र हैं।

हालांकि, इस स्वतंत्रता से समझौता करने वाले कई नुकसान हैं । परीक्षण डेटा से कितनी गंभीरता से समझौता किया जाता है और मॉडल कितना ओवरफिट होता है, इस पर निर्भर करते हुए, स्वतंत्रता की कमी का मतलब है कि क्रॉस सत्यापन त्रुटि वास्तव में एक प्रशिक्षण त्रुटि बन जाती है। यानी, सभी में, आप एक गंभीर आशावादी पूर्वाग्रह (वास्तविक सामान्यीकरण त्रुटि को कम करके) के साथ समाप्त हो सकते हैं।
IMHO यह समझना महत्वपूर्ण है कि इन नुकसानों में से अधिकांश वैधता को पार करने के लिए अद्वितीय नहीं हैं, लेकिन ट्रेन और परीक्षण सेट में गलत विभाजन के रूप में बेहतर हैं : वे अन्य सत्यापन योजनाओं जैसे कि होल्ड आउट या स्वतंत्र के साथ भी ऐसा ही कर सकते हैं (और करते हैं)। परीक्षण सेट करता है कि वास्तव में एक स्वतंत्र के रूप में स्वतंत्र नहीं हैं।

यहाँ मैं देखने में सबसे आम गलतियों के उदाहरण हैं:

  • @ geekoverdose का उत्तर आंतरिक प्रशिक्षण (!) त्रुटि अनुमान का परीक्षण त्रुटि के रूप में स्पष्ट रूप से उपयोग करने का एक उदाहरण देता है ।
    सामान्य तौर पर, डेटा-संचालित मॉडल ऑप्टिमाइज़ेशन के लिए किसी भी प्रकार का त्रुटि अनुमान एक प्रशिक्षण त्रुटि है क्योंकि इस त्रुटि अनुमान का उपयोग करते हुए अभी भी प्रशिक्षण चल रहा है।
  • विभाजन के लिए ध्यान में रखते हुए चर नहीं।
    डेटा मैट्रिक्स में एक पंक्ति आवश्यक रूप से एक स्वतंत्र मामले का गठन नहीं करती है, उदाहरण के लिए
    • एक ही मामले / विषय / रोगी को "स्वतंत्र" के रूप में दोहराया माप का इलाज करना
    • आम तौर पर अनदेखी / डेटा में मजबूत क्लस्टरिंग की अनदेखी
    • डेटा जनरेट करने की प्रक्रिया (भविष्य के अज्ञात मामलों बनाम अज्ञात मामलों) में चल रहे बहाव के बारे में पता नहीं होना ...


0

पहले मुझे प्रश्न में प्रयुक्त शब्दों को स्पष्ट करने दें जैसा कि मैं समझता हूं। हम आम तौर पर एक प्रशिक्षण डेटासेट के साथ शुरू करते हैं, विभिन्न मॉडलों (या हाइपरपरमेटर्स के सेट) का परीक्षण करने के लिए के-फोल्ड क्रॉस सत्यापन का उपयोग करते हैं, और सबसे कम सीवी त्रुटि वाले सर्वश्रेष्ठ मॉडल का चयन करते हैं। तो 'परीक्षण त्रुटि का क्रॉस-वेलिडेशन अनुमान' का अर्थ है परीक्षण त्रुटि के रूप में सबसे कम सीवी त्रुटि का उपयोग करना, न कि एक यादृच्छिक मॉडल की सीवी त्रुटि (जो कि केसलेबाइट द्वारा चर्चा की गई मामला है, लेकिन यह वह नहीं है जो हम सामान्य रूप से करते हैं।) प्रश्न में 'वास्तविक परीक्षण त्रुटि' त्रुटि है जो हम अनंत टेस्ट डेटासेट में सर्वश्रेष्ठ सीवी मॉडल को लागू करते समय प्राप्त करते हैं, यह मानते हुए कि हम प्राप्त कर सकते हैं। सीवी त्रुटि हमारे पास मौजूद विशेष डेटासेट पर निर्भर है, और वास्तविक परीक्षण त्रुटि चयनित सीवी मॉडल पर निर्भर है, जो प्रशिक्षण डेटासेट पर भी निर्भर है। तो CV त्रुटि और परीक्षण त्रुटि के बीच अंतर विभिन्न प्रशिक्षण डेटासेट पर निर्भर है। फिर प्रश्न बन जाता है, अगर हम अलग-अलग प्रशिक्षण डेटासेट के साथ कई बार प्रक्रिया को दोहराते हैं और क्रमशः दो त्रुटियों को औसत करते हैं, तो औसत सीवी त्रुटि औसत परीक्षण त्रुटि से कम है, यानी सीवी त्रुटि नीचे की ओर पक्षपाती है? लेकिन उससे पहले, क्या यह हमेशा होता है?

आम तौर पर यह असंभव है कि कई प्रशिक्षण डेटासेट और टेस्ट डेटासेट हों जिसमें अनंत पंक्तियाँ हों। लेकिन सिमुलेशन द्वारा उत्पन्न डेटा का उपयोग करके ऐसा करना संभव है। ट्रेवर हस्ति, एट अल द्वारा "द एलिमेंट्स ऑफ स्टैटिस्टिकल लर्निंग" पुस्तक के "अध्याय 7 मॉडल मूल्यांकन और चयन" में। , इसमें ऐसे सिमुलेशन प्रयोग शामिल हैं।

निष्कर्ष यह है कि, CV या बूटस्ट्रैप का उपयोग करते हुए, "... एक विशेष प्रशिक्षण सेट के लिए परीक्षण त्रुटि का अनुमान सामान्य रूप से आसान नहीं है, बस उसी प्रशिक्षण सेट से डेटा दिया गया है"। 'आसान नहीं' से उनका मतलब है कि सीवी त्रुटि या तो अलग-अलग प्रशिक्षण डेटा सेट के आधार पर सही परीक्षण त्रुटि को कम या कम कर सकती है, अर्थात विभिन्न प्रशिक्षण डेटासेट के कारण भिन्नता बहुत बड़ी है। पूर्वाग्रह के बारे में कैसे? जिस केएनएन और रैखिक मॉडल का उन्होंने परीक्षण किया, वे लगभग पक्षपाती नहीं हैं: सीवी त्रुटि असली परीक्षण त्रुटि को 0-4% से अधिक है, लेकिन कुछ मॉडल "जैसे पेड़, क्रॉस-सत्यापन और बूट-स्ट्रैप 10% से वास्तविक त्रुटि को कम कर सकते हैं, क्योंकि सर्वश्रेष्ठ वृक्ष की खोज सत्यापन सेट से बहुत प्रभावित होती है "।

योग करने के लिए, एक विशेष प्रशिक्षण डाटासेट के लिए, सीवी त्रुटि सही परीक्षण त्रुटि से अधिक या कम हो सकती है। पूर्वाग्रह के लिए, माध्य CV त्रुटि मॉडलिंग के तरीकों के आधार पर औसत परीक्षण त्रुटि की तुलना में थोड़ा अधिक से बहुत कम तक हो सकती है।

जैसा कि ऊपर बताया गया है, कम करके आंका जाने का कारण यह है कि सबसे अच्छे मॉडल के लिए हाइपरपरमेटर्स का चयन अंततः हमें प्राप्त होने वाले विशेष प्रशिक्षण डेटासेट पर निर्भर करता है। थोड़ा विस्तार से बताएं, इस विशेष प्रशिक्षण डाटासेट में सबसे अच्छा हाइपरपैरामीटर एम 1 है। लेकिन, एम 1 अन्य प्रशिक्षण डेटासेट पर सबसे अच्छा हाइपरपैरामीटर नहीं हो सकता है, जिसका अर्थ है कि न्यूनतम सीवी त्रुटि एम 1 से सीवी त्रुटि से कम है। इस प्रकार अपेक्षित CV त्रुटियां जो हमें प्रशिक्षण प्रक्रिया से प्राप्त होती हैं, वह M1 की अपेक्षित CV त्रुटि से बहुत कम है। किसी विशेष प्रशिक्षण डाटासेट से न्यूनतम सीवी त्रुटि का केवल तभी पक्षपात नहीं होता है जब सर्वश्रेष्ठ मॉडल हमेशा प्रशिक्षण डेटासेट से सबसे अच्छा स्वतंत्र होता है। दूसरी ओर, CV त्रुटि भी कुछ हद तक सत्य परीक्षण त्रुटि को कम कर सकती है, जैसा कि cbeleites द्वारा चर्चा की गई है। ऐसा इसलिए है क्योंकि मॉडल को प्रशिक्षित करने के लिए थोड़े कम प्रशिक्षण डेटा का उपयोग करके के गुना सीवी त्रुटि प्राप्त की जाती है (10 गुना सीवी के लिए, 90% डेटा का उपयोग करें), यह सच त्रुटि के खिलाफ पक्षपाती है, लेकिन ज्यादा नहीं। इसलिए दो पक्षपात अलग-अलग दिशाओं में जा रहे हैं। मॉडलिंग विधि के लिए, कम सीवी, उदाहरण के लिए 5-गुना बनाम 10-गुना का उपयोग करके ओवरफिट जाता है, जिसके परिणामस्वरूप कम पूर्वाग्रह हो सकता है।

सभी कहा जा रहा है, यह अभ्यास में बहुत अधिक मदद नहीं करता है: हम आमतौर पर केवल एक 'विशेष' डेटासेट प्राप्त करते हैं। यदि हम परीक्षण डेटा के रूप में 15% से 30% तक रखते हैं, और शेष डेटा पर सीवी द्वारा सर्वश्रेष्ठ मॉडल का चयन करते हैं, तो संभावना है कि सीवी त्रुटि परीक्षण त्रुटि से अलग होगी क्योंकि दोनों अपेक्षित परीक्षण त्रुटि से अलग हैं। हमें संदेह हो सकता है कि सीवी त्रुटि परीक्षण त्रुटि की तुलना में बहुत कम है, लेकिन हम यह नहीं जान पाएंगे कि कौन सच्ची परीक्षा त्रुटि के करीब है। दोनों मेट्रिक्स को प्रस्तुत करने के लिए सबसे अच्छा अभ्यास बस हो सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.