सादे अंग्रेजी में क्रॉस-वैलिडेशन?

77

डेटा विश्लेषण पृष्ठभूमि के बिना आप किसी को क्रॉस-मान्यता कैसे बताएंगे?

cross-validation

— शेन
स्रोत

3

यह प्रश्न साइट के नाम प्रस्ताव पर किसी भी भ्रम के साथ मदद करने के लिए है: meta.stats.stackexchange.com/questions/21/… ।

— शेन

54

निम्नलिखित स्थिति पर विचार करें:

मैं अपने कार्यालय जाने के लिए मेट्रो को पकड़ना चाहता हूं। मेरी योजना मेरी गाड़ी लेने, मेट्रो में पार्क करने और फिर मेरे कार्यालय जाने के लिए ट्रेन लेने की है। मेरा लक्ष्य हर दिन सुबह 8.15 बजे ट्रेन पकड़ना है ताकि मैं समय पर अपने कार्यालय तक पहुंच सकूं। मुझे निम्नलिखित तय करने की आवश्यकता है: (ए) जिस समय मुझे अपने घर से जाने की जरूरत है और (ख) जिस स्टेशन पर ड्राइव करने के लिए मैं ले जाऊंगा।

उपरोक्त उदाहरण में, मेरे पास दो पैरामीटर हैं (यानी, घर से जाने का समय और स्टेशन जाने के लिए मार्ग) और मुझे इन मापदंडों को चुनने की आवश्यकता है जैसे कि मैं सुबह 8.15 बजे तक स्टेशन पर पहुंचता हूं।

उपरोक्त समस्या को हल करने के लिए मैं सोमवार, बुधवार और शुक्रवार को 'पैरामीटर' (यानी, प्रस्थान और मार्ग के समय के अलग-अलग संयोजन) के अलग-अलग सेट आज़मा सकता हूं, यह देखने के लिए कि कौन सा संयोजन 'सर्वश्रेष्ठ' है। विचार यह है कि एक बार जब मैंने सबसे अच्छे संयोजन की पहचान कर ली है तो मैं इसे हर दिन उपयोग कर सकता हूं ताकि मैं अपने उद्देश्य को प्राप्त कर सकूं।

ओवरफिटिंग की समस्या

उपरोक्त दृष्टिकोण के साथ समस्या यह है कि मैं ओवरफिट कर सकता हूं जो अनिवार्य रूप से इसका मतलब है कि मैं जो सबसे अच्छा संयोजन पहचानता हूं वह कुछ मायने में सोम, बुध और शुक्रवार के लिए अद्वितीय हो सकता है और यह संयोजन टीयू और थू के लिए काम नहीं कर सकता है। ओवरफिटिंग हो सकती है अगर मेरी खोज में समय और मार्गों का सबसे अच्छा संयोजन है, तो मैं सोम / बुध / शुक्र पर यातायात की स्थिति के कुछ पहलू का दोहन करता हूं जो कि टीयू और थू पर नहीं होता है।

ओवरफ़िटिंग के लिए एक समाधान: क्रॉस-वैलिडेशन

क्रॉस-वैरिफिकेशन ओवरफिटिंग का एक समाधान है। विचार यह है कि एक बार जब हमने मापदंडों के अपने सबसे अच्छे संयोजन (हमारे मामले में समय और मार्ग) की पहचान की है, तो हम एक अलग संदर्भ में मापदंडों के उस सेट के प्रदर्शन का परीक्षण करते हैं। इसलिए, हम यह सुनिश्चित करने के लिए कि हमारी पसंद उन दिनों के लिए भी काम करती है, हम Tue और Thu पर परीक्षण कर सकते हैं।

सादृश्य को आँकड़ों तक पहुँचाना

आंकड़ों में, हमारे पास एक समान मुद्दा है। हम अक्सर उन अज्ञात मापदंडों का अनुमान लगाने के लिए डेटा के सीमित सेट का उपयोग करते हैं जिन्हें हम नहीं जानते हैं। यदि हम ओवरफिट करते हैं, तो हमारे पैरामीटर अनुमान मौजूदा डेटा के लिए बहुत अच्छी तरह से काम करेंगे, लेकिन साथ ही साथ जब हम उन्हें किसी अन्य संदर्भ में उपयोग करते हैं। इस प्रकार, क्रॉस-वैलिडेशन हमें कुछ आश्वस्त करने के लिए ओवरफिटिंग के उपरोक्त मुद्दे से बचने में मदद करता है कि पैरामीटर अनुमान उन डेटा के लिए अद्वितीय नहीं हैं जो हम उनका अनुमान लगाने के लिए उपयोग करते हैं।

बेशक, क्रॉस सत्यापन सही नहीं है। मेट्रो के हमारे उदाहरण पर वापस जा रहे हैं, यह हो सकता है कि क्रॉस-वैलिडेशन के बाद भी, मापदंडों का हमारा सबसे अच्छा विकल्प विभिन्न मुद्दों (जैसे, निर्माण, समय के साथ यातायात की मात्रा में परिवर्तन आदि) के कारण लाइन से एक महीने नीचे काम नहीं कर सकता है।

— jbaums
स्रोत

2

तकनीकी रूप से, यह होल्डआउट सत्यापन है, लेकिन कोई भी क्रॉस-रेफरेंस संदर्भ के लिए मेट्रो उदाहरण का विस्तार करने की कल्पना कर सकता है। यदि यह मदद करता है तो मैं क्रॉस-वैधीकरण के लिए विशिष्ट होने के लिए उदाहरण और शेष पाठ को फिर से लिखूंगा।

@ srikant..एक शब्द के रूप में ओवरफिटिंग शब्द से मुझे पता चलता है कि कुछ "ओवरली" किया गया है, जिसका अर्थ है ..अधिक आवश्यकता से अधिक..तो क्या किया? क्या यह चर का नहीं है? मुझे खेद है कि मैं इस शब्द को कई बार सुन रहा हूं और इस अपारदर्शिता को आपके साथ क्लीयर करने के लिए ले जाऊंगा।

— आयुष ब्यानी

1

मुझे लगता है कि यह उत्तर सिलवटों की अवधारणा को जोड़कर सुधारा जाएगा, जो यह महत्वपूर्ण है कि सीवी होल्डआउट परीक्षण से कैसे भिन्न है। उदाहरण में (सोमवार के लिए संक्षिप्त नाम M, मंगलवार के लिए T, ..., R के लिए गुरुवार, ...): तो आप TWRF को सबसे अच्छे संयोजन के लिए देखें और देखें कि यह M पर कैसे काम करता है, तो MWRF और देखें कि यह कैसे होता है T आदि पर काम करता है, इसलिए प्रत्येक दिन को समस्या के एक भाग के रूप में चार बार और समस्या के लिए एक बार जांच के रूप में उपयोग किया जाता है, लेकिन कभी भी समस्या और एक ही दौर में जाँच के रूप में नहीं।

— वेन

43

मुझे लगता है कि यह निम्नलिखित चित्र के साथ सबसे अच्छा वर्णित है (इस मामले में के-गुना क्रॉस-सत्यापन दिखा रहा है):

वैकल्पिक शब्द

क्रॉस-वैरिफिकेशन एक ऐसी तकनीक है जिसका उपयोग भविष्य कहनेवाला मॉडल में ओवरफिटिंग से बचाने के लिए किया जाता है, खासकर ऐसे मामले में जहां डेटा की मात्रा सीमित हो सकती है। क्रॉस-सत्यापन में, आप डेटा की एक निश्चित संख्या (या विभाजन) बनाते हैं, प्रत्येक गुना पर विश्लेषण चलाते हैं, और फिर समग्र त्रुटि अनुमान का औसत बनाते हैं।

— शेन
स्रोत

2

ऐसा लगता है कि इस साइट पर कहीं और चर्चा है कि k- गुना क्रॉस सत्यापन केवल एक प्रकार का क्रॉस सत्यापन है और यह वर्णन करना कि क्रॉस सत्यापन क्या है, यह वर्णन करने का सामान्य कार्य नहीं करता है।

— russellpierce

3

@drknexus: यह उचित है, लेकिन मैंने उल्लेख किया है कि यह k- गुना है और मैं इसे समझाने में मदद करने के लिए प्रक्रिया का एक दृश्य प्रदान करना चाहता था।

— शेन

त्वरित स्पष्टीकरण: यह मामला है कि, nfold = 4 का अर्थ है परीक्षण सेट के लिए 25%; nfold = 5 का अर्थ है परीक्षण सेट के लिए 20%; nfold = 10 का अर्थ है परीक्षण सेट के लिए 10%, और आगे: nfold = n का अर्थ है 100 / n प्रतिशत परीक्षण सेट में जाता है?

— जॉन्जप्सपा ११

9

"यह सुनिश्चित करके कि आपका मॉडल स्वतंत्र डेटा पर अच्छा प्रदर्शन करता है, दिल से अपना प्रशिक्षण डेटा सीखने से बचें।"

— आंद्रे होल्जनर
स्रोत

3

यह cv के लिए प्रेरणा है, बजाय स्वयं cv के वर्णन के।

— jbaums

6

मान लीजिए कि आप कुछ प्रक्रिया की जांच करते हैं; आपने इसका वर्णन करते हुए कुछ आंकड़े एकत्रित किए हैं और आपने एक मॉडल (या तो सांख्यिकीय या एमएल, कोई फर्क नहीं पड़ता) का निर्माण किया है। लेकिन अब, अगर यह ठीक है तो कैसे न्याय करें? संभवतः यह उस डेटा पर संदेहास्पद रूप से अच्छा बैठता है जिस पर इसे बनाया गया था, इसलिए कोई भी यह विश्वास नहीं करेगा कि आपका मॉडल इतना शानदार है कि आप सोचते हैं।
पहला विचार आपके डेटा के एक सबसेट को अलग करना है और इसका उपयोग बाकी डेटा पर आपकी विधि द्वारा निर्मित मॉडल का परीक्षण करना है। अब परिणाम निश्चित रूप से अति-मुक्त है, फिर भी (विशेष रूप से छोटे सेट के लिए) आप (संयुक्त राष्ट्र) भाग्यशाली हो सकते हैं और परीक्षण करने के लिए अधिक सरल मामलों को आकर्षित (कम) कर सकते हैं, यह (कठिन) भविष्यवाणी करना आसान बनाता है ... साथ ही आपकी सटीकता / त्रुटि / अच्छाई का अनुमान मॉडल तुलना / अनुकूलन के लिए बेकार है, क्योंकि आप शायद इसके वितरण के बारे में कुछ नहीं जानते हैं।
जब संदेह में, जानवर बल का उपयोग करें, तो बस उपरोक्त प्रक्रिया को दोहराएं, सटीकता / त्रुटि / अच्छाई के कुछ अनुमानों को इकट्ठा करें और उन्हें औसत करें - और इसलिए आप क्रॉस सत्यापन प्राप्त करते हैं। बेहतर अनुमान के बीच आपको हिस्टोग्राम भी मिलेगा, जिससे आप अनुमानित वितरण कर पाएंगे या कुछ गैर-पैरामीट्रिक परीक्षण कर पाएंगे।
और यह है; परीक्षण-ट्रेन विभाजन के विवरण अलग-अलग सीवी प्रकारों के कारण होते हैं, फिर भी दुर्लभ मामलों और छोटी ताकत के अंतर को छोड़कर, बल्कि वे इसके समकक्ष होते हैं। वास्तव में यह एक बहुत बड़ा फायदा है, क्योंकि यह इसे बुलेटप्रूफ-फेयर मेथड बनाता है; इसे धोखा देना बहुत कठिन है।

3

चूंकि आपके पास प्रशिक्षण के समय परीक्षण डेटा तक पहुंच नहीं है, और आप चाहते हैं कि आपका मॉडल अनदेखी परीक्षण डेटा पर अच्छा प्रदर्शन करे, तो आप "दिखावा" करते हैं कि आपके पास कुछ परीक्षण डेटा तक बार-बार एक छोटा सा हिस्सा सबमिशन करके पहुंच जाता है आपका प्रशिक्षण डेटा, मॉडल को प्रशिक्षित करते समय इस सेट को पकड़ कर रखें, और फिर निर्धारित डेटा को परीक्षण डेटा के लिए एक प्रॉक्सी के रूप में मानें (और मॉडल पैरामीटर चुनें जो आयोजित किए गए डेटा पर सबसे अच्छा प्रदर्शन देते हैं)। आप उम्मीद करते हैं कि प्रशिक्षण डेटा से विभिन्न उपसमूहों को बेतरतीब ढंग से नमूना करके, आप उन्हें परीक्षण डेटा (औसत व्यवहार अर्थ में) की तरह देख सकते हैं, और इसलिए सीखे गए मॉडल पैरामीटर परीक्षण डेटा के लिए भी अच्छे होंगे (अर्थात, आपका मॉडल अनदेखी डेटा के लिए अच्छी तरह से)।

— ebony1
स्रोत