भविष्यवाणियों के मॉडल का आकलन करने के लिए क्या बार-बार क्रॉस-वेलिडेशन का इस्तेमाल किया जाना चाहिए?


16

मुझे यह 2012 के लेख में आया था जिसमें गीते वनविनकेलेन और हेंड्रिक ब्लॉकिल ने दोहराया क्रॉस-वैलिडेशन की उपयोगिता पर सवाल उठाया था, जो क्रॉस-वैलिडेशन के विचरण को कम करने के लिए एक लोकप्रिय तकनीक बन गई है।

लेखकों ने प्रदर्शित किया कि बार-बार क्रॉस-वैरिफिकेशन से मॉडल की भविष्यवाणियों के विचलन में कमी आती है, क्योंकि एक ही नमूना डेटासेट को पुन: सेट किया जा रहा है, क्योंकि क्रॉस-वेलिडेशन अनुमानों का मतलब सही भविष्यवाणी की सटीकता के एक पक्षपाती अनुमान में परिवर्तित होता है और इसलिए यह उपयोगी नहीं है।

क्या इन सीमाओं के बावजूद बार-बार क्रॉस-वेलिडेशन का इस्तेमाल किया जाना चाहिए?


6
मेरे अनुभव में, क्रॉस-वेलिडेशन (दोहराया या नहीं) भविष्यवाणिय सटीकता का बहुत अच्छा अनुमान नहीं देता है। लेकिन यह है विभिन्न मॉडलों की भविष्यवाणी प्रदर्शन की तुलना के लिए बहुत उपयोगी। यह मॉडलों के बीच चयन करने का एक अच्छा तरीका है लेकिन एकल मॉडल के प्रदर्शन का अनुमान लगाने का एक अच्छा तरीका नहीं है।
फ्लाउंडर

@Flounderer यह एक अच्छा बिंदु है। लेख की मेरी व्याख्या यह है कि हम बार-बार क्रॉस-वेलिडेशन बनाम गैर-दोहराया क्रॉस-वैलिडेशन के आधार पर मॉडल की सार्थक तुलना नहीं कर सकते हैं। आप डेटा से अनुचित जानकारी को निकालने का प्रयास कर रहे हैं। या यह गलत है?
रॉबर्टF

जवाबों:


11

जो तर्क कागज को प्रतीत होता है वह मुझे अजीब लगता है।

कागज के अनुसार, सीवी का लक्ष्य का अनुमान लगाना है , नए डेटा पर मॉडल का अपेक्षित पूर्वानुमान, यह देखते हुए कि मॉडल को प्रेक्षित डेटासेट एस पर प्रशिक्षित किया गया था । जब हम आचरण k गुना सीवी, हम एक अनुमान प्राप्त एक इस संख्या के। के यादृच्छिक विभाजन की वजह से एस में कश्मीर पर्त होती है, यह एक यादृच्छिक चर रहा है एक ~ ( एक ) के साथ मतलब μ कश्मीर और विचरण σ 2 कश्मीर । इसके विपरीत, एन -टाइम्स-बार-बार सीवी एक ही मतलब के साथ एक अनुमान लगाता हैα2SkA^SkA^f(A)μkσk2n लेकिन छोटा विचरण iance 2 k / nμkσk2/n

जाहिर है, । यह पूर्वाग्रह कुछ ऐसा है जिसे हमें स्वीकार करना होगा।α2μk

हालाँकि, अपेक्षित त्रुटि छोटे के लिए बड़ा होगा n , और के लिए सबसे बड़ा हो जाएगा n = 1 कम से कम के बारे में उचित मान्यताओं के तहत, ( एक ) , उदाहरण के लिए जब एक ˙ ~ एन ( μ कश्मीर , σ 2 कश्मीर / n ) । दूसरे शब्दों में, दोहराया सीवी μ k का अधिक सटीक अनुमान प्राप्त करने की अनुमति देता हैE[|α2A^|2]nn=1f(A)A^˙N(μk,σk2/n)μkऔर यह एक अच्छी बात है क्योंकि यह का अधिक सटीक अनुमान देता है ।α2

इसलिए, दोहराया हुआ CV गैर-दोहराया CV की तुलना में कड़ाई से अधिक सटीक है।

लेखक उससे बहस नहीं करते! इसके बजाय वे दावा करते हैं, सिमुलेशन पर आधारित है, कि

विचरण को कम करना [सीवी को दोहराकर] कई मामलों में, बहुत उपयोगी नहीं है, और अनिवार्य रूप से कम्प्यूटेशनल संसाधनों की बर्बादी है।

यह सिर्फ मतलब है कि उनके सिमुलेशन में बहुत कम था, और वास्तव में, उनके द्वारा उपयोग किए जाने वाले सबसे कम नमूने का आकार 200 था , जो शायद छोटे the 2 k उपज के लिए काफी बड़ा है । (गैर-दोहराया सीवी और 30-बार-बार सीवी के साथ प्राप्त अनुमानों में अंतर हमेशा छोटा होता है।) छोटे नमूना आकारों के साथ-साथ पुनरावृत्ति भिन्नता के बीच बड़े अंतर की उम्मीद कर सकते हैं।σk2200σk2

गुफा: विश्वास अंतराल!

एक और बिंदु जो लेखक बना रहे हैं, वह है

आत्मविश्वास के अंतराल की रिपोर्टिंग [बार-बार क्रॉस-सत्यापन में] भ्रामक है।

ऐसा लगता है कि वे सीवी रिपीटिशन के दौरान औसत अंतराल के लिए आत्मविश्वास अंतराल की बात कर रहे हैं। मैं पूरी तरह से सहमत हूं कि यह रिपोर्ट करने के लिए एक व्यर्थ बात है! जितनी बार CV दोहराया जाता है, यह CI उतना ही छोटा होगा, लेकिन हमारे अनुमान के आसपास CI में कोई भी दिलचस्पी नहीं रखता है ! हम α 2 के हमारे अनुमान के आसपास CI की परवाह करते हैं ।μkα2

लेखक गैर-दोहराया सीवी के लिए CI की रिपोर्ट करते हैं, और यह पूरी तरह से मेरे लिए स्पष्ट नहीं है कि इन CI का निर्माण कैसे किया गया था। मुझे लगता है कि ये तह के साधनों के लिए CI हैं । मेरा तर्क है कि ये सीआई भी बहुत ज्यादा अर्थहीन हैं!k

उनके उदाहरणों में से एक पर एक नज़र डालें: adultनायब एल्गोरिथ्म और 200 नमूना आकार के साथ डेटासेट की सटीकता । वे गैर-दोहराया CV, CI (72.26, 83.74), 79.0% (77.21, 80.79) के साथ 10-बार-बार CV, और 30.1-दोहराया दोहराया CV के साथ 79.1% (78.07, 80.13) के साथ 78.0% प्राप्त करते हैं। ये सभी CI बेकार हैं, जिसमें पहले वाले भी शामिल हैं। का सर्वश्रेष्ठ अनुमान 79.1% है। यह 200 में से 158 सफलताओं से मेल खाती है। यह 95% द्विपद विश्वास अंतराल (72.8, 84.5) की पैदावार देता है - पहले की रिपोर्ट की तुलना में भी व्यापक। अगर मैं कुछ सीआई की रिपोर्ट करना चाहता हूं , तो यह वही होगा जो मैं रिपोर्ट करूंगा।μk

अधिक सामान्य गुफा: सीवी का विचरण।

आपने लिखा कि बार-बार सी.वी.

क्रॉस-सत्यापन के विचरण को कम करने के लिए एक लोकप्रिय तकनीक बन गई है।

μkk=Nk

α1S


1
मुझे उम्मीद है कि @cbeleites इस थ्रेड को नोटिस करेंगे और यहां टिप्पणी करेंगे या अपना खुद का जवाब छोड़ देंगे: मुझे पता है कि वह बार-बार सीवी का उपयोग कर रहा है (या) मुझे लगता है कि मॉडल स्थिरता के कुछ उपाय के रूप में दोहराव पर कंप्यूटिंग परिवर्तनशीलता की वकालत की गई है। लेकिन मुझे नहीं लगता कि वह दोहराए जाने वाले सीआई की गणना करेगी।
अमीबा का कहना है कि मोनिका

1
μkα2μkα2μk

1
@RobertF: मैं मॉडल प्रदर्शन का अनुमान लगाने के बारे में (वी एंड बी पेपर के बाद) बात कर रहा था। मेरी थीसिस है कि दोहराया हुआ सीवी गैर-दोहराया सीवी की तुलना में अधिक सटीक है, और मुझे लगता है कि यह निस्संदेह है (वी एंड आर का तर्क है कि हालांकि परिशुद्धता का अंतर व्यवहार में इतना महत्वपूर्ण नहीं है)। दो मॉडलों की तुलना करना अधिक मुश्किल है, क्योंकि मान लें कि आप CV चलाते हैं और एक मॉडल के लिए 70% और दूसरे मॉडल के लिए 71% प्राप्त करते हैं। क्या यह "महत्वपूर्ण" अंतर है? खैर, यह एक निश्चित जवाब के बिना एक मुश्किल समस्या है। और यह दोहराया / गैर-दोहराया मुद्दे से स्वतंत्र है।
अमीबा का कहना है कि मोनिका


1
σk
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.