का प्रसरण


37

TL, DR: ऐसा प्रतीत होता है कि, बार-बार की गई सलाह के विपरीत, लीव-वन-आउट क्रॉस वैरिडेशन (LOO-CV) - यानीकश्मीर साथ Fold CVकश्मीर(एन की संख्या केबराबर)प्रशिक्षण टिप्पणियों का) - सामान्यीकरण त्रुटि का अनुमान लगाता है जोकिसी भी K के लिएसबसे कम परिवर्तनशील है, न कि सबसे अधिक चर,मॉडल / एल्गोरिथ्म, डेटासेट, या दोनों परएक निश्चित स्थिरता की स्थितिमानते हुए(मुझे यकीन नहीं है कि जो सही है क्योंकि मैं वास्तव में इस स्थिरता की स्थिति को नहीं समझता)।कश्मीर

  • क्या कोई स्पष्ट रूप से बता सकता है कि वास्तव में यह स्थिरता की स्थिति क्या है?
  • क्या यह सच है कि रैखिक प्रतिगमन एक ऐसा "स्थिर" एल्गोरिदम है, जिसका अर्थ है कि उस संदर्भ में, लू-सीवी सख्ती से सीवी का सबसे अच्छा विकल्प है जहां तक ​​सामान्यीकरण त्रुटि के अनुमानों के पूर्वाग्रह और विचरण का संबंध है?

पारंपरिक ज्ञान है कि विकल्प है कश्मीर में कश्मीर गुना सीवी एक पूर्वाग्रह-विचरण दुविधा यह इस प्रकार है, इस तरह के कम मानों कश्मीर (निकट 2) सामान्यीकरण त्रुटि का अनुमान है कि अधिक निराशावादी पूर्वाग्रह को सीसा, लेकिन कम विचरण, उच्च मूल्यों, जबकि की कश्मीर (निकट एन अनुमान है कि कम पक्षपाती हैं, लेकिन अधिक से अधिक विचरण के साथ करने के लिए) का नेतृत्व। साथ बढ़ रही विचरण की इस घटना के लिए पारंपरिक स्पष्टीकरण सांख्यिकीय तत्वों के अध्ययनकश्मीर में शायद सबसे प्रमुख रूप से दिया गया है (धारा 7.10.1):

K = N के साथ, क्रॉस-सत्यापन अनुमानक सही (अपेक्षित) भविष्यवाणी त्रुटि के लिए लगभग निष्पक्ष है, लेकिन उच्च विचरण हो सकता है क्योंकि एन "प्रशिक्षण सेट" एक दूसरे के समान हैं।

निहितार्थ यह है कि एन सत्यापन त्रुटियां अधिक सहसंबद्ध हैं ताकि उनकी राशि अधिक परिवर्तनशील हो। इस साइट पर तर्क की यह रेखा कई उत्तरों में दोहराई गई है (जैसे, यहाँ , यहाँ , यहाँ , यहाँ , यहाँ , यहाँ और यहाँ ) के साथ-साथ विभिन्न ब्लॉग्स और आदि गई है। केवल एक अंतर्ज्ञान या संक्षिप्त स्केच क्या एक विश्लेषण की तरह लग सकता है।

हालांकि, एक विरोधाभासी बयान मिल सकता है, आमतौर पर एक निश्चित "स्थिरता" स्थिति का हवाला देते हुए जिसे मैं वास्तव में नहीं समझता हूं। उदाहरण के लिए, यह विरोधाभासी उत्तर 2015 के पेपर के एक जोड़े पैराग्राफ को उद्धृत करता है, जो कहता है, अन्य बातों के अलावा, " कम अस्थिरता वाले मॉडल / मॉडलिंग प्रक्रियाओं के लिए , एलओओ में अक्सर सबसे छोटी परिवर्तनशीलता होती है" (जोर जोड़ा)। यह पेपर (खंड 5.2) इस बात से सहमत प्रतीत होता है कि LOO तब तक के कम से कम परिवर्तनीय विकल्प का प्रतिनिधित्व करता है कश्मीरजब तक कि मॉडल / एल्गोरिथ्म "स्थिर" है। इस मुद्दे पर भी एक और रुख ले रहा है, वहाँ भी है इस पत्र (उपप्रमेय 2) है, जो कहते हैं, "के विचरण कश्मीर पार सत्यापन गुना [...] पर निर्भर नहीं करता कश्मीर, "फिर से एक निश्चित" स्थिरता "स्थिति का हवाला देते हुए।

एलओयू सबसे अधिक परिवर्तनशील हो सकता है, इसके बारे में स्पष्टीकरण कश्मीर -फोल्ड सीवी काफी सहज है, लेकिन एक प्रति-अंतर्ज्ञान है। औसत वर्ग त्रुटि (MSE) का अंतिम सीवी अनुमान प्रत्येक गुना में MSE अनुमान का मतलब है। जैसा कि , Nकश्मीर तक बढ़ता है , CV अनुमान यादृच्छिक चर की बढ़ती संख्या का मतलब है। और हम जानते हैं कि किसी माध्य का विचरण कम होने से चरों की संख्या औसत हो जाती है। इसलिए लू के लिए सबसे अधिक परिवर्तनशील K होना चाहिए । और यह बिल्कुल भी स्पष्ट नहीं है कि यह सच है।एनकश्मीर -फोल्ड सीवी होने के लिए, यह सच होगा कि एमएसई के बीच बढ़े हुए सहसंबंध के कारण विचरण में वृद्धि का अनुमान है कि अधिक संख्या में सिलवटों के कारण विचरण में कमी का औसत से अधिक होना है।

इस सब के बारे में अच्छी तरह से सोचने के बाद, मैंने रेखीय प्रतिगमन मामले के लिए थोड़ा सिमुलेशन चलाने का फैसला किया। मैं के साथ 10,000 डेटासेट नकली = 50 और 3 असहसंबद्ध भविष्यवक्ताओं, हर बार का उपयोग कर सामान्यीकरण त्रुटि का आकलन कश्मीर के साथ गुना सीवी कश्मीर = 2, 5, 10, या 50 = एनआर कोड यहाँ है। यहाँ सभी 10,000 डेटासेट (MSE इकाइयों में) सीवी अनुमानों के परिणामी साधन और संस्करण हैं:एनकश्मीरकश्मीरएन

         k = 2 k = 5 k = 10 k = n = 50
mean     1.187 1.108  1.094      1.087
variance 0.094 0.058  0.053      0.051

ये परिणाम अपेक्षित पैटर्न दिखाते हैं कि उच्च मान एक कम निराशावादी पूर्वाग्रह की ओर ले जाते हैं, लेकिन यह भी पुष्टि करते हैं कि LOO मामले में CV अनुमानों का विचरण सबसे कम है, उच्चतम नहीं है।कश्मीर

तो ऐसा प्रतीत होता है कि रेखीय प्रतिगमन उपरोक्त पत्रों में उल्लिखित "स्थिर" मामलों में से एक है, जहां बढ़ते हुए सीवी अनुमानों में विचरण को बढ़ाने के बजाय घटते हुए के साथ जुड़ा हुआ है। लेकिन जो मुझे अभी भी समझ नहीं आ रहा है वह है:कश्मीर

  • क्या वास्तव में यह "स्थिरता" स्थिति है? क्या यह कुछ हद तक मॉडल / एल्गोरिदम, डेटासेट या दोनों पर लागू होता है?
  • क्या इस स्थिरता के बारे में सोचने का एक सहज तरीका है?
  • स्थिर और अस्थिर मॉडल / एल्गोरिदम या डेटासेट के अन्य उदाहरण क्या हैं?
  • ग्रहण करने के लिए यह अपेक्षाकृत सुरक्षित है कि ज्यादातर मॉडल / एल्गोरिदम या डेटासेट "स्थिर" है और इसलिए है कि आम तौर पर के रूप में computationally संभव है उच्च के रूप में चुना जाना चाहिए?कश्मीर

1
+1। आपके सिमुलेशन परिणामों में वास्तव में "मीन" क्या है? सीवी सामान्यीकरण त्रुटि का मतलब है (10000 डेटासेट के माध्यम से)? लेकिन हमें इसकी तुलना किससे करनी चाहिए? वास्तविक सामान्यीकरण त्रुटि से पूर्वाग्रह यानी जड़-माध्य-वर्ग-विचलन दिखाना अधिक सार्थक होगा। साथ ही, इस मामले में "सही सामान्यीकरण त्रुटि" क्या है? किसी दिए गए N = 100 डेटासेट पर अनुमान की सही सामान्यीकरण त्रुटि? या सही सामान्यीकरण त्रुटि का अपेक्षित मूल्य (सभी एन = 100 डेटासेट पर अपेक्षित मूल्य)? या कुछ और?
अमीबा का कहना है कि मोनिका

3
+1। En.wikipedia.org/wiki/… पर संक्षिप्त नज़र डालने के बाद, ऐसा लगता है कि इस संदर्भ में स्थिरता का अर्थ है कि एल्गोरिथ्म और एन - 1 उदाहरणों के साथ निर्धारित प्रशिक्षण पर समान परिणाम उत्पन्न करता है । जहां समान अंतर का अंतर कुछ कम मूल्य से बंधे हुए कुछ नुकसान फ़ंक्शनNN1
Gradukasz ग्रैड

1
इसके अलावा, मैंने हाल ही में इसके बारे में @DikranMarsupial (जो शायद सीवी पर हमारे क्रॉस-वैल्यूएशन पर हमारे मुख्य विशेषज्ञों में से एक है) के साथ यहां टिप्पणियों में बात की है - उन्होंने कोहावी के 1995 के पेपर को पढ़ने का सुझाव दिया । डिक्रान भी स्थिरता की बात कर रहे थे। दुर्भाग्य से, मैंने तब से इसका पालन नहीं किया।
अमीबा का कहना है कि मोनिका

2
मुझे ऐसा नहीं लगता, @ जेक। जो मैंने लिखा है वह आपके "प्रति-अंतर्ज्ञान" को अमान्य करता है, लेकिन मुख्य "अंतर्ज्ञान" (विभिन्न सिलवटों से अत्यधिक आश्रित होने के बारे में मॉडल) अभी भी पकड़ कर सकते हैं।
अमीबा का कहना है कि मोनिका

1
एक और सिमुलेशन अपने निष्कर्ष का समर्थन विचरण के साथ कम हो जाती है कि : stats.stackexchange.com/a/357749/28666कश्मीर
अमीबा का कहना है कि मोनिका

जवाबों:


15

यह उत्तर बायस में मेरे उत्तर पर है और छुट्टी-वन-आउट बनाम के-गुना क्रॉस सत्यापन में विचरण करता है जो इस बात पर चर्चा करता है कि एलओओसीवी हमेशा उच्च विचरण क्यों नहीं करता है । इसी तरह के दृष्टिकोण के बाद, मैं एक ऐसे मामले को उजागर करने का प्रयास करूंगा जहां LOOCV आउटलेर्स और "अस्थिर मॉडल" की उपस्थिति में उच्च विचरण को जन्म देती है

एल्गोरिथम स्थिरता (सिद्धांत सीखना)

एल्गोरिदमिक स्थिरता का विषय हाल ही में एक और कई क्लासिक है, पिछले 20 वर्षों में अनंतिम परिणाम साबित हुए हैं। यहां कुछ कागजात दिए गए हैं जो अक्सर उद्धृत किए जाते हैं

समझ हासिल करने के लिए सबसे अच्छा पृष्ठ निश्चित रूप से विकिपीडिया पृष्ठ है जो एक उत्कृष्ट सारांश बहुत ही जानकार उपयोगकर्ता द्वारा लिखित उत्कृष्ट सारांश प्रदान करता है।

स्थिरता की सहज परिभाषा

सहज रूप से, एक स्थिर एल्गोरिथ्म एक है जिसके लिए प्रशिक्षण डेटा थोड़ा संशोधित होने पर भविष्यवाणी में बहुत बदलाव नहीं होता है।

औपचारिक रूप से, स्थिरता के आधा दर्जन संस्करण हैं, तकनीकी स्थितियों और पदानुक्रमों से एक साथ जुड़े हुए हैं, उदाहरण के लिए इस ग्राफिक को यहां से देखें :

यहाँ छवि विवरण दर्ज करें

उद्देश्य हालांकि सरल है, हम एक विशिष्ट शिक्षण एल्गोरिथ्म के सामान्यीकरण त्रुटि पर तंग सीमा प्राप्त करना चाहते हैं, जब एल्गोरिथ्म स्थिरता स्थिरता को संतुष्ट करता है। जैसा कि एक की उम्मीद होगी, स्थिरता मानदंड जितना अधिक प्रतिबंधात्मक होगा, उतना ही बाध्य होगा।

नोटेशन

निम्नलिखित सूचना विकिपीडिया लेख से है, जो खुद Bousquet और Elisseef पेपर की प्रतिलिपि बनाता है:

  • प्रशिक्षण सेट एक अज्ञात वितरण D से iid निकाला जाता हैS={z1=(x1,y1),...,zm=(xm,ym)}
  • एक उदाहरण z के संबंध में परिकल्पना f का नुकसान फ़ंक्शन को V ( f , z ) के रूप में परिभाषित किया गया है।VfzV(f,z)
  • हम -th तत्व को हटाकर प्रशिक्षण सेट को संशोधित करते हैं : एस | मैं = { z 1 , , जेड मैं - 1 , जेड मैं + 1 , , z m }iS|i={z1,...,zi1,zi+1,...,zm}
  • या की जगह मई के तत्व: एस मैं = { z 1 , , z i - 1 , ziSi={z1,...,zi1,zi,zi+1,...,zm}

औपचारिक परिभाषाएँ

शायद स्थिरता की सबसे मजबूत धारणा जो एक दिलचस्प शिक्षण एल्गोरिथ्म को मानने की उम्मीद की जा सकती है, वह है एकसमान स्थिरता :

यूनिफ़ॉर्म स्टेबिलिटी एक अल्गोरिद्म में यूनिफ़ॉर्म स्टेबिलिटी है stability wth फ़ॉर लॉस फंक्शन V के लिए यदि निम्नलिखित है तो:βवी

एसजेडमीटर  मैं{1,,मीटर},  सुड़कना|वी(रों,z)-वी(एस|मैं,z)|  β

के एक समारोह के रूप में माना , अवधि β के रूप में लिखा जा सकता है β मीटर । हम कहते हैं कि एल्गोरिथ्म स्थिर है जब dec m 1 के रूप में घटता हैमीटरββमीटरβमीटर । स्थिरता का थोड़ा कमजोर रूप है:1मीटर

परिकल्पना स्थिरता

मैं{1,,मीटर},  [ |वी(रों,z)-वी(एस|मैं,z)| ] β

यदि एक बिंदु को हटा दिया जाता है, तो लर्निंग एल्गोरिदम के परिणाम में अंतर को नुकसान ( मानक) के औसत निरपेक्ष अंतर से मापा जाता है । सहज रूप से: नमूने में छोटे परिवर्तन केवल एल्गोरिथ्म को पास की परिकल्पना में ले जाने का कारण बन सकते हैं।एल1

स्थिरता के इन रूपों का लाभ यह है कि वे स्थिर एल्गोरिदम के पूर्वाग्रह और विचरण के लिए सीमा प्रदान करते हैं। विशेष रूप से, बॉस्केट ने 2002 में यूनिफॉर्म और हाइपोथिसिस स्थिरता के लिए इन सीमाओं को साबित कर दिया। तब से, स्थिरता की स्थिति को शांत करने और सीमा को सामान्य करने की कोशिश करने के लिए बहुत काम किया गया है, उदाहरण के लिए 2011 में, काले, कुमार, वासिलिट्सकी का तर्क है कि वर्ग स्थिरता। बेहतर विचरण मात्रात्मक विचरण कमी सीमा प्रदान करता है।

स्थिर एल्गोरिदम के कुछ उदाहरण

निम्नलिखित एल्गोरिदम को स्थिर दिखाया गया है और सामान्यीकरण सीमा को सिद्ध किया है:

  • नियमित रूप से कम से कम वर्ग प्रतिगमन (उपयुक्त पूर्व के साथ)
  • केएनएन क्लासिफायर 0-1 नुकसान समारोह के साथ
  • एक बंधे हुए कर्नेल और बड़े नियमितकरण के साथ एसवीएम
  • सॉफ्ट मार्जिन एसवीएम
  • वर्गीकरण के लिए न्यूनतम सापेक्ष एन्ट्रॉपी एल्गोरिदम
  • नियमित रूप से बैगिंग का एक संस्करण

एक प्रयोगात्मक सिमुलेशन

पिछले धागे से प्रयोग को दोहराते हुए ( यहां देखें ), हम अब डेटा सेट में आउटलेर्स के एक निश्चित अनुपात का परिचय देते हैं। विशेष रूप से:

  • [-.5,.5]
  • साथ डेटा का 3%[-20,20]

3

यहाँ छवि विवरण दर्ज करें

पहले के रूप में सिमुलेशन प्रदर्शन करना और परिणामी औसत MSE और MSE के विचरण की साजिश करना बेंगियो और ग्रैंडवेल्ट 2004 पेपर के प्रयोग 2 के समान परिणाम देता है ।

लेफ्ट हैंड साइड : कोई आउटलेयर नहीं। राइट हैंड साइड : 3% आउटलेर।

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

(अंतिम आंकड़े की व्याख्या के लिए जुड़ा हुआ पेपर देखें)

स्पष्टीकरण

दूसरे धागे पर Yves Grandvalet का जवाब उद्धृत करते हुए :

सहज रूप से, [अस्थिर एल्गोरिदम की स्थिति में], छुट्टी-एक-आउट सीवी अस्थिरताओं के लिए अंधा हो सकता है, लेकिन प्रशिक्षण डेटा में एक भी बिंदु को बदलकर ट्रिगर नहीं किया जा सकता है, जो इसे के बोध के लिए अत्यधिक परिवर्तनशील बनाता है। प्रशिक्षण सेट।

व्यवहार में LOOCV के कारण विचरण में वृद्धि का अनुकरण करना काफी कठिन है। इसमें अस्थिरता के एक विशेष संयोजन की आवश्यकता होती है, कुछ आउटलेयर लेकिन बहुत अधिक नहीं, और बड़ी संख्या में पुनरावृत्तियों। शायद यह उम्मीद है क्योंकि रैखिक प्रतिगमन को काफी स्थिर दिखाया गया है। उच्चतर आयामी डेटा और अधिक अस्थिर एल्गोरिथ्म (जैसे निर्णय वृक्ष) के लिए एक दिलचस्प प्रयोग इसे दोहराना होगा


+1 लेकिन मुझे उम्मीद है कि यह धागा अंततः लिंक किए गए डुप्लिकेट के रूप में बंद हो सकता है (मैं तब तक प्रतीक्षा करूंगा जब तक कि बाउंटी अवधि खत्म न हो जाए और चर्चाएं वश में हो जाएं, और देखें कि क्या जवाब स्वीकार किया जा रहा है)। मैं बाद में टिप्पणी करूंगा।
अमीबा का कहना है कि

मैं वास्तव में आश्वस्त नहीं हूं कि प्रश्न डुप्लिकेट है। मेरा प्रश्न मुख्य रूप से LOO मुद्दे के विचरण का उपयोग करता है, मुख्य प्रश्नों को फ्रेम करने के तरीके के रूप में, जो कि "स्थिरता" का एक अनुमानित विवरण प्राप्त करने की कोशिश कर रहे हैं - ओपी के ऊपर और नीचे बुलेट-पॉइंट किए गए प्रश्नों को देखें। जिस पर बोलते हुए, यह उत्तर उपयोगी है (+1), मैं यह नहीं देख सकता कि आपने स्थिरता के सवालों के जवाब देने का प्रयास किया है ... आप एक-दो बार इस शब्द का उपयोग करते हैं, लेकिन आप ऐसा करते हैं जैसे कि पाठक मानता है कि इसका क्या मतलब है पहले से ही जानता है। निश्चित नहीं है कि मैं इसके वर्तमान रूप में उत्तर स्वीकार कर सकता हूं।
जेक वेस्टफॉल

1
@JakeWestfall जब मैंने लिखा कि मुझे "उम्मीद" है कि यह धागा अंततः डुप्लिकेट के रूप में बंद हो सकता है, तो मेरा मतलब था कि मुझे उम्मीद है कि उस धागे में एक स्वीकृत उत्तर अंततः बहुत अच्छा होगा कि यह उन चीजों को कवर करेगा जो आपने के बारे में पूछा है :) बेंगियो और ग्रैंडवेल्ट पेपर, प्रयोग 2 पर एक नज़र डालें। वे बताते हैं कि रैखिक प्रतिगमन और गॉसियन डेटा का उपयोग करके उन्हें LOOCV के लिए न्यूनतम विचरण मिलता है (यह आपका परिणाम भी है), लेकिन यदि डेटा में कुछ अंश आउटलेयर के होते हैं - LOOCV में 10 से अधिक विचरण होता है- गुना या ऐसा। मुझे लगता है कि यह प्रासंगिक "स्थिरता" के बारे में संकेत देता है।
अमीबा का कहना है कि मोनिका

3
मुझे यह पसंद है @XavierBourretSicotte। इस उत्तर पर इतना महान काम करने के लिए धन्यवाद।
जेक वेस्टफॉल

1
हां, इस पेपर को उद्धृत करते हुए: pdfs.semanticscholar.org/bf83/… : "एक स्थिर एल्गोरिथ्म में वह गुण है जो अपने शिक्षण सेट में एक तत्व को प्रतिस्थापित करता है, इसके परिणाम में बहुत बदलाव नहीं होता है। परिणामस्वरूप, अनुभवजन्य त्रुटि, यदि एक के रूप में सोचा जाए। रैंडम वैरिएबल में एक छोटा विचरण होना चाहिए। स्थिर एल्गोरिदम फिर अपनी सामान्य त्रुटि के लिए अनुभवजन्य त्रुटि के लिए अच्छे उम्मीदवार हो सकते हैं।
जेवियर बोरेट सिस्कोट

2

मैं अपना उत्तर उस अनुच्छेद के संदर्भ में दूंगा जिसका आप हवाला देते हैं:

K = N के साथ, क्रॉस-सत्यापन अनुमानक सही (अपेक्षित) भविष्यवाणी त्रुटि के लिए लगभग निष्पक्ष है, लेकिन उच्च विचरण हो सकता है क्योंकि एन "प्रशिक्षण सेट" एक दूसरे के समान हैं।

सही (अपेक्षित) पूर्वानुमान त्रुटि के सीवी अनुमानक एक प्रशिक्षण सेट उदाहरण पर आधारित है, इसलिए, जब मैं सही ढंग से समझता हूं कि प्रशिक्षण सेट नमूनों पर उम्मीद खत्म हो गई है।

तो, "उच्च विचरण" के बारे में यह पैराग्राफ क्या कहता है कि अपेक्षित त्रुटि और सीवी द्वारा अनुमानित त्रुटि के बीच "उच्च" अंतर है (जो यहां है, औसत से अधिक गुना)।

यह समझ में आता है क्योंकि मॉडल एक विशेष प्रशिक्षण सेट के लिए उपयुक्त है और क्योंकि सभी प्रशिक्षण तह छुट्टी-एक-बाहर के समान हैं। हालांकि, जबकि प्रशिक्षण तह सीवी दौर के भीतर बहुत समान हैं, अनुमान शायद बहुत भिन्न होता है यदि हम सीवी के लिए प्रशिक्षण नमूने स्वैप करते हैं। के-फोल्ड सीवी में, चूंकि हम प्रशिक्षण सिलवटों को "विविधता" देते हैं, हमारे पास कुछ औसत प्रभाव है, और के-फोल्ड के पार, अनुमान तब कम भिन्न होते हैं।

या दूसरे शब्दों में, लीव-वन-आउट सीवी अनुमानक मूल रूप से लगभग एक होल्डआउट विधि की तरह है, जिसे आप तह नहीं घुमाते हैं और एक सत्यापन सेट पर अपनी त्रुटि का अनुमान लगाते हैं। फिर से, प्रशिक्षण के उदाहरणों में, के-फोल्ड के अनुमानों की तुलना में एक उच्च विचरण होगा, जहां आप पहले से ही के-फोल्ड राउंड के भीतर कुछ विविध मॉडलों को प्रशिक्षित करके सिलवटों का औसत रखते हैं (दूसरे शब्दों में, यदि आप प्रशिक्षण सेट स्वैप करते हैं, तो अनुमान का अनुमान है) k- गुना के माध्यम से त्रुटि शायद इतनी भिन्न नहीं होगी)।

संपादित करें:

जब मैं सामान्य रूप से क्रॉस-मान्य और इंटरनेट पर कुछ उत्तर यहां पढ़ता हूं, तो मुझे लगता है कि कुछ अनुमान लगता है कि हम किस अनुमानक का उल्लेख कर रहे हैं। मुझे लगता है कि कुछ लोग k- गुना सीवी आकलनकर्ता के उच्च संस्करण के बनाम उच्च विचरण वाले मॉडल का उल्लेख करते हैं (वर्चस्व वाले विचरण घटक के नुकसान के लिए एमएल की बात है)। और, उत्तर का एक और सेट विचरण को संदर्भित करता है जैसा कि सिलवटों के संबंध में नमूना विचलन होता है जब कोई कहता है कि "के-फोल्ड में उच्च विचरण होता है"। इसलिए, मैं विशिष्ट होने का सुझाव देता हूं, क्योंकि दोनों ही मामलों में उत्तर अलग-अलग हैं।


विचरण की चर्चा करते समय मेरी धारणा यह है कि हम प्रशिक्षण सेट डी पर सीवी अनुमानक के विचरण के बारे में यहाँ परिभाषित के रूप में बात कर रहे हैं: आँकड़े.स्टैकएक्सचेंज . com / questions / 365224/… और यहाँ: आँकड़ेंस्टैटेक्सएक्सचेंज http : //www.questions/325123/… । Yves Grandvalet और Bengio अपने 2004 के पेपर में तर्क देते हैं कि CV अनुमानित भविष्यवाणी त्रुटि का अनुमान लगाता है। आप उनकी प्रतिक्रिया यहां देख सकते हैं: आंकड़े
जेवियर

यदि आप विचरण की विभिन्न परिभाषाओं पर अपने उत्तर को आधार बनाना चाहते हैं, तो मुझे लगता है कि यह औपचारिक परिभाषा और सूत्र जोड़ने में मददगार होगा। शायद मुझे अपने उत्तर में भी ऐसा करना चाहिए ..
जेवियर बॉरेट सिस्कोट

हां, मुझे साहित्य की थोड़ी समीक्षा करने की आवश्यकता है और उत्तर में कुछ सूत्र जोड़ना चाहिए। द एलिमेंट्स ऑफ़ स्टैटिस्टिकल लर्निंग का उद्धरण अभी भी मेरे लिए सहज है, हालांकि, मॉडल में उच्च विचरण होने पर LOOCV का उच्च संस्करण है, क्योंकि यह सिलवटों पर औसत है। यदि किसी मॉडल में उच्च पूर्वाग्रह हैं, दोनों LOOCV और किसी भी k- गुना के अनुमानकों में कम विचरण (पूर्वाग्रह से स्वतंत्र) होना चाहिए क्योंकि भविष्यवाणियां इतनी भिन्न नहीं होंगी। लेकिन पैराग्राफ में बिंदु प्रोब था। अधिकांश मामलों के लिए k- गुना की तुलना में LOOCV

उद्धरण गलत दिखाया गया है - कम से कम सामान्यीकरण के रूप में - मेरे उत्तरों में उद्धृत कई कागजात देखें
जेवियर बॉरेट सिसिली

1

हम इसके माध्यम से पहले हो चुके हैं - आप एक मृत घोड़े के बारे में बहुत गणितीय हो रहे हैं। रॉन कोहावी का (स्टैनफोर्ड-यूनीव) क्लासिक पेपर CV और पूर्वाग्रह-दुविधा यहाँ देखें । जब आप इसे पढ़ रहे होते हैं, तो आप LOOCV प्रदर्शन नहीं करना चाहेंगे, और संभवतः 10-गुना CV और / या बूटस्ट्रैप-पूर्वाग्रह CV के लिए आकर्षित होंगे।

आपको बड़े डेटासेट के बारे में भी सोचना होगा, जिसके लिए एलओओसीवी काफी महंगा है। वर्तमान में, LOOCV वास्तव में अधिकांश समूहों के वर्कफ़्लोज़ / पाइपलाइनों में एक विकल्प नहीं है।

क्या वास्तव में यह "स्थिरता" स्थिति है? क्या यह कुछ हद तक मॉडल / एल्गोरिदम, डेटासेट या दोनों पर लागू होता है?

कश्मीर=nकश्मीर=nकश्मीर=n

LREG एक क्लासिफायरियर के रूप में काम करेगा जब डेटा रैखिक रूप से वियोज्य होते हैं, लेकिन औसतन इसके पूर्वाग्रह बहुत अधिक होंगे, क्योंकि कई डेटासेट रैखिक रूप से अलग नहीं होते हैं।

क्या इस स्थिरता के बारे में सोचने का एक सहज तरीका है?

मेरे विचार से नहीं - चूंकि स्थिरता पर कोई सामान्य नियम नहीं है।

स्थिर और अस्थिर मॉडल / एल्गोरिदम या डेटासेट के अन्य उदाहरण क्या हैं?

यह ओपन एंडेड और बहुत व्यापक है, क्योंकि असीम रूप से बड़ी संख्या में प्रतिक्रियाओं का मुकाबला किया जा सकता है, जो सहायक नहीं होगा।

कश्मीर

कश्मीरकश्मीर । जबकि लगभग 37% डेटा का उपयोग परीक्षण के लिए किया जाएगा (औसतन, 37% ऑब्जेक्ट का चयन नहीं किया जाता है जब प्रतिस्थापन के साथ नमूना किया जाता है), उदाहरण के लिए 5,000 अलग-अलग डेटासेट (बूटस्ट्रैप) हैं, जिनमें से प्रत्येक को अलग-अलग प्रशिक्षण / परीक्षण में विभाजित किया गया है। आपके उदाहरण को कागजात से खींच लिया गया है कि प्रत्येक डेटासेट का उपयोग डेटा का एक वास्तविक एहसास था - जो एक गलत धारणा है।

कश्मीरकश्मीर


आपकी टिप्पणियों के लिए धन्यवाद, लेकिन यह सवाल का जवाब नहीं लगता है।
जेक वेस्टफॉल

ओपी के लिए जोड़ा गया जवाब देखें।
जोल्ट

3
केवल लेख को स्किम कर दिया, लेकिन वे वास्तव में 10x के बारे में अपना दावा बेहद अस्थिर जमीन पर सबसे अच्छा होने के लिए करते हैं । मुझे विश्वास नहीं हो रहा है कि 7k उद्धरण हैं। इसके साथ ही कहा, यह मानने का अच्छा कारण है कि 10x से अधिक लाभ है। जब मेरे पास मौका होगा तब मैं और अधिक अच्छी तरह से पढ़ूंगा।
क्लिफ एबी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.