बाय-वन-आउट बनाम के-गुना क्रॉस सत्यापन में पूर्वाग्रह और विचरण


83

मॉडल भिन्नता और पूर्वाग्रह के संदर्भ में विभिन्न क्रॉस-वैलिडेशन विधियों की तुलना कैसे करें ?

मेरा प्रश्न आंशिक रूप से इस सूत्र से प्रेरित है: में सिलवटों का इष्टतम संख्या गुना पार सत्यापन: छोड़-एक-बाहर सीवी हमेशा सबसे अच्छा विकल्प है? K। वहां उत्तर बताता है कि लीव-वन-आउट क्रॉस-मान्यता के साथ सीखे गए मॉडल में नियमित -फोल्ड क्रॉस-सत्यापन के साथ सीखे गए लोगों की तुलना में अधिक भिन्नता है , जिससे लीव-वन-आउट सीवी एक बदतर विकल्प है।K

लेकिन, मेरा अंतर्ज्ञान मुझसे कहता है कि छुट्टी-एक-बाहर सीवी में एक की तुलना में मॉडलों के बीच अपेक्षाकृत कम विचरण देखना चाहिए गुना सीवी, क्योंकि हम केवल परतों के पार एक डेटा बिंदु जा रहे हैं और परतों के बीच इसलिए प्रशिक्षण सेट में काफी ओवरलैप।K

या दूसरी दिशा में जा रहा है, यदि -fold CV में कम है , तो प्रशिक्षण सेट सिलवटों में काफी अलग होगा, और परिणामस्वरूप मॉडल अलग होने की संभावना है (इसलिए उच्चतर विचरण)।केKK

यदि उपरोक्त तर्क सही है, तो मॉडल को लीव-वन-आउट सीवी के साथ क्यों सीखा गया है, उच्च विचरण है?


2
हाय अमेलियो। कृपया ध्यान दें कि जेवियर वेस्टफॉल के आँकड़े .stackexchange.com / questions / 280665 द्वारा जेवियर और इस पुराने क्यू में नए उत्तर में प्रदान किए गए सिमुलेशन , दोनों दर्शाते हैं कि विचरण साथ घटता है । यह सीधे तौर पर वर्तमान में स्वीकृत उत्तर का खंडन करता है, और सबसे अधिक उत्तर दिया गया उत्तर (जो पहले स्वीकार किया गया था)। मैंने कहीं भी कोई सिमुलेशन नहीं देखा जो इस दावे का समर्थन करता है कि विचरण साथ बढ़ता है और LOOCV के लिए उच्चतम है। केKK
अमीबा

2
धन्यवाद @amoeba मैं दोनों उत्तरों पर प्रगति देख रहा हूं। मैं निश्चित रूप से सबसे उपयोगी और सही एक को स्वीकार किए गए उत्तर बिंदुओं को सुनिश्चित करने के लिए अपना सर्वश्रेष्ठ प्रयास करूंगा।
एमिलियो वाज़केज़-रीना

1
@amoeba see researchgate.net/profile/Francisco_Martinez-Murcia/publication/… व्हिच के साथ विचरण में वृद्धि दर्शाता है
हनन शेटिंगार्ट

यह देखना दिलचस्प होगा कि वह उस ग्राफ को कहां से प्राप्त करता है, पहली बार थीसिस को देखने पर ऐसा लगता है कि यह परिचय अनुभागों में अपनी व्याख्याओं को फिट करने के लिए बनाया गया है। शायद इसका एक वास्तविक सिमुलेशन लेकिन इसकी व्याख्या नहीं की गई है, और यह निश्चित रूप से उसके वास्तविक प्रयोगों से परिणाम नहीं है जो कि कम हैं ...
जेवियर बॉरेट सिसिली

जवाबों:


51

मॉडल को लीव-वन-आउट सीवी के साथ उच्चतर विचरण क्यों सीखा जाएगा?

[TL: DR] हाल की पोस्ट और बहस का सारांश (जुलाई 2018)

इस विषय पर इस साइट पर और वैज्ञानिक साहित्य में, परस्पर विरोधी विचारों, अंतर्ज्ञान और निष्कर्षों के साथ व्यापक रूप से चर्चा की गई है। 2013 में वापस जब यह सवाल पहली बार पूछा गया था, तो प्रमुख विचार यह था कि LOOCV आकार के नमूनों में से मॉडल का निर्माण करने वाले एक प्रशिक्षण एल्गोरिथ्म की अपेक्षित सामान्यीकरण त्रुटि के बड़े विचलन की ओर जाता है ।n(K1)/K

यह दृश्य, हालांकि, एक विशेष मामले का गलत सामान्यीकरण प्रतीत होता है और मैं तर्क दूंगा कि सही उत्तर है: "यह निर्भर करता है ..."

टीका यवेस Grandvalet एक के लेखक 2004 कागज विषय पर मैं सहज तर्क को संक्षेप में प्रस्तुत देंगी:

  1. यदि क्रॉस-वेलिडेशन स्वतंत्र अनुमानों के औसत थे : तो लीव-वन-आउट सीवी एक को मॉडल के बीच अपेक्षाकृत कम विचरण देखना चाहिए क्योंकि हम केवल एक डेटा बिंदु को सिलवटों में स्थानांतरित कर रहे हैं और इसलिए सिलवटों के बीच प्रशिक्षण सेट पर्याप्त रूप से ओवरलैप होता है।
  2. यह सच नहीं है जब प्रशिक्षण सेट अत्यधिक सहसंबद्ध होते हैं : K के साथ सहसंबंध बढ़ सकता है और यह वृद्धि दूसरे परिदृश्य में विचरण की समग्र वृद्धि के लिए जिम्मेदार है। वास्तव में, उस स्थिति में, छुट्टी-वन-आउट सीवी अस्थिरताओं के लिए अंधा हो सकता है, लेकिन प्रशिक्षण डेटा में एक बिंदु को बदलकर ट्रिगर नहीं किया जा सकता है, जो प्रशिक्षण सेट की प्राप्ति के लिए अत्यधिक परिवर्तनशील बनाता है।

इस साइट पर स्वयं और दूसरों से प्रायोगिक सिमुलेशन , साथ ही नीचे लिंक किए गए शोधपत्रों में उन शोधकर्ताओं ने आपको दिखाया है कि विषय पर कोई सार्वभौमिक सच्चाई नहीं है। अधिकांश प्रयोगों में साथ एकरूपता कम या निरंतर विचरण होता है , लेकिन कुछ विशेष मामलों में साथ विचरण को बढ़ाते हुए दिखाया गया है ।केKK

इस उत्तर के बाकी हिस्सों में एक खिलौना उदाहरण और एक अनौपचारिक साहित्य की समीक्षा पर एक सिमुलेशन का प्रस्ताव है।

[अपडेट] आप यहां बाहरी लोगों की उपस्थिति में एक अस्थिर मॉडल के लिए एक वैकल्पिक सिमुलेशन पा सकते हैं ।

एक खिलौना उदाहरण से घटती / निरंतर विचरण दिखाती है

निम्नलिखित खिलौना उदाहरण पर विचार करें जहां हम एक शोर साइन वक्र की डिग्री 4 बहुपद फिटिंग कर रहे हैं। हम इस मॉडल की अपेक्षा ओवरएटिंग के कारण छोटे डेटासेट के लिए खराब तरीके से किराया करते हैं, जैसा कि लर्निंग कर्व द्वारा दिखाया गया है।

यहाँ छवि विवरण दर्ज करें

ध्यान दें कि हम ESLII पृष्ठ 243 से चित्रण को पुन: पेश करने के लिए यहां 1 - MSE प्लॉट करते हैं

 क्रियाविधि

आप यहां इस सिमुलेशन के लिए कोड पा सकते हैं । दृष्टिकोण निम्नलिखित था:

  1. वितरण से 10,000 अंक उत्पन्न जहां का सच विचरण जाना जाता हैεsin(x)+ϵϵ
  2. Iterate times (उदाहरण 100 या 200 बार)। प्रत्येक पुनरावृत्ति पर, मूल वितरण से बिंदुओं को फिर से खोलकर डेटासेट बदलेंएनiN
  3. प्रत्येक डेटा सेट के लिए : i
    • K के एक मान के लिए गुना क्रॉस सत्यापन करेंK
    • K- सिलवटों में औसत मीन स्क्वायर एरर (MSE) स्टोर करें
  4. एक बार जब पूरा हो जाता है, तो के समान मान के लिए डेटासेट पर MSE के औसत और मानक विचलन की गणना करेंमैं कश्मीरiiK
  5. सभी लिए उपरोक्त चरणों को सीमा दोहराएं, एक आउट सीवी (LOOCV) छोड़ने के सभी तरीके{ , , एन }K{5,...,N}

डेटासेट में बीआईए और एमएसई के भिन्न पर प्रभाव ।मैंKi

बाएं हाथ की ओर : 200 डेटा बिंदुओं के लिए, दाएं हाथ की ओर केफल्ड्स: 40 डेटा बिंदुओं के लिए केफल्ड्स

यहाँ छवि विवरण दर्ज करें

एमएसईई के मानक विचलन (डेटा सेटों में i) बनाम कॉफल्ड्स

यहाँ छवि विवरण दर्ज करें

इस सिमुलेशन से, ऐसा लगता है कि:

  • छोटी संख्या के लिए datapoints की, बढ़ती जब तक या तो काफी दोनों पूर्वाग्रह और विचरण बेहतर बनाता है। बड़े लिए पक्षपात या विचरण पर कोई प्रभाव नहीं पड़ता है।के के = 10 केN=40KK=10K
  • अंतर्ज्ञान यह है कि बहुत छोटे प्रभावी प्रशिक्षण आकार के लिए, बहुपद मॉडल बहुत अस्थिर है, विशेष रूप सेK5
  • बड़े - बढ़ते का पूर्वाग्रह और विचरण दोनों पर कोई विशेष प्रभाव नहीं है।केN=200K

एक अनौपचारिक साहित्य की समीक्षा

निम्नलिखित तीन कागजात क्रॉस सत्यापन के पूर्वाग्रह और विचरण की जांच करते हैं

कोहावी 1995

इस कागज को अक्सर इस तर्क के स्रोत के रूप में संदर्भित किया जाता है कि एलओओसी में उच्च विचरण होता है। अनुभाग 1 में:

"उदाहरण के लिए, छुट्टी-वनआउट लगभग निष्पक्ष है, लेकिन इसमें उच्च विचरण है, जो अविश्वसनीय अनुमानों के लिए अग्रणी है (एफ्रॉन 1983)"

यह कथन बहुत भ्रम का स्रोत है, क्योंकि यह 1983 में एफ्रॉन से लगता है, कोहावी नहीं। कोहावी के सैद्धांतिक तर्क और प्रयोगात्मक परिणाम दोनों इस कथन के खिलाफ हैं :

कोरोलरी 2 (सीवी में भिन्नता)

एक डाटासेट और एक inducer दिया। यदि k के गुना सीवी में सिलवटों के लिए परीक्षण इंस्टेंसेस को हटाने के कारण उत्पन्न गड़बड़ी के तहत इंडेनर स्थिर है , तो विभिन्न मानों के लिए , अनुमान का विचरण समान होगाk

प्रयोग अपने प्रयोग में, कोहावी ने दो एल्गोरिदम की तुलना की: एक C4.5 निर्णय पेड़ और UC इरविन रिपॉजिटरी से कई डेटासेट में एक Naive Bayes क्लासिफायरियर। उनके परिणाम निम्न हैं: LHS सटीकता बनाम सिलवटों (यानी पूर्वाग्रह) और RHS मानक विचलन बनाम सिलवटों है

यहाँ छवि विवरण दर्ज करें

वास्तव में, केवल तीन डेटा सेट पर निर्णय ट्री में स्पष्ट रूप से K को बढ़ाने के लिए उच्च विचरण होता है। अन्य परिणाम घटते या निरंतर विचरण दिखाते हैं।

अंत में, हालांकि निष्कर्ष को अधिक दृढ़ता से कहा जा सकता है, लेकिन एलओयू के उच्चतर विचरण के लिए कोई तर्क नहीं है, काफी विपरीत है। अनुभाग 6. सारांश से

"k-fold क्रॉस वैलिडेशन विथ मॉडरेट k वैल्यूज़ (10-20) वेरिएंस को कम करता है ... जैसा कि k-घटता है (2-5) और सैंपल छोटे होते हैं, ट्रेनिंग सेट होने की अस्थिरता के कारण वेरिएशन होता है।

झांग और यांग

लेखक इस विषय पर एक मजबूत दृष्टिकोण लेते हैं और स्पष्ट रूप से धारा 7.1 में बताते हैं

वास्तव में, कम से कम वर्गों रैखिक प्रतिगमन, बर्मन (1989) से पता चलता है कि भविष्यवाणी की त्रुटि का अनुमान लगाने में के-गुना सीवी के बीच, एलओयू (यानी, एन-गुना सीवी) में सबसे छोटा स्पर्शोन्मुख पूर्वाग्रह और विचरण है। ...

... फिर एक सैद्धांतिक गणना ( लू , 2007) से पता चलता है कि एलओयू में सभी संभव n_v विलोपन के साथ सभी डिलीट-एन सीवी के बीच एक ही समय में सबसे छोटा पूर्वाग्रह और विचरण है।

प्रायोगिक परिणाम इसी प्रकार, झांग के प्रयोग K के साथ घटते विचरण की दिशा में इंगित करते हैं, जैसा कि चित्र 3 और चित्र 5 के लिए सही मॉडल और गलत मॉडल के लिए नीचे दिखाया गया है।

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

एकमात्र प्रयोग जिसके लिए साथ विचरण बढ़ता है वह लास्सो और SCAD मॉडल के लिए है। इसे 31 पृष्ठ पर इस प्रकार समझाया गया है:K

हालाँकि, यदि मॉडल चयन शामिल है, तो LOO का प्रदर्शन परिवर्तनशीलता में बिगड़ जाता है क्योंकि मॉडल चयन अनिश्चितता बड़े मॉडल स्थान, छोटे दंड गुणांक और / या डेटा-संचालित दंड गुणांक के उपयोग के कारण अधिक हो जाती है।


11
+11! अंत में एक स्पष्ट सिमुलेशन के साथ एक जवाब! और यह सीधे वर्तमान में स्वीकृत और सबसे अधिक उत्तर दिए गए उत्तरों के निष्कर्ष के खिलाफ जाता है। अपने निष्कर्ष के बारे में: यदि वास्तव में "मॉडल स्थिरता एक महत्वपूर्ण कारक है", तो किसी को एक सिमुलेशन स्थापित करने में सक्षम होना चाहिए जहां साथ विचरण बढ़ेगा । मैंने दो सिमुलेशन देखे हैं: आपका यहाँ, और यह एक और दोनों बताते हैं कि विचरण या तो घटता है या साथ स्थिर रहता है । जब तक मुझे बढ़ते हुए विचरण के साथ एक सिमुलेशन दिखाई नहीं देता, तब तक मैं बहुत संदेह में रहूंगा कि यह कभी भी करता है। केKK
अमीबा

4
@amoeba यहां एक ऐसा मामला है जहां LOOCV विफल रहता है: n डेटा बिंदुओं पर विचार करें और डिग्री एन के एक प्रक्षेप बहुपद। अब प्रत्येक मौजूदा बिंदु पर डुप्लिकेट अधिकार जोड़कर डेटा बिंदुओं की संख्या को दोगुना करें। LOOCV का कहना है कि त्रुटि शून्य है। आपको कोई उपयोगी जानकारी प्राप्त करने के लिए सिलवटों को कम करना होगा।
पॉल

2
इस चर्चा में रुचि रखने वाले लोगों के लिए
जेवियर

1
क्या आपने इस तथ्य पर विचार किया है कि साथ पुनरावृत्ति की अनुमति देता है? यह LOOCV के साथ एक विकल्प नहीं है, और इस तरह इसे ध्यान में रखा जाना चाहिए। k = 10kfoldk=10
D1X

1
@amoeba: re Kohavi / LOO और विचरण। मैंने पाया कि कुछ वर्गीकरण मॉडल के लिए LOO काफी (आश्चर्यजनक रूप से) अस्थिर हो सकते हैं। यह विशेष रूप से छोटे नमूने के आकार में उच्चारित किया जाता है, और मुझे लगता है कि यह परीक्षण केस से संबंधित है जो हमेशा उस वर्ग से संबंधित होता है जो अंडरट्रैक्ट राइट के अधीन होता है। संपूर्ण नमूना: द्विआधारी वर्गीकरण में स्तरीकृत अवकाश-2-आउट में यह समस्या नहीं है (लेकिन मैंने बड़े पैमाने पर परीक्षण नहीं किया था)। यह अस्थिरता प्रेक्षणित विचरण में जोड़ देती है, जिससे LOO k के अन्य विकल्पों से बाहर हो जाता है। IIRC, यह कोहावी के निष्कर्षों के अनुरूप है।
जुलाब

45

में गुना पार सत्यापन हम में एक डाटासेट विभाजन समान रूप से आकार गैर-अतिव्यापी सबसेट । प्रत्येक गुना , एक मॉडल पर प्रशिक्षित किया जाता है , जिसे बाद में पर मूल्यांकन किया । उदाहरण के लिए, भविष्यवाणी की त्रुटि के क्रॉस-वेलिडेशन अनुमानक को प्रत्येक तह पर प्राप्त भविष्यवाणी त्रुटियों के औसत के रूप में परिभाषित किया गया है।कश्मीर एस एस मैं एस एस मैं एस मैंkkSSiSSiSi

हालांकि, परीक्षण सेटों के बीच कोई ओवरलैप नहीं है, जिस पर मॉडल का मूल्यांकन किया जाता है, सभी के प्रशिक्षण सेटों के बीच ओवरलैप होता है । ओवरलैप छुट्टी-एक-आउट क्रॉस-सत्यापन के लिए सबसे बड़ा है। इसका मतलब यह है कि सीखे हुए मॉडल सहसंबंधित होते हैं, अर्थात निर्भर होते हैं, और सहसंबंधित चरों के योग का विचरण सहसंयोजक की मात्रा के साथ बढ़ता है ( देखें विकिपीडिया ):k>2

Var(i=1NXi)=i=1Nj=1NCov(Xi,Xj)

इसलिए, छोड़-एक-बाहर पार सत्यापन छोटे से सीवी की तुलना में बड़े विचरण है ।k

हालांकि, ध्यान दें कि दो-गुना क्रॉस सत्यापन के दौरान प्रशिक्षण सेटों को ओवरलैप करने की समस्या नहीं होती है, अक्सर इसमें बड़े संस्करण भी होते हैं क्योंकि प्रशिक्षण सेट मूल नमूने का केवल आधा आकार होता है। एक अच्छा समझौता दस गुना क्रॉस-सत्यापन है।

कुछ रोचक कागजात जो इस विषय को छूते हैं (कई और अधिक):


5
+1 (बहुत समय पहले), लेकिन अब आपके उत्तर को फिर से पढ़ना, मैं निम्न बिट से भ्रमित हूं। आप कहते हैं कि 2-गुना सीवी "अक्सर बड़े विचरण करते हैं क्योंकि प्रशिक्षण सेट केवल आधे आकार के होते हैं"। मैं समझता हूं कि प्रशिक्षण का दो गुना छोटा होना एक समस्या है, लेकिन यह "बड़ा विचरण" क्यों देता है? इसके बजाय "बड़े पूर्वाग्रह" नहीं होना चाहिए? तब सिलवटों की संख्या को चुनने का पूरा मुद्दा एक पूर्वाग्रह-विचरण व्यापार-बंद हो जाता है, जो कि अक्सर प्रस्तुत किया जाता है।
अमीबा

1
@ सेबैस्टियन मुझे लगता है कि इस संदर्भ में "विचरण" से तात्पर्य "संचित" मॉडल के प्रदर्शन (सभी फोल्ड पर योग ) से है न कि स्वयं सिलवटों के विचरण से , जैसा कि आप पिछले दो वाक्यों में करते हैं। k
अमीबा

3
कुछ साहित्य में बस देख रहा था। दिलचस्प बात यह है कि स्टैटिस्टिकल लर्निंग जेम्स, विटेन, हस्ति और टिब्शिरानी के परिचय में LOOCV का कहना है, "यह अत्यधिक परिवर्तनशील है, क्योंकि यह एकल अवलोकन (X1, y1) पर आधारित है।" और सांख्यिकीय सीखने के तत्वों में Hastie & Tibshirani & Friedman का कहना है कि LOOCV में "उच्च विचरण हो सकता है क्योंकि N प्रशिक्षण सेट एक दूसरे के समान हैं।"

2
यह गलत है। विचरण = । आप सही कह रहे हैं कि एन्यूमरेटर बड़ा है, लेकिन भाजक भी बड़ा हो जाता है। Σ Σ सी वी ( एक्स मैं , एक्स जे ) / n 2var[Σxi/n]ΣΣcov(xi,xj)/n2
को उत्तर

3
नहीं, यह वास्तव में "संपूर्ण बिंदु" नहीं है। लोग हर समय एक वैश्विक अनुमान प्राप्त करने के लिए k-fold CV का उपयोग करते हैं। आप निश्चित रूप से अन्य तरीकों से कई गुना अनुमानों का उपयोग करने की कोशिश कर सकते हैं, लेकिन उन्हें एक साथ रखना एक मॉडलिंग तकनीक के प्रदर्शन का अनुमान लगाने के सबसे सामान्य तरीकों में से एक है। और यह ठीक वही है जो ईएसएल के Eq 7.48 कर रहा है।
पॉल

27

[...] मेरे अंतर्ज्ञान मुझसे कहता है कि छुट्टी-एक-बाहर सीवी एक की तुलना में में मॉडलों के बीच अपेक्षाकृत कम विचरण देखना चाहिए गुना सीवी, क्योंकि हम केवल परतों और परतों के बीच इसलिए प्रशिक्षण सेट भर में एक डेटा बिंदु जा रहे हैं ओवरलैप काफी हद तक।K

मुझे लगता है कि यदि आप प्रत्येक लीव-वन-आउट फोल्ड पर मॉडल द्वारा की गई भविष्यवाणियों के बारे में सोच रहे हैं, तो आपका अंतर्ज्ञान समझदार है। वे सहसंबद्ध / बहुत समान डेटा (पूर्ण डेटासेट एक डेटा बिंदु) पर आधारित हैं और इसलिए समान भविष्यवाणियां करेंगे - यानी, कम परिवर्तनशीलता।

हालांकि भ्रम की स्थिति यह है कि जब लोग LOOCV के बारे में उच्च परिवर्तनशीलता के बारे में बात करते हैं, तो वे होल्डआउट सेट पर क्रॉस-वैलिडेशन के उस लूप के दौरान बनाए गए कई मॉडलों द्वारा की गई भविष्यवाणियों के बारे में बात नहीं कर रहे हैं। इसके बजाय, वे इस बारे में बात कर रहे हैं कि आपके अंतिम चुने गए मॉडल (LOOCV के माध्यम से चुने गए) में कितनी परिवर्तनशीलता है यदि आप नए प्रशिक्षण सेटों पर उस सटीक मॉडल / मापदंडों को प्रशिक्षित करते हैं - प्रशिक्षण सेट आपके मॉडल को पहले नहीं देखा है। इस मामले में, परिवर्तनशीलता अधिक होगी।

परिवर्तनशीलता अधिक क्यों होगी? इसे थोड़ा सरल करते हैं। कल्पना करें कि मॉडल चुनने के लिए LOOCV का उपयोग करने के बजाय, आपके पास बस एक प्रशिक्षण सेट था और फिर आपने उस प्रशिक्षण डेटा का उपयोग करके निर्मित मॉडल का परीक्षण किया, कहते हैं, 100 एकल परीक्षण डेटा बिंदुओं पर 100 बार (डेटा बिंदु प्रशिक्षण सेट का हिस्सा नहीं हैं) । यदि आप उन 100 परीक्षणों में सबसे अच्छा करने वाले मॉडल और पैरामीटर सेट को चुनते हैं, तो आप एक का चयन करेंगे जो इस विशेष प्रशिक्षण सेट को परीक्षण डेटा की भविष्यवाणी करने में वास्तव में अच्छा होने की अनुमति देता है। आप संभावित रूप से एक मॉडल चुन सकते हैं जो उस विशेष प्रशिक्षण डेटासेट और होल्डआउट डेटा के बीच 100% संघों को पकड़ता है। दुर्भाग्य से, प्रशिक्षण और परीक्षण डेटा सेट के बीच उन संघों का कुछ हिस्सा शोर या गंभीर संघों होगा, हालांकि परीक्षण सेट बदलता है और आप इस तरफ शोर की पहचान कर सकते हैं, प्रशिक्षण डेटासेट नहीं करता है और आप यह निर्धारित नहीं कर सकते कि शोर के कारण बताया गया विचरण क्या है। दूसरे शब्दों में, इसका मतलब यह है कि इस विशेष प्रशिक्षण डाटासेट के लिए अपनी भविष्यवाणियों को ओवरफिट करें।

अब, यदि आप नए प्रशिक्षण सेटों पर कई बार एक ही पैरामीटर के साथ इस मॉडल को फिर से प्रशिक्षित करने के लिए थे, तो क्या होगा? खैर, एक मॉडल जो प्रशिक्षण डेटा के एक विशेष सेट के लिए ओवरफिट होता है, जब प्रशिक्षण बदलता है (यानी प्रशिक्षण सेट थोड़ा बदल जाता है और मॉडल अपनी भविष्यवाणियों को काफी बदल देगा)।

क्योंकि LOOCV में सभी तह अत्यधिक सहसंबद्ध हैं, यह ऊपर के मामले के समान है (समान प्रशिक्षण स्थापना; विभिन्न परीक्षण बिंदु)। दूसरे शब्दों में, यदि उस विशेष प्रशिक्षण सेट में उन परीक्षण बिंदुओं के साथ कुछ सहज संबंध हैं, तो आपको यह निर्धारित करने में कठिनाइयाँ होंगी कि कौन-से सहसंबंध वास्तविक हैं और कौन से स्थानिक हैं, क्योंकि भले ही परीक्षण सेट में परिवर्तन हो, प्रशिक्षण सेट नहीं होता है।

इसके विपरीत, कम सहसंबद्ध प्रशिक्षण सिलवटों का मतलब है कि मॉडल कई अद्वितीय डेटासेट के लिए फिट होगा। इसलिए, इस स्थिति में, यदि आप मॉडल को किसी अन्य नए डेटा सेट पर फिर से रखते हैं, तो यह एक समान भविष्यवाणी (यानी, छोटी परिवर्तनशीलता) को जन्म देगा।


4
मुझे लगता है कि यह उत्तर स्वीकृत उत्तर से बहुत अधिक स्पष्ट है और विशेष रूप से स्वीकृत उत्तर की व्याख्या करता है।
D1X

आप का क्या मतलब है> "अब, यदि आप इस मॉडल को एक ही पैरामीटर के साथ नए प्रशिक्षण सेटों पर कई बार पुन: प्रशिक्षित करने के लिए थे, तो क्या होगा?"। प्रशिक्षण का अर्थ है, मापदंडों को खोजना? क्या आपके कहने का मतलब हाइपरपैरामीटर है?
मिलोमिंदरबिंदर

14

हालाँकि यह प्रश्न पुराना है, फिर भी मैं एक अतिरिक्त उत्तर जोड़ना चाहूंगा क्योंकि मुझे लगता है कि यह थोड़ा और स्पष्ट करने योग्य है।

मेरा प्रश्न आंशिक रूप से इस धागे से प्रेरित है: K- गुना क्रॉस-सत्यापन में सिलवटों की इष्टतम संख्या: छुट्टी-एक-आउट सीवी हमेशा सबसे अच्छा विकल्प है? । वहाँ का उत्तर बताता है कि लीव-वन-आउट क्रॉस-मान्यता के साथ सीखे गए मॉडल में नियमित के-गुना क्रॉस-सत्यापन के साथ सीखे गए लोगों की तुलना में अधिक भिन्नता है, जिससे लीव-वन-आउट सीवी एक बदतर विकल्प है।

यह उत्तर ऐसा नहीं है, और यह नहीं होना चाहिए। आइए वहां दिए गए उत्तर की समीक्षा करें:

लीव-वन-आउट क्रॉस-सत्यापन आमतौर पर K- गुना की तुलना में बेहतर प्रदर्शन की ओर नहीं ले जाता है, और इसके खराब होने की संभावना अधिक होती है, क्योंकि इसमें अपेक्षाकृत उच्च विचरण होता है (अर्थात इसके मूल्य के बजाय डेटा के विभिन्न नमूनों के लिए अधिक परिवर्तन होता है k- गुना क्रॉस-सत्यापन)।

यह प्रदर्शन के बारे में बात कर रहा है । यहां प्रदर्शन को मॉडल त्रुटि अनुमानक के प्रदर्शन के रूप में समझा जाना चाहिए । आप मॉडल को चुनने के लिए और अपने आप में एक त्रुटि अनुमान प्रदान करने के लिए इन तकनीकों का उपयोग करते समय, k- गुना या LOOCV के साथ क्या अनुमान लगा रहे हैं। यह मॉडल विचरण नहीं है, यह त्रुटि (मॉडल का) के अनुमानक का विचरण है। उदाहरण (*) देखें ।

हालांकि, मेरा अंतर्ज्ञान मुझे बताता है कि लीव-वन-आउट सीवी में के-फोल्ड सीवी की तुलना में मॉडलों के बीच अपेक्षाकृत कम विचरण को देखना चाहिए, क्योंकि हम केवल सिलवटों में एक डेटा बिंदु को स्थानांतरित कर रहे हैं और इसलिए सिलवटों के बीच प्रशिक्षण सेट काफी हद तक ओवरलैप होता है।

वास्तव में, मॉडल के बीच कम विचरण होता है, उन्हें ऐसे डेटासेट से प्रशिक्षित किया जाता है जिनमें आम तौर पर अवलोकन होते हैं! जैसे ही बढ़ता है, वे वस्तुतः एक ही मॉडल बन जाते हैं (कोई स्टोचस्टिटी मानकर नहीं)।n2n

यह ठीक है कि यह मॉडल के बीच कम विचरण और उच्च सहसंबंध है जो अनुमानक बनाता है जिसके बारे में मैं ऊपर बात करता हूं, अधिक विचरण करता है, क्योंकि वह अनुमानक इन सहसंबद्ध मात्राओं का माध्य है, और सहसंबंधित डेटा के माध्य का अंतर असंबद्ध डेटा से अधिक है । यहाँ यह दिखाया गया है कि क्यों: सहसंबद्ध और असंबद्ध डेटा के माध्यम का विचरण

या दूसरी दिशा में जा रहे हैं, यदि K, K-fold CV में कम है, तो प्रशिक्षण सेट सिलवटों में काफी अलग होगा, और परिणामस्वरूप मॉडल अलग होने की संभावना है (इसलिए उच्चतर संस्करण)।

वास्तव में।

यदि उपरोक्त तर्क सही है, तो मॉडल को लीव-वन-आउट सीवी के साथ क्यों सीखा गया है, उच्च विचरण है?

उपरोक्त तर्क सही है। अब, सवाल गलत है। मॉडल का विचरण एक अलग विषय है। एक विचरण है जहाँ एक यादृच्छिक चर है। मशीन लर्निंग में आप कई यादृच्छिक चर के साथ सौदा करते हैं, विशेष रूप से और प्रतिबंधित नहीं: प्रत्येक अवलोकन एक यादृच्छिक चर है; नमूना एक यादृच्छिक चर है; मॉडल, चूंकि यह एक यादृच्छिक चर से प्रशिक्षित है, एक यादृच्छिक चर है; जनसंख्या के सामने आने पर आपका मॉडल जो त्रुटि उत्पन्न करेगा, वह एक यादृच्छिक चर है; और अंतिम लेकिन कम से कम नहीं, मॉडल की त्रुटि एक यादृच्छिक चर है, क्योंकि आबादी में शोर होने की संभावना है (इसे इरेड्यूसबल त्रुटि कहा जाता है)। मॉडल सीखने की प्रक्रिया में शामिल स्टोचैस्टिसिटी होने पर अधिक यादृच्छिकता भी हो सकती है। इन सभी चरों के बीच अंतर करना सबसे महत्वपूर्ण है।


(*) उदाहरण : मान लीजिए आप एक वास्तविक त्रुटि के साथ एक मॉडल है , जहाँ आप को समझना चाहिए त्रुटि है कि मॉडल पूरी आबादी से अधिक का उत्पादन के रूप में। चूँकि आपके पास इस जनसंख्या से लिया गया एक नमूना है, आप एक अनुमान की गणना करने के लिए उस नमूने पर क्रॉस सत्यापन तकनीकों का उपयोग करते हैं , जिसे हम नाम दे सकते हैं । हर अनुमानक के रूप में, एक रैंडम वैरिएबल है, जिसका अर्थ है कि इसका स्वयं का विचरण, , और इसका अपना बायस, । इरेट ठीक वही है जो LOOCV को नियोजित करते समय अधिक होता है। जबकि LOOCV तुलना में एक कम पक्षपाती आकलनकर्ता है के साथerrerrEerr~err~var(err~)E(err~err)var(err~)kfoldk<n , इसका अधिक विचरण है। यह समझने के लिए कि पूर्वाग्रह और विचरण के बीच एक समझौता क्यों वांछित है , मान लीजिए और आपके पास दो अनुमानक हैं: और । पहले वाला इस आउटपुट का उत्पादन कर रहा हैerr=10err~1err~2

err~1=0,5,10,20,15,5,20,0,10,15...
जबकि दूसरा व्यक्ति का निर्माण कर
err~2=8.5,9.5,8.5,9.5,8.75,9.25,8.8,9.2...

पिछले एक, हालांकि इसमें अधिक पूर्वाग्रह हैं, इसे प्राथमिकता दी जानी चाहिए, क्योंकि इसमें बहुत कम विचरण और एक स्वीकार्य पूर्वाग्रह है, अर्थात एक समझौता ( पूर्वाग्रह-विचरण व्यापार-बंद )। कृपया ध्यान दें कि आप न तो बहुत कम विचरण करना चाहते हैं, अगर यह एक उच्च पूर्वाग्रह को पूरा करता है!


अतिरिक्त नोट : इस उत्तर में, मैं इस विषय को घेरने वाली गलतफहमी (जो मुझे लगता है) को स्पष्ट करने की कोशिश करता हूं और विशेष रूप से, बिंदु से बिंदु का उत्तर देने की कोशिश करता है और पूछने वाले पर संदेह करता है। विशेष रूप से, मैं स्पष्ट करने की कोशिश करता हूं कि हम किस विचलन के बारे में बात कर रहे हैं , जो कि यह अनिवार्य रूप से यहां पूछा गया है। यानी मैं उस उत्तर की व्याख्या करता हूं जो ओपी द्वारा जुड़ा हुआ है।

यह कहा जा रहा है, जबकि मैं दावे के पीछे सैद्धांतिक तर्क प्रदान करता हूं, हमने अभी तक, निर्णायक अनुभवजन्य साक्ष्य नहीं पाया है जो इसका समर्थन करता है। तो कृपया बहुत सावधान रहें।

आदर्श रूप से, आपको इस पोस्ट को पहले पढ़ना चाहिए और फिर जेवियर बॉरेट सिसिलोट के उत्तर का संदर्भ देना चाहिए, जो अनुभवजन्य पहलुओं के बारे में एक व्यावहारिक चर्चा प्रदान करता है।

इतना ही नहीं बल्कि, कुछ और ही ध्यान में रखा जाना चाहिए: यहां तक कि अगर विचरण आप में वृद्धि के रूप में (जैसा कि हम अनुभव अन्यथा साबित नहीं किया है) फ्लैट बना हुआ है, के साथ काफी छोटा पुनरावृत्ति (के लिए अनुमति देता है बार-बार कश्मीर गुना ,) जो निश्चित रूप से किया जाना चाहिए, जैसे । यह प्रभावी रूप से विचरण को कम करता है, और LOOCV करते समय कोई विकल्प नहीं है।kkfoldk10 × 10 - f o l d10 × 10fold


2
कृपया ध्यान दें जेवियर द्वारा और भी नए जवाब में प्रदान की जाती सिमुलेशन कि जेक वेस्टफॉल द्वारा इस पुराने क्यू में , दोनों दर्शाते हैं कि विचरण के साथ कम हो जाती है । यह सीधे आपके जवाब का खंडन करता है। अब तक मैंने ऐसा कोई सिमुलेशन नहीं देखा है जो इस दावे का समर्थन करता हो कि विचरण साथ बढ़ता है और LOOCV के लिए उच्चतम है। केKK
अमीबा

3
वे विचरण को एक निश्चित बिंदु तक तक घटाते हैं , जहाँ वह समतल रहता है। यह सैद्धांतिक रूप से दिखाया गया है कि सहसंबद्ध नमूनों के माध्य में अधिक विचरण है, इसलिए परिणाम को सैद्धांतिक रूप से दिखाया गया है। यह कहा जा रहा है, आप सही हैं, एक वास्तविक प्रयोग जो दिखाता है कि यह गायब है । मैं इसका निर्माण करने की पूरी कोशिश करूंगा। kN
D1X

हाँ साथ कमी से के लिए जेवियर्स जवाब में किसी त्रुटि के कारण था। अब यह तय हो गया है और वास्तव में इस रेंज में वैरिएशन एक जैसा है। यह देखते हुए कि दो स्वतंत्र सिमुलेशन एक ही प्रभाव दिखाते हैं, मुझे संदेह है कि एलओओसीवी के उच्चतर संस्करण होने की उम्मीद की जा सकती है। आपका सैद्धांतिक तर्क बहुत हाथ से लहराता है। सहसंबद्ध नमूनों के माध्यम में उच्चतर विचरण तभी होता है जब बाकी सब कुछ समान हो। यह स्पष्ट नहीं है कि 10-गुना बनाम एन-गुना सीवी के लिए बाकी सब कुछ समान है। अपने सिमुलेशन के लिए आगे देख रहे हैं। के = 10 के = एनKK=10K=N
अमीबा

1
अभी तक उन कागजों पर ध्यान नहीं दिया गया है, जब मेरे पास समय होगा तो मैं उन पर एक नजर डालूंगा। फिर भी, ओएलएस रैखिक मॉडल बहुत सरल मॉडल हैं, वास्तव में खुद को कम विचरण के अधीन करते हैं। इतना ही नहीं, उन्होंने क्रॉस-वेलिडेशन के लिए फॉर्मूले बंद कर दिए हैं।
D1X

1
+1 आपके संपादन उत्तर को बहुत स्पष्ट करते हैं - हम प्रशिक्षण सेट -> उच्चतर प्रसरण के बीच सहसंबंध के प्रभाव पर संरेखित होते हैं। व्यवहार में हालांकि (प्रयोगात्मक रूप से) ऐसा लगता है कि प्रशिक्षण सेट हमेशा एक दूसरे के बीच परस्पर संबंधित नहीं होते हैं।
जेवियर बोरेट सिसिलोट

12

मुद्दे वास्तव में सूक्ष्म हैं। लेकिन यह निश्चित रूप से सच नहीं है कि एलओओसीवी का सामान्य रूप से बड़ा विचरण है। हाल ही के एक पेपर में कुछ प्रमुख पहलुओं पर चर्चा की गई है और क्रॉस-वेलिडेशन पर कई व्यापक रूप से गलत धारणाओं को संबोधित किया गया है।

योंगली झांग और युहोंग यांग (2015)। एक मॉडल चयन प्रक्रिया का चयन करने के लिए क्रॉस-सत्यापन। इकोनोमेट्रिक्स जर्नल, वॉल्यूम। 187, 95-112।

निम्नलिखित गलतफहमी अक्सर साहित्य में देखी जाती है, यहां तक ​​कि अब तक:

"लीव-वन-आउट (LOO) CV में छोटे पूर्वाग्रह होते हैं, लेकिन छुट्टी की तुलना में अधिक विचरण होता है"

यह दृश्य काफी लोकप्रिय है। उदाहरण के लिए, कोहावी (1995, धारा 1) में कहा गया है: "उदाहरण के लिए, छुट्टी-एक-आउट लगभग निष्पक्ष है, लेकिन इसमें उच्च विचरण है, जो अविश्वसनीय अनुमानों के लिए अग्रणी है"। हालांकि, बयान आम तौर पर सच नहीं है।

विस्तृत रूप में:

साहित्य में, हाल के प्रकाशनों सहित, अत्यधिक सिफारिशें भी ली गई हैं। 10-गुना CV का उपयोग करने के लिए कोहावी (1995) के सामान्य सुझाव को व्यापक रूप से स्वीकार किया गया है। उदाहरण के लिए, कृताजिक एट अल (2014, पृष्ठ 11) राज्य: "कोहावी [6] और हस्ती एट अल [4] अनुभवजन्य रूप से दिखाते हैं कि वी-गुना क्रॉस-वैलेडेशन की तुलना में लीव-वन-आउट क्रॉस-सत्यापन कम विचरण है"। परिणामस्वरूप वे अपनी सभी संख्यात्मक जांच के लिए 10 गुना सीवी (पुनरावृत्ति के साथ) की सिफारिश लेते हैं। हमारे विचार में, इस तरह की प्रथा भ्रामक हो सकती है। सबसे पहले, कोई भी सामान्य सिफारिश नहीं होनी चाहिए जो सीवी के उपयोग के लक्ष्य को ध्यान में नहीं रखती है। विशेष रूप से, एक उम्मीदवार मॉडल / मॉडलिंग प्रक्रिया के सीवी सटीकता अनुमान के पूर्वाग्रह और विचरण की परीक्षा इष्टतम मॉडल चयन (पहले बताए गए मॉडल चयन के दो लक्ष्यों में से एक के साथ) से बहुत अलग मामला हो सकता है। दूसरा, यहां तक ​​कि सटीकता के अनुमान के संदर्भ तक सीमित, कथन आम तौर पर सही नहीं है। कम अस्थिरता वाले मॉडल / मॉडलिंग प्रक्रियाओं के लिए, LOO में अक्सर सबसे छोटी परिवर्तनशीलता होती है। हमने यह भी प्रदर्शित किया है कि अत्यधिक अस्थिर प्रक्रियाओं के लिए (जैसे, n की तुलना में pn के साथ LASSO), 10-गुना या 5-गुना CVs, परिवर्तनशीलता को कम करते हुए, और भी बदतर bios वृद्धि के कारण LOO की तुलना में काफी बड़ा MSE हो सकता है। कम अस्थिरता वाले मॉडल / मॉडलिंग प्रक्रियाओं के लिए, LOO में अक्सर सबसे छोटी परिवर्तनशीलता होती है। हमने यह भी प्रदर्शित किया है कि अत्यधिक अस्थिर प्रक्रियाओं के लिए (जैसे, n की तुलना में pn के साथ LASSO), 10-गुना या 5-गुना CVs, परिवर्तनशीलता को कम करते हुए, और भी बदतर bios वृद्धि के कारण LOO की तुलना में काफी बड़ा MSE हो सकता है। कम अस्थिरता वाले मॉडल / मॉडलिंग प्रक्रियाओं के लिए, LOO में अक्सर सबसे छोटी परिवर्तनशीलता होती है। हमने यह भी प्रदर्शित किया है कि अत्यधिक अस्थिर प्रक्रियाओं के लिए (जैसे, n की तुलना में pn के साथ LASSO), 10-गुना या 5-गुना CVs, परिवर्तनशीलता को कम करते हुए, और भी बदतर bios वृद्धि के कारण LOO की तुलना में काफी बड़ा MSE हो सकता है।

कुल मिलाकर, आंकड़े 3-4 से, एलओयू और दोहराया 50- और 20-गुना सीवी यहां सबसे अच्छे हैं, 10-गुना काफी खराब है, और k is 5 स्पष्ट रूप से खराब है। भविष्य कहनेवाला प्रदर्शन अनुमान के लिए, हम मानते हैं कि LOO आमतौर पर एक निश्चित मॉडल या एक बहुत ही स्थिर मॉडलिंग प्रक्रिया (जैसे कि हमारे संदर्भ में BIC) के रूप में सबसे अच्छा है और पूर्वाग्रह और विचरण दोनों में सबसे अच्छा है, या सबसे करीब है अधिक अस्थिर प्रक्रिया के लिए MSE (जैसे कि AIC या यहाँ तक कि p ≫ n के साथ LASSO)। हालांकि 10-गुना सीवी (दोहराव के साथ) निश्चित रूप से कभी-कभी सबसे अच्छा हो सकता है, लेकिन अधिक बार, यह एक अजीब स्थिति में है: भविष्यवाणी की त्रुटि के अनुमान के लिए यह लू (पूर्वाग्रह की समस्या के कारण) की तुलना में जोखिम भरा है और आमतौर पर इसे हटाने के लिए बदतर है सर्वश्रेष्ठ उम्मीदवार की पहचान के लिए -n / 2 सीवी।


4
क्या इस उत्तर पर थोड़ा विस्तार करना संभव है, शायद कागज में उठाए गए कुछ प्रमुख पहलुओं को संक्षेप में प्रस्तुत करना?
सिल्वरफिश

3
बहुत दिलचस्प पेपर। कोहावी (1995) की समीक्षा में मैंने महसूस किया कि कई बयानों को व्यापक रूप से व्यापक और बड़े पैमाने पर असंतुलित किया गया था। यह एक लोक-ज्ञान का पेपर है जिसकी महत्वपूर्ण पूछताछ लंबे समय तक होती है।
पॉल

3

पूर्वाग्रह और विचरण के बारे में चर्चा करने से पहले, पहला सवाल यह है:

क्रॉस-वेलिडेशन द्वारा क्या अनुमान लगाया गया है?

हमारे 2004 के जेएमएलआर पेपर में , हम तर्क देते हैं कि, बिना किसी और अनुमान के, -फोल्ड क्रॉस- वैरिफिकेशन , आकार के नमूनों में से मॉडल बनाने वाले प्रशिक्षण एल्गोरिथ्म की अपेक्षित सामान्यीकरण त्रुटि का अनुमान लगाता है । यहां, प्रशिक्षण नमूनों के संबंध में उम्मीद है। इस दृष्टिकोण के साथ, बदलने का अर्थ है अनुमानित मात्रा को बदलना: विभिन्न मूल्यों के लिए पूर्वाग्रह और विचरण की तुलना तब सावधानी के साथ की जानी चाहिए।n ( K - 1 ) / K K KKn(K1)/KKK

कहा जा रहा है कि, हम प्रायोगिक परिणाम प्रदान करते हैं जो बताते हैं कि विचलन साथ एक साथ घट सकता है , या यह कि मध्यवर्ती मान के लिए न्यूनतम हो सकता है। हम अनुमान लगाते हैं कि पहला परिदृश्य स्थिर एल्गोरिदम के लिए (वर्तमान डेटा वितरण के लिए) और दूसरा अस्थिर एल्गोरिदम के लिए होना चाहिए।K

मेरे अंतर्ज्ञान मुझसे कहता है कि छुट्टी-एक-बाहर सीवी में एक से में मॉडलों के बीच अपेक्षाकृत कम विचरण देखना चाहिए , गुना सीवी के बाद से हम केवल परतों के पार एक डेटा बिंदु जा रहे हैं और इसलिए परतों के बीच प्रशिक्षण सेट में काफी ओवरलैप।K

यह अंतर्ज्ञान सही होगा यदि क्रॉस-वेलिडेशन स्वतंत्र अनुमानों का औसत था, लेकिन उन्हें अत्यधिक सहसंबद्ध किया जा सकता है, और यह सहसंबंध साथ बढ़ सकता है । यह वृद्धि ऊपर उल्लिखित दूसरे परिदृश्य में विचरण की समग्र वृद्धि के लिए जिम्मेदार है। सहज रूप से, उस स्थिति में, छुट्टी-एक-आउट सीवी अस्थिरताओं के लिए अंधा हो सकता है, लेकिन प्रशिक्षण डेटा में एक सायन बिंदु को बदलकर ट्रिगर नहीं किया जा सकता है, जो प्रशिक्षण सेट की प्राप्ति के लिए अत्यधिक परिवर्तनशील बनाता है।K


4
+1। CrossValidated में आपका स्वागत है! आपको चर्चा में शामिल होते हुए देखकर बहुत अच्छा लगा। स्मृति में इसे ताज़ा करने के लिए मुझे आपके 2004 के पेपर को फिर से पढ़ना चाहिए, लेकिन मैं सोच रहा हूं कि क्या सीवी के साथ लोगों द्वारा उपयोग किए जाने वाले एल्गोरिदम स्थिर या अस्थिर होने की अधिक संभावना है? मैंने यहां दो सिमुलेशन देखे हैं: एक बहुपद फिटिंग का उपयोग करता है और दूसरा प्रतिगमन का उपयोग करता है । दोनों ही मामलों में साथ LOOCV तक सभी तरह के विचरण कम हो रहे थे। एक अलग परिणाम का निरीक्षण करने के लिए किस तरह के एल्गोरिथ्म का उपयोग करना चाहिए? K
अमीबा

0

मुझे लगता है कि एक और सीधा जवाब है। यदि आप k बढ़ाते हैं, तो परीक्षण सेट छोटे और छोटे हो जाते हैं। चूंकि सिलवटों को बेतरतीब ढंग से नमूना लिया जाता है, इसलिए यह छोटे परीक्षण सेटों के साथ हो सकता है, लेकिन बड़े लोगों के साथ होने की संभावना नहीं है, क्योंकि वे यादृच्छिक फेरबदल के प्रतिनिधि नहीं हैं। एक परीक्षण सेट में रिकॉर्ड की भविष्यवाणी करने के लिए सभी कठिन और दूसरे सभी आसान हो सकते हैं। इसलिए, जब आप प्रति गुना बहुत छोटे परीक्षण सेटों की भविष्यवाणी करते हैं तो विचरण अधिक होता है।


धन्यवाद। दिलचस्प है कि यह तर्क वर्तमान में स्वीकृत जवाब में प्रस्तुत किए गए कुछ हद तक रूढ़िवादी लगता है, जो कि अगर मुझे सही ढंग से समझ में आता है, तो प्रशिक्षण सिलवटों के बीच सहसंयोजक पर ध्यान केंद्रित करता है। यह देखना अच्छा होगा कि आप @ Gitte के उत्तर में इस उत्तर से कैसे संबंधित हैं । Xi
एमिलियो वाज़केज़-रीना

4
ऐसा लगता है जैसे आप क्रॉस सत्यापन के दौरान होल्डआउट सेट में मॉडल की भविष्यवाणियों में परिवर्तनशीलता के बारे में बात कर रहे हैं। मुझे नहीं लगता कि यह बहुत अधिक रुचि है। रुचि क्या है कि क्या आपका अंतिम ट्यून किया गया मॉडल भविष्यवाणियों में बहुत भिन्न होगा, अगर यह अलग-अलग डेटा पर प्रशिक्षित किया जाता है (यानी, प्रशिक्षण सेट के आधार पर आपके मॉडल का सच का अनुमान वास्तव में परिवर्तनशील है)
Captain_ahab

और यदि आप उस समय अनजान डेटा के निरंतर पूर्वानुमानित सेटों के बीच देखे गए बदलावों के माध्यम से नहीं तो अभी तक अनदेखे डेटा पर अपेक्षित भिन्नता का अनुमान कैसे लगा सकते हैं? हालांकि मुझे आपकी बात समझ में आती है, लेकिन परिवर्तनशीलता जो केवल प्रयोगात्मक सेटअप से उपजी है, ब्याज की नहीं है। मेरी प्रतिक्रिया: इसलिए किसी को एक प्रयोगात्मक सेटअप का चयन करने की आवश्यकता है जो नए प्रकार की परिवर्तनशीलता का परिचय न दे। यदि कोई ऐसा करता है, तो दो प्रकार की परिवर्तनशीलता को अलग-अलग नहीं बताया जा सकता है और यह उस प्रकार के विस्तार का अनुमान लगाना अधिक कठिन हो जाता है जो ब्याज का है।
डेविड अर्नस्ट

1
आप इसे सिमुलेशन के साथ दिखा सकते हैं (मैं एक कागज की तलाश करूँगा)। मुझे यकीन नहीं है कि अगर हम पिछले प्रत्येक अभिभावक से बात कर रहे हैं - लेकिन जब जल्दबाजी और लोग LOOCV में प्रशिक्षण सेटों के बीच उच्च सहसंबंध के बारे में बात कर रहे हैं, तो वे जोर देते हैं कि आप मूल रूप से अपने मॉडल को उसी प्रशिक्षण डाटासेट पर प्रशिक्षण देते रहें। यह उस प्रशिक्षण डेटासेट पर ओवरफिटिंग की ओर जाता है। प्रशिक्षण डेटासेट को बदलें, आप परीक्षण उदाहरण X के लिए भविष्यवाणियों को बहुत बदल देंगे। इसके विपरीत यदि आप प्रशिक्षण सेट कम सहसंबद्ध थे, तो आप एक पूरी तरह से नए प्रशिक्षण सेट का उपयोग कर सकते हैं और आपको परीक्षा उदाहरण X के लिए समान भविष्यवाणी
मिलेगी।

मुझे लगता है कि इसमें दो अलग-अलग मुद्दे शामिल हैं। K को बढ़ाने से प्रशिक्षण सेटों के बीच अधिक ओवरलैप होता है जिसके परिणाम आपके द्वारा उल्लिखित हैं। (मैं इसमें से किसी के साथ बहस नहीं कर रहा हूं) उसी समय, k को बढ़ाकर प्रति गुना छोटे परीक्षण सेटों तक ले जाया जाता है, जिसका अर्थ है कि उन सेटों में अवांछित तरीकों से रिकॉर्ड किए जाने की अधिक संभावना है। मुझे लगता है कि पूछे गए विशिष्ट प्रश्न के लिए, यह मुख्य कारण है। प्रशिक्षण सेट ओवरलैप से भी योगदान हो सकता है। (जब आप पुनरावृत्ति का उपयोग करते हैं तो एक तीसरा मुद्दा होता है क्योंकि तब परीक्षण सेट के साथ-साथ ओवरलैप भी होता है।)
डेविड अर्नस्ट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.