लर्निंग कर्व को देखते हुए नंबर K फोल्ड को चुनना
मैं बहस करने के लिए कि की उपयुक्त संख्या को चुनने के लिए चाहते हैं परतों आकार और सीखने की अवस्था की स्थिति पर एक बहुत निर्भर करता है, ज्यादातर पर इसके प्रभाव के कारण पूर्वाग्रह । यह तर्क, जो छोड़ने के लिए एक-सीवी का विस्तार करता है, काफी हद तक "एलिमेंट्स ऑफ स्टैटिस्टिकल लर्निंग" अध्याय 7.10, पृष्ठ 243 से लिया गया है।K
के प्रभाव पर विचार विमर्श के लिए पर विचरण देखने के लिए यहाँK
संक्षेप में, यदि सीखने की अवस्था में दिए गए प्रशिक्षण सेट के आकार में काफी ढलान है, तो पांच या दस गुना क्रॉस-सत्यापन सत्य भविष्यवाणी त्रुटि को पछाड़ देगा। क्या यह पूर्वाग्रह व्यवहार में कमी है, उद्देश्य पर निर्भर करता है। दूसरी तरफ, क्रॉस-वन-आउट क्रॉस-वैलिडेशन में कम पूर्वाग्रह है लेकिन उच्च विचरण हो सकता है।
एक खिलौना उदाहरण का उपयोग कर एक सहज ज्ञान युक्त दृश्य
इस तर्क को नेत्रहीन समझने के लिए, निम्नलिखित खिलौना उदाहरण पर विचार करें जहां हम एक शोर साइन वक्र के लिए 4 डिग्री बहुपद फिटिंग कर रहे हैं:
सहज और नेत्रहीन, हम उम्मीद करते हैं कि यह मॉडल ओवरफिटिंग के कारण छोटे डेटासेट के लिए खराब तरीके से किराया करेगा। यह व्यवहार लर्निंग कर्व में परिलक्षित होता है, जहाँ हम औसत स्क्वायर एरर बनाम ट्रेनिंग साइज़ के साथ-साथ 1 मानक विचलन के साथ प्लॉट करते हैं । ध्यान दें कि मैंने ESL पृष्ठ 243 में उपयोग किए गए चित्रण को पुन: पेश करने के लिए 1 - MSE को प्लॉट करने के लिए चुना1−±
बहस पर चर्चा
मॉडल का प्रदर्शन काफी सुधार होता है क्योंकि प्रशिक्षण का आकार 50 टिप्पणियों तक बढ़ जाता है। उदाहरण के लिए संख्या को और 200 तक बढ़ाने से केवल छोटे लाभ होते हैं। निम्नलिखित दो मामलों पर विचार करें:
यदि हमारे प्रशिक्षण सेट में 200 अवलोकन होते हैं, तो गुना क्रॉस वैरिफिकेशन 160 के प्रशिक्षण आकार पर प्रदर्शन का अनुमान लगाएगा जो कि वास्तव में प्रशिक्षण सेट आकार 200 के लिए प्रदर्शन के समान है। इस प्रकार क्रॉस-सत्यापन बहुत पूर्वाग्रह से ग्रस्त नहीं होगा और को । बड़ा मूल्य बहुत लाभ नहीं लाएगा ( बाएं हाथ की साजिश )5K
हालाँकि यदि प्रशिक्षण सेट में अवलोकन होते हैं, तो गुना क्रॉस-सत्यापन 40 के आकार के प्रशिक्षण सेटों पर मॉडल के प्रदर्शन का अनुमान लगाता है, और सीखने की अवस्था से यह एक पक्षपाती परिणाम की ओर ले जाएगा। इसलिए इस मामले में बढ़ने से पूर्वाग्रह कम होगा। ( राइट हैंड प्लॉट )।505K
[अद्यतन] - कार्यप्रणाली पर टिप्पणियाँ
आप यहां इस सिमुलेशन के लिए कोड पा सकते हैं । दृष्टिकोण निम्नलिखित था:
- वितरण से 50,000 अंक उत्पन्न जहां का सच विचरण में जाना जाता हैsin(x)+ϵϵ
- Iterate times (उदाहरण 100 या 200 बार)। प्रत्येक पुनरावृत्ति पर, मूल वितरण से बिंदुओं को फिर से खोलकर डेटासेट बदलेंiN
- प्रत्येक डेटा सेट के लिए :
i
- K के एक मान के लिए गुना क्रॉस सत्यापन करेंK
- K- सिलवटों में औसत मीन स्क्वायर एरर (MSE) स्टोर करें
- एक बार जब पूरा हो जाता है, तो के समान मान के लिए डेटासेट पर MSE के औसत और मानक विचलन की गणना करेंiiK
- सभी लिए उपरोक्त चरणों को सीमा दोहराएँ, LOOCV के लिए सभी तरह सेK{5,...,N}
एक वैकल्पिक तरीका यह है कि प्रत्येक पुनरावृत्ति पर सेट किए गए नए डेटा को फिर से जमा न करें और इसके बजाय हर बार समान डेटासेट में फेरबदल करें। यह समान परिणाम देता है।