कैरेट - बार-बार दोहराया जाने वाला के-गुना क्रॉस-सत्यापन बनाम नेस्टेड के-गुना क्रॉस सत्यापन, दोहराया गया

कैरट पैकेज कई मशीन सीखने वाले मॉडल के लिए एक शानदार आर पुस्तकालय है, और मॉडल निर्माण और मूल्यांकन के लिए कई कार्य है। पैरामीटर ट्यूनिंग और मॉडल प्रशिक्षण के लिए, कैरेट पैकेज तरीकों में से एक के रूप में 'दोहराया' को प्रस्तुत करता है।

एक अच्छा अभ्यास के रूप में, पैरामीटर ट्यूनिंग को नेस्टेड के-गुना क्रॉस सत्यापन का उपयोग करके किया जा सकता है जो निम्नानुसार काम करता है:

प्रशिक्षण को 'K' सबसेट में सेट करें
प्रत्येक पुनरावृत्ति में, मॉडल प्रशिक्षण के लिए 'के माइनस 1' सबसेट लें, और मॉडल परीक्षण के लिए 1 सबसेट (होल्डआउट सेट) रखें।
इसके अलावा 'के' माइनस 1 'प्रशिक्षण को' के 'सबसेट में सेट करें, और नए रूप से' के माइनस 1 'सबसेट और पैरामीटर ट्यूनिंग (ग्रिड खोज) के लिए' सत्यापन सेट 'का उपयोग करें। इस चरण में पहचाने जाने वाले सर्वोत्तम पैरामीटर का उपयोग चरण 2 में होल्डआउट सेट पर परीक्षण करने के लिए किया जाता है।

दूसरी ओर, मुझे लगता है, दोहराया के-गुना क्रॉस-वैधीकरण चरण 1 और 2 को दोहरा सकता है क्योंकि हम मॉडल विचरण को खोजने के लिए कई बार चुनते हैं।

हालाँकि, कैरेट नियमावली में एल्गोरिथ्म के माध्यम से जाने से ऐसा लगता है कि 'बार-बार' विधि पार के सत्यापन को दोहराने के अलावा नेस्टेड-के-क्रॉस क्रॉस सत्यापन भी कर सकती है।

मेरे प्रश्न हैं:

क्या कैरेट 'बार-बार' विधि के बारे में मेरी समझ सही है?
यदि नहीं, तो क्या आप कैरेट पैकेज का उपयोग करते हुए 'बार-बार' विधि से नेस्टेड के-फोल्ड क्रॉस सत्यापन का उपयोग करने का उदाहरण दे सकते हैं?

संपादित करें:

इस पद्धति के लेख में विभिन्न क्रॉस सत्यापन रणनीतियों की व्याख्या की गई है और उनकी तुलना की गई है।

Krstajic D, Buturovic LJ, लियो डे और थॉमस एस : जब प्रतिगमन और वर्गीकरण मॉडल का चयन और आकलन करते हैं तो क्रॉस- वैरीफिकेशन नुकसान । रसायन विज्ञान पत्रिका 2014 6 (1): 10। Doi: 10.1186 / 1758-2946-6-10

मुझे "एल्गोरिथम 2: बार-बार स्तरीकृत नेस्टेड-क्रॉस-वेलिडेशन" में दिलचस्पी है और "एल्गोरिथम 3: कैरेट पैकेज का उपयोग करके चर चयन और पैरामीटर ट्यूनिंग के लिए बार-बार ग्रिड-सर्च क्रॉस-सत्यापन । "

cross-validation caret

— मणि
स्रोत

प्रस्तुत (नेस्टेड) एल्गोरिदम के साथ कुछ भी गलत नहीं है, और वास्तव में, यह अलग-अलग डेटा सेट पर पूर्वाग्रह-विचरण समस्या के लिए सभ्य मजबूती के साथ अच्छा प्रदर्शन करेगा। हालाँकि, आपने कभी यह नहीं कहा कि पाठक को उन विशेषताओं को समझना चाहिए जिनका आप उपयोग कर रहे थे वे सबसे "इष्टतम" हैं, इसलिए यदि यह अज्ञात है, तो कुछ फीचर चयन मुद्दे हैं जिन्हें पहले संबोधित किया जाना चाहिए।

सुविधा / संयोजक चयन

$wrapper$ $filter$ यह एक अलग विधि को नियोजित करता है जो सुविधा (पैरामीटर) चयन पूर्वाग्रह को कम करने के प्रयास के रूप में क्लासिफायरियर / मॉडल से बहुत दूर है। फ़ीचर सिलेक्शन (GJ McLachlan) के दौरान फ़िल्टरिंग और सिलेक्शन बायस को रैप करते हुए देखें।

हमेशा एक प्रमुख विशेषता चयन समस्या होती है, जिसके लिए समाधान ऑब्जेक्ट विभाजन (सिलवटों) की एक विधि को लागू करना होता है, जिसमें वस्तुओं को अलग-अलग सेटों में विभाजित किया जाता है। उदाहरण के लिए, 100 पंक्तियों और 100 स्तंभों के साथ एक डेटा मैट्रिक्स का अनुकरण करें, और फिर दूसरे कॉलम में एक बाइनरी वेरिएंट (0,1) का अनुकरण करें - इसे ग्रुपिंग चर कहते हैं। अगला, समूहन चर के रूप में बाइनरी (0,1) चर का उपयोग करके प्रत्येक कॉलम पर टी-परीक्षण चलाएं। अकेले संयोग से 100 टी-परीक्षणों में से कई महत्वपूर्ण होंगे; हालाँकि, जैसे ही आप डेटा मैट्रिक्स को दो तह में विभाजित करते हैं $\mathcal{D}_1$ तथा $\mathcal{D}_2$ , जिनमें से प्रत्येक के पास है $n=50$ महत्वपूर्ण परीक्षणों की संख्या कम हो जाती है। जब तक आप पैरामीटर चयन के दौरान उपयोग करने के लिए सिलवटों की इष्टतम संख्या निर्धारित करके अपने डेटा के साथ इस समस्या को हल कर सकते हैं, तब तक आपके परिणाम संदिग्ध हो सकते हैं। इसलिए आपको प्रत्येक प्रशिक्षण तह, उदाहरण के लिए, अलग-अलग नमूना आकारों में उपयोग किए जाने वाले फ़ंक्शन के रूप में होल्ड-आउट ऑब्जेक्ट्स पर अनुमानित सटीकता का मूल्यांकन करने के लिए कुछ प्रकार के बूटस्ट्रैप-पूर्वाग्रह विधि स्थापित करने की आवश्यकता होगी। $\pi=0.1n, 0.2n, 0,3n, 0.4n, 0.5n$ (अर्थात, सीखने के दौरान उपयोग किए जाने वाले नमूना आकार में वृद्धि) सीवी सिलवटों की एक अलग संख्या के साथ संयुक्त , उदाहरण के लिए, 2, 5, 10, आदि।

अनुकूलन / न्यूनीकरण

आप वास्तव में फ़ंक्शन सन्निकटन के लिए अनुकूलन या न्यूनता समस्या का समाधान कर रहे हैं, उदाहरण के लिए, $y=f(x_1, x_2, \ldots, x_j)$ , जहां उदाहरण के लिए प्रतिगमन या एक भविष्य कहनेवाला मॉडल का उपयोग किया जाता है और $y$ निरंतर बढ़ रहा है। इसे देखते हुए, और अपने पूर्वानुमानों (चयन पूर्वाग्रह, पूर्वाग्रह, प्रशिक्षण वस्तुओं में परीक्षण वस्तुओं से सूचना रिसाव, आदि) में पूर्वाग्रह को कम करने की आवश्यकता को देखते हुए आप झुंड खुफिया तरीकों के उपयोग के दौरान सीवी को नियोजित करने के उपयोग में देख सकते हैं, जैसे कण झुंड अनुकूलन (PSO), चींटी कॉलोनी अनुकूलन, आदि PSO (कैनेडी और एबरहार्ट, 1995 देखें) सीखने के दौरान पैरामीटर अंतरिक्ष के माध्यम से उड़ते हुए कणों के बीच सामाजिक और सांस्कृतिक सूचना विनिमय के लिए पैरामीटर जोड़ता है। एक बार जब आप झुंड खुफिया तरीकों से परिचित हो जाते हैं, तो आप देखेंगे कि आप पैरामीटर निर्धारण में बहुत सारे पूर्वाग्रहों को दूर कर सकते हैं। अंत में, मुझे नहीं पता कि क्या कोई यादृच्छिक वन है (आरएफ, ब्रिमन, जॉन्सन ऑफ मशीन लर्निंग) फ़ंक्शन सन्निकटन के लिए दृष्टिकोण, लेकिन अगर वहाँ है, तो।

— JoleT
स्रोत