मैं इस [बाहरी क्रॉस सत्यापन] आउटपुट से एक मॉडल कैसे चुनूं?
संक्षिप्त उत्तर: आप नहीं।
मॉडल फिटिंग प्रक्रिया के भाग के रूप में आंतरिक क्रॉस सत्यापन का इलाज करें । इसका अर्थ है कि हाइपर-मापदंडों की फिटिंग सहित फिटिंग (यह वह जगह है जहां आंतरिक क्रॉस सत्यापन छुपाता है) किसी भी अन्य मॉडल से बचने की दिनचर्या की तरह है।
बाहरी क्रॉस सत्यापन इस मॉडल फिटिंग दृष्टिकोण के प्रदर्शन का अनुमान लगाता है। उसके लिए आप सामान्य मान्यताओं का उपयोग करें
- बाहरी सरोगेट मॉडल द्वारा बनाया गया 'असली' मॉडल के बराबर हैं सभी डेटा के साथ।k
model.fitting.procedure
- या, मामले में 1. टूट जाता है नीचे (resampling सत्यापन के निराशावादी पूर्वाग्रह), कम से कम बाहरी किराए की मॉडल एक दूसरे के बराबर हैं।
यह आपको परीक्षा परिणामों को पूल (औसत) करने की अनुमति देता है। इसका यह भी अर्थ है कि आपको उनके बीच चयन करने की आवश्यकता नहीं है क्योंकि आप मानते हैं कि वे मूल रूप से एक ही हैं। इस दूसरी, कमजोर धारणा का टूटना मॉडल अस्थिरता है।k
करो नहीं मालूम होता है का सबसे अच्छा लेने कि आम तौर पर सिर्फ "कटाई" परीक्षण अनिश्चितता हो सकता है और एक आशावादी पूर्वाग्रह की ओर जाता है है - किराए की मॉडल।k
तो मैं मॉडल चयन के लिए नेस्टेड सीवी का उपयोग कैसे कर सकता हूं?
भीतरी सीवी चयन करता है।
यह मुझे दिखता है कि उन K जीतने वाले मॉडलों में से सर्वश्रेष्ठ मॉडल का चयन करना उचित नहीं होगा क्योंकि प्रत्येक मॉडल को प्रशिक्षित और डेटासेट के विभिन्न हिस्सों पर परीक्षण किया गया था।
आप कर रहे हैं सही है कि यह कोई अच्छा विचार में से एक चुनना है किराए की मॉडल। लेकिन आप कारण के बारे में गलत हैं। वास्तविक कारण: ऊपर देखें तथ्य यह है कि उन्हें एक ही डेटा पर प्रशिक्षित और परीक्षण नहीं किया जाता है, यहां "चोट" नहीं होती है।k
- एक ही परीक्षण डेटा नहीं होना: जैसा कि आप बाद में दावा करना चाहते हैं कि परीक्षण के परिणाम सामान्य रूप से डेटा को कभी नहीं देखते हैं, इससे कोई फर्क नहीं पड़ सकता है।
- समान प्रशिक्षण डेटा न होना:
- यदि मॉडल स्थिर हैं, तो इससे कोई फर्क नहीं पड़ता है: यहाँ स्थिर का मतलब है कि मॉडल नहीं बदलता है (बहुत) यदि प्रशिक्षण डेटा "खराब" है तो कुछ मामलों को अन्य मामलों द्वारा बदल दिया जाता है।
- यदि मॉडल स्थिर नहीं हैं, तो तीन विचार महत्वपूर्ण हैं:
- आप वास्तव में माप सकते हैं कि क्या और किस हद तक यह मामला है, पुनरावृत्त / बार-बार -fold क्रॉस सत्यापन का उपयोग करके । यह आपको एक ही मामले के लिए क्रॉस सत्यापन परिणामों की तुलना करने की अनुमति देता है जो कि थोड़े भिन्न प्रशिक्षण डेटा पर निर्मित विभिन्न मॉडलों द्वारा भविष्यवाणी की गई थीं।k
- मॉडल स्थिर नहीं कर रहे हैं, विचरण के परीक्षा परिणाम में मनाया गुना पार सत्यापन बढ़ जाती है: यदि आप केवल तथ्य यह है कि केवल मामलों की एक सीमित संख्या में कुल परीक्षण किया जाता है की वजह से विचरण की जरूरत नहीं है, लेकिन अतिरिक्त विचरण है मॉडल की अस्थिरता (भविष्य कहनेवाला क्षमताओं में विचरण) के कारण।k
- यदि अस्थिरता एक वास्तविक समस्या है, तो आप "वास्तविक" मॉडल के प्रदर्शन के लिए अच्छी तरह से एक्सट्रपलेशन नहीं कर सकते।
जो मुझे आपके अंतिम प्रश्न पर लाता है:
बाहरी K के सिलवटों से प्राप्त होने वाले स्कोर के साथ मैं किस प्रकार का विश्लेषण / जाँच कर सकता हूँ?
- भविष्यवाणियों की स्थिरता के लिए जाँच करें (पुनरावृत्त / दोहराया क्रॉस-सत्यापन का उपयोग करें)
अनुकूलित हाइपर-मापदंडों की स्थिरता / भिन्नता के लिए जाँच करें।
एक बात के लिए, बेतहाशा बिखरने वाले हाइपर-पैरामीटर संकेत दे सकते हैं कि आंतरिक अनुकूलन काम नहीं करता है। एक और बात के लिए, यह आपको भविष्य में समान परिस्थितियों में महंगे अनुकूलन कदम के बिना हाइपरपैरामीटर पर निर्णय लेने की अनुमति दे सकता है। महंगा होने के साथ मैं कम्प्यूटेशनल संसाधनों का उल्लेख नहीं करता हूं, लेकिन इस तथ्य के लिए कि यह "लागत" जानकारी है जिसका उपयोग "सामान्य" मॉडल मापदंडों का अनुमान लगाने के लिए बेहतर किया जा सकता है।
चुने हुए मॉडल के आंतरिक और बाहरी अनुमान के बीच अंतर की जांच करें। अगर वहाँ एक बड़ा अंतर है (आंतरिक बहुत overoptimistic जा रहा है), वहाँ एक जोखिम है कि आंतरिक अनुकूलन अच्छी तरह से overfitting की वजह से काम नहीं किया।
अपडेट @ user99889 का सवाल: बाहरी CV अस्थिरता पाता है तो क्या करें?
सबसे पहले, बाहरी सीवी लूप में पता लगाना कि मॉडल उस संबंध में स्थिर भविष्यवाणियों का उत्पादन नहीं करते हैं, वास्तव में यह पता लगाने से अलग नहीं है कि आवेदन के लिए पेडिकिटोन त्रुटि बहुत अधिक है। यह मॉडल सत्यापन (या सत्यापन) के संभावित परिणामों में से एक है जिसका अर्थ है कि हमारे पास जो मॉडल है वह इसके उद्देश्य के लिए फिट नहीं है।
@Davips का जवाब देने वाली टिप्पणी में, मैं आंतरिक सीवी में अस्थिरता से निपटने के बारे में सोच रहा था - यानी मॉडल अनुकूलन प्रक्रिया के हिस्से के रूप में।
लेकिन आप निश्चित रूप से सही हैं: अगर हम बाहरी सीवी के निष्कर्षों के आधार पर अपने मॉडल को बदलते हैं, फिर भी बदले हुए मॉडल के स्वतंत्र परीक्षण का एक और दौर आवश्यक है।
हालाँकि, बाहरी CV में अस्थिरता भी एक संकेत होगा कि अनुकूलन अच्छी तरह से सेट नहीं किया गया था - इसलिए बाहरी CV में अस्थिरता का पता चलता है, आंतरिक CV ने आवश्यक फैशन में अस्थिरता को दंडित नहीं किया है - यह मेरा मुख्य बिंदु होगा ऐसी स्थिति में समालोचक। दूसरे शब्दों में, अनुकूलन भारी-भरकम मॉडल की अनुमति / लीड क्यों देता है?
हालांकि, यहां एक ख़ासियत यह है कि सटीक परिस्थितियों के बारे में सावधानी से विचार करने के बाद IMHO "अंतिम" मॉडल के और बदलाव का बहाना कर सकता है : जैसा कि हमने ओवरफिटिंग का पता लगाया था, मॉडल में कोई प्रस्तावित परिवर्तन (कम df / अधिक प्रतिबंधात्मक या एकत्रीकरण) होगा। कम ओवरफ़िटिंग की दिशा में (या कम से कम हाइपरपरमेटर्स जो ओवरफ़िटिंग के लिए कम प्रवण हैं)। स्वतंत्र परीक्षण का उद्देश्य ओवरफ़िटिंग का पता लगाना है - अंडरफ़िटिंग का पता उन डेटा से लगाया जा सकता है जो पहले से ही प्रशिक्षण प्रक्रिया में उपयोग किया गया था।
इसलिए यदि हम बात कर रहे हैं, तो, PLS मॉडल में अव्यक्त चरों की संख्या को कम करने के बारे में, जो तुलनात्मक रूप से सौम्य होगा (यदि प्रस्तावित परिवर्तन पूरी तरह से अलग प्रकार का मॉडल होगा, तो SVM के बजाय PLS कहें, सभी दांव बंद हो जाएंगे) ), और मैं इसके बारे में और अधिक आराम करूंगा यदि मुझे पता होगा कि हम मॉडलिंग के एक मध्यवर्ती चरण में वैसे भी हैं - आखिरकार, यदि अनुकूलित मॉडल अभी भी अस्थिर हैं, तो कोई सवाल नहीं है कि अधिक मामलों की आवश्यकता है। इसके अलावा, कई स्थितियों में, आपको अंततः उन अध्ययनों को करने की आवश्यकता होगी जो प्रदर्शन के विभिन्न पहलुओं का ठीक से परीक्षण करने के लिए डिज़ाइन किए गए हैं (उदाहरण के लिए भविष्य में प्राप्त डेटा का सामान्यीकरण)। फिर भी, मैं इस बात पर जोर दूंगा कि पूर्ण मॉडलिंग प्रक्रिया को रिपोर्ट करने की आवश्यकता होगी, और इन देर परिवर्तनों के निहितार्थों पर सावधानीपूर्वक चर्चा करने की आवश्यकता होगी।
इसके अलावा, एग्जॉस्ट सहित और आउट-ऑफ-बैग एनालॉग सीवी प्रदर्शन का अनुमान पहले से उपलब्ध परिणामों से संभव होगा - जो कि मॉडल के "पोस्ट-प्रोसेसिंग" का दूसरा प्रकार है जो मैं यहां सौम्य पर विचार करने के लिए तैयार हूं। फिर भी, यह तब बेहतर होता यदि अध्ययन को शुरू से ही यह जांचने के लिए डिज़ाइन किया गया होता कि एकत्रीकरण व्यक्तिगत भविष्यवाणियों पर कोई लाभ नहीं देता (जो यह कहने का एक और तरीका है कि व्यक्तिगत मॉडल स्थिर हैं)।
अपडेट (2019): जितना अधिक मैं इन स्थितियों के बारे में सोचता हूं, उतना ही मैं "नेस्टेड क्रॉस सत्यापन" के पक्ष में आता हूं, जाहिर है कि यह घोंसले के दृष्टिकोण के बिना ।