चूँकि ओपी ने इस प्रश्न पर ध्यान दिया है, इसलिए उसे कुछ ध्यान आकर्षित करना चाहिए, और इस प्रकार यह कुछ सामान्य विचारों पर चर्चा करने के लिए सही जगह है, भले ही यह सीधे ओपी का जवाब न दे।
पहला नाम:
क) क्रॉस-मान्यता सभी अनुमानों / माप तकनीकों का सामान्य नाम है जो ट्रेन सेट से भिन्न परीक्षण सेट का उपयोग करते हैं। पर्यायवाची: आउट-ऑफ-सैंपल या अतिरिक्त-नमूना अनुमान। एंटोनीम: इन-सैंपल आकलन।
इन-सैंपल अनुमान वे तकनीकें हैं जो मॉडल की गुणवत्ता (जरूरी नहीं कि त्रुटि) का अनुमान लगाने के लिए प्रशिक्षण सेट पर कुछ जानकारी का उपयोग करती हैं। यह बहुत सामान्य है यदि मॉडल में उच्च पूर्वाग्रह है - अर्थात - यह डेटा के बारे में मजबूत धारणा बनाता है। रैखिक मॉडल (एक उच्च पूर्वाग्रह मॉडल) में, प्रश्न के उदाहरण के रूप में, एक आर-वर्ग, एआईसी, बीआईसी, विचलन का उपयोग करता है, मॉडल की गुणवत्ता के माप के रूप में - ये सभी नमूना अनुमानक हैं। एसवीएम में, उदाहरण के लिए, डेटा की संख्या के लिए समर्थन वेक्टर में अनुपात डेटा मॉडल की त्रुटि का एक-इन-नमूना अनुमान है।
कई क्रॉस सत्यापन तकनीक हैं:
b) होल्ड-आउट विधि # 1 ऊपर है। सेट को एक प्रशिक्षण और एक परीक्षण में विभाजित करें। प्रशिक्षण और परीक्षण सेट के सापेक्ष आकारों पर चर्चा और प्रथाओं का एक लंबा इतिहास है।
ग) के -फोल्ड - विधि # 2 ऊपर। सुंदर मानक।
d) लीव-वन-आउट - विधि # 3 ऊपर।
ई) बूटस्ट्रैप : यदि आपके सेट में एन डेटा है, तो सेट से एन नमूने के साथ यादृच्छिक रूप से एन नमूनों का चयन करें और इसे प्रशिक्षण के रूप में उपयोग करें। मूल सेट से डेटा, जो किसी भी समय नमूने नहीं लिया गया है, परीक्षण सेट के रूप में उपयोग किया जाता है। मॉडल की त्रुटि के अंतिम अनुमान की गणना करने के लिए अलग-अलग तरीके हैं जो परीक्षण सेट (आउट-ऑफ-सैंपल) और ट्रेन सेट (इन-सैंपल) के लिए त्रुटि दोनों का उपयोग करते हैं। उदाहरण के लिए, .632 बूटस्ट्रैप देखें। मुझे लगता है कि एक .632+ सूत्र भी है - वे सूत्र हैं जो मॉडल के बाहर और नमूना दोनों त्रुटियों का उपयोग करते हुए मॉडल की सच्ची त्रुटि का अनुमान लगाते हैं।
च) उपरोक्त विधि के चयन के लिए ऑर्थोगोनल पुनरावृत्ति का मुद्दा है। लीव-वन-आउट को छोड़कर, उपरोक्त सभी विधियों को किसी भी समय दोहराया जा सकता है। वास्तव में एक दोहराया पकड़ से बाहर, या बार-बार के बारे में बात कर सकते हैं कश्मीर गुना। निष्पक्ष होने के लिए, लगभग हमेशा बूटस्ट्रैप विधि का उपयोग दोहराया फैशन में किया जाता है।
अगला सवाल है, कौन सा तरीका "बेहतर" है। समस्या यह है कि "बेहतर" का क्या मतलब है।
1) पहला उत्तर यह है कि क्या इनमें से प्रत्येक विधि मॉडल त्रुटि के अनुमान के लिए पक्षपाती है (भविष्य के डेटा की अनंत राशि के लिए)।
2) दूसरा विकल्प यह है कि इनमें से प्रत्येक विधि कितनी तेजी से या कितनी अच्छी तरह से सही मॉडल त्रुटि में परिवर्तित होती है (यदि वे पक्षपाती नहीं हैं)। मेरा मानना है कि यह अभी भी शोध का विषय है। मुझे इन दो पत्रों (पे-वाल के पीछे) की ओर इशारा करें लेकिन सार हमें कुछ समझ देता है कि वे क्या हासिल करने की कोशिश कर रहे हैं। यह भी ध्यान दें कि यह बहुत कॉल करने के लिए आम है कश्मीर से ही के रूप में "पार सत्यापन" गुना।
इन विषयों पर संभवतः कई अन्य पत्र हैं। वे केवल कुछ उदाहरण हैं।
3) "बेहतर" का एक और पहलू है: ऊपर दी गई तकनीकों में से किसी एक का उपयोग करके मॉडल त्रुटि का एक विशेष माप दिया जाता है, आप कितना निश्चित हो सकते हैं कि सही मॉडल त्रुटि करीब है।
सामान्य तौर पर, इस मामले में आप त्रुटि के कई उपाय करना चाहते हैं और एक आत्मविश्वास अंतराल (या यदि आप बायेसियन दृष्टिकोण का पालन करते हैं तो एक विश्वसनीय अंतराल) की गणना करें। इस मामले में, मुद्दा यह है कि आप त्रुटि उपायों के सेट के विचरण पर कितना भरोसा कर सकते हैं। सूचना है कि छुट्टी-एक बाहर के अलावा, ऊपर सभी तकनीकों आप कई विभिन्न उपायों (दे देंगे कश्मीर एक के लिए उपायों कश्मीर गुना, एन उपायों के लिए एक n -दोहराए बाहर पकड़) और इस तरह आप विचरण (या मानक विचलन को माप सकते हैं ) इस सेट की और त्रुटि के माप के लिए एक विश्वास अंतराल की गणना करें।
यहां चीजें कुछ जटिल हो जाती हैं। से मैं क्या कागज से समझते हैं की विचरण का कोई निष्पक्ष आकलनकर्ता कश्मीर गुना पार सत्यापन (paywall पीछे नहीं), एक विचरण आप एक से मिलता है विश्वास नहीं कर सकते कश्मीर गुना - तो एक से एक अच्छा विश्वास अंतराल का निर्माण नहीं कर सकते हैं कश्मीर - परतों। इसके अलावा, जो मुझे कागज से समझ में आता है, उसके लिए अनुमानित सांख्यिकीय टेस्ट की तुलना सुपरवाइज्ड क्लासिफिकेशन लर्निंग एलगोरिदम (पेवेल के पीछे नहीं), तकनीकें जो दोहराए गए उपायों का उपयोग करती हैं (बार-बार k-फोल्ड, बार-बार होल्ड-आउट - बूटस्ट्रैप के बारे में निश्चित नहीं) त्रुटि माप के असली विचरण का अनुमान लगाएगा (यह देखने में कुछ आसान है - चूंकि आप एक बहुत बड़ी संख्या को दोहराते हैं, अगर आप एक परिमित सेट से नमूना ले रहे हैं कई बार, वही मान दोहराते रहेंगे, जो माध्य को समान रखते हैं, लेकिन विचरण को कम करते हैं)। इस प्रकार दोहराया गया उपाय तकनीक विश्वास अंतराल पर बहुत आशावादी होगा।
इस आखिरी पेपर में 5 दोहराया 2-गुना करने का सुझाव दिया गया है - जिसे वह 5 × 2 सीवी कहता है - कई उपायों (10) के अच्छे संतुलन के रूप में लेकिन बहुत अधिक पुनरावृत्ति नहीं।
संपादित करें:
बेशक, इनमें से कुछ सवालों के क्रॉस वेलिडेट में शानदार उत्तर हैं (हालांकि कभी-कभी वे आपस में सहमत नहीं होते हैं)। यहाँ कुछ हैं:
वर्गीकरण प्रदर्शन का मूल्यांकन करने के लिए क्रॉस-सत्यापन या बूटस्ट्रैपिंग?
भविष्यवाणी की त्रुटि का अनुमान लगाने के लिए क्रॉस सत्यापन और बूटस्ट्रैपिंग के बीच अंतर
वर्गीकरण प्रदर्शन का मूल्यांकन करने के लिए क्रॉस-सत्यापन या बूटस्ट्रैपिंग?
सत्यापन और मॉडल चयन के लिए बूटस्ट्रैपिंग को समझना
सामान्य तौर पर, टैग क्रॉस-सत्यापन आपका मित्र है।
तो सबसे अच्छा उपाय क्या है? मुझे नहीं पता। मैं 5 × 2 सीवी का उपयोग कर रहा हूं जब मुझे बहुत कठोर होने की आवश्यकता होती है, जब मुझे यह सुनिश्चित करने की आवश्यकता होती है कि एक तकनीक दूसरे से बेहतर है, खासकर प्रकाशनों में। और अगर मैं विचलन या मानक विचलन के किसी भी उपाय को बनाने की योजना नहीं बना रहा हूं, या यदि मेरे पास समय की कमी है, तो मैं एक होल्ड आउट का उपयोग करता हूं - एक होल्ड-आउट में केवल एक मॉडल सीखना है ।