जवाबों:
यह विचरण और पूर्वाग्रह (हमेशा की तरह) के लिए नीचे आता है। सीवी कम पक्षपाती होता है, लेकिन के-गुना सीवी में काफी बड़ा विचरण होता है। दूसरी ओर, बूटस्ट्रैपिंग काफी हद तक विचरण को कम करता है, लेकिन अधिक पक्षपाती परिणाम देता है (वे निराशावादी होते हैं)। अन्य बूटस्ट्रैपिंग विधियों को बूटस्ट्रैप पूर्वाग्रह (जैसे 632 और 632+ नियमों) से निपटने के लिए अनुकूलित किया गया है।
दो अन्य दृष्टिकोण "मोंटे कार्लो सीवी" उर्फ "लीव-ग्रुप-आउट सीवी" होंगे जो डेटा के कई यादृच्छिक विभाजन (मिनी-प्रशिक्षण और परीक्षण विभाजन की तरह) करते हैं। इस पद्धति के लिए भिन्नता बहुत कम है और पूर्वाग्रह बहुत खराब नहीं है यदि होल्ड-आउट में डेटा का प्रतिशत कम है। इसके अलावा, दोहराया गया सीवी कई बार के-गुना करता है और नियमित के-गुना के समान परिणाम औसत करता है। मैं इसके लिए सबसे आंशिक हूँ क्योंकि यह कम पूर्वाग्रह रखता है और विचरण को कम करता है।
बड़े नमूना आकारों के लिए, विचरण के मुद्दे कम महत्वपूर्ण हो जाते हैं और कम्प्यूटेशनल भाग एक मुद्दे का अधिक होता है। मैं अभी भी छोटे और बड़े नमूने के आकार के लिए दोहराया सीवी द्वारा छड़ी होगा।
कुछ प्रासंगिक शोध नीचे हैं (एस्प किम और मोलिनारो)।
बेंगियो, वाई।, और ग्रैंडवेल्ट, वाई। (2005)। K- गुना क्रॉस-सत्यापन के विचरण का अनुमान लगाने में पूर्वाग्रह। सांख्यिकीय डेटा और जटिल डेटा समस्याओं के लिए विश्लेषण, 75-95।
ब्रागा-नेटो, यूएम (2004)। लघु-नमूना माइक्रोएरे वर्गीकरण जैव सूचना विज्ञान, 20 (3), 374–380 के लिए क्रॉस-मान्यता मान्य है। डोई: 10.1093 / जैव सूचना विज्ञान / btg419
एफ्रॉन, बी। (1983)। एक भविष्यवाणी नियम की त्रुटि दर का अनुमान: क्रॉस-सत्यापन पर सुधार। जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन, 316–331।
एफ्रॉन, बी।, और तिब्शीरानी, आर। (1997)। क्रॉस-सत्यापन पर सुधार: द। 632+ बूटस्ट्रैप विधि। जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन, 548-560।
फुरलानेलो, सी।, मर्लर, एस।, चेमिनी, सी।, और रिज़ोली, ए। (1997)। पारिस्थितिक डेटा के लिए बूटस्ट्रैप 632+ नियम का एक अनुप्रयोग। WIRN 97।
जियांग, डब्ल्यू।, और साइमन, आर। (2007)। बूटस्ट्रैप विधियों की तुलना और माइक्रोएरे वर्गीकरण में भविष्यवाणी की त्रुटि का आकलन करने के लिए एक समायोजित बूटस्ट्रैप दृष्टिकोण। चिकित्सा में सांख्यिकी, 26 (29), 5320-5334।
जोनाथन, पी।, क्रिज़ानोव्स्की, डब्ल्यू।, और मैककार्थी, डब्ल्यू। (2000)। बहुभिन्नरूपी भविष्यवाणी में प्रदर्शन का आकलन करने के लिए क्रॉस-मान्यता के उपयोग पर। सांख्यिकी और कम्प्यूटिंग, 10 (3), 209–229।
किम, जे.एच. (2009)। वर्गीकरण त्रुटि दर का अनुमान लगाना: बार-बार क्रॉस-सत्यापन, बार-बार होल्ड-आउट और बूटस्ट्रैप। कम्प्यूटेशनल सांख्यिकी और डेटा विश्लेषण, 53 (11), 3735-3745। doi: 10.1016 / j.csda.2009.04.009
कोहावी, आर। (1995)। सटीकता अनुमान और मॉडल चयन के लिए क्रॉस-सत्यापन और बूटस्ट्रैप का एक अध्ययन। आर्टिफिशियल इंटेलिजेंस पर अंतर्राष्ट्रीय संयुक्त सम्मेलन, 14, 1137–1145।
मार्टिन, जे।, और हिर्शबर्ग, डी। (1996)। वर्गीकरण त्रुटि दर I के लिए छोटे नमूना आँकड़े: त्रुटि दर माप।
मोलिनारो, एएम (2005)। भविष्यवाणी की त्रुटि का अनुमान है: तुलनात्मक तरीकों की तुलना। जैव सूचना विज्ञान, 21 (15), 33013307। डोई: 10.1093 / जैव सूचना विज्ञान / bti499
सॉरेबरी, डब्ल्यू।, और शूमाकर 1, एम। (2000)। डेटा-चालित प्रतिगमन मॉडल की जटिलता का आकलन करने के लिए बूटस्ट्रैप और क्रॉस-वैलिडेशन। मेडिकल डेटा विश्लेषण, 26-28।
तिब्शीरानी, आरजे, और तिब्शीरानी, आर। (2009)। क्रॉस-सत्यापन में न्यूनतम त्रुटि दर के लिए एक पूर्वाग्रह सुधार। Arxiv प्रीपेयर arXiv: 0908.2904।
@ फ्रेंक हरेल ने इस सवाल पर बहुत काम किया है। मुझे विशिष्ट संदर्भों की जानकारी नहीं है।
लेकिन मैं दो तकनीकों को अलग-अलग उद्देश्यों के लिए देखता हूं। मॉडल पर निर्णय लेते समय क्रॉस सत्यापन एक अच्छा उपकरण है - यह आपको यह सोचकर मूर्ख बनाने से बचने में मदद करता है कि आपके पास एक अच्छा मॉडल है जब वास्तव में आप ओवरफिटिंग कर रहे हैं।
जब आपका मॉडल तय हो जाता है, तो बूटस्ट्रैप का उपयोग अधिक समझ में आता है (मुझे कम से कम)।
Http://www.burns-stat.com/pages/Tutor/bootstrap_resampling.html पर R का उपयोग करके इन अवधारणाओं (प्लस क्रमपरिवर्तन परीक्षण) का एक परिचय है ।
मेरी समझ यह है कि बूटस्ट्रैपिंग आपके मॉडल में अनिश्चितता की मात्रा निर्धारित करने का एक तरीका है, जबकि क्रॉस सत्यापन मॉडल चयन और पूर्वानुमान सटीकता को मापने के लिए उपयोग किया जाता है।
एक अंतर यह है कि क्रॉस-वैलिडेशन, जैसे कि जैकनाइफ, आपके सभी डेटा बिंदुओं का उपयोग करता है, जबकि बूटस्ट्रैपिंग, जो आपके डेटा को बेतरतीब ढंग से बचाता है, सभी बिंदुओं को हिट नहीं कर सकता है।
आप जब तक चाहें बूटस्ट्रैप कर सकते हैं, जिसका अर्थ है एक बड़ा आकार, जो छोटे नमूनों के साथ मदद करना चाहिए।
क्रॉस-वेलिडेशन या जैकनाइफ माध्य नमूना माध्य के समान होगा, जबकि बूटस्ट्रैप माध्य नमूना माध्य के समान होने की संभावना नहीं है।
क्रॉस-वैलिडेशन और जैकनेफ वजन के रूप में सभी नमूने एक ही बिंदु पर हैं, उनके पास बूटस्ट्रैप की तुलना में एक छोटा (हालांकि संभवतः गलत) आत्मविश्वास अंतराल होना चाहिए।
ये पुनरुत्पादन की दो तकनीकें हैं:
क्रॉस वेलिडेशन में हम डेटा को बेतरतीब ढंग से केफोल्ड में विभाजित करते हैं और यह ओवरफिटिंग में मदद करता है, लेकिन इस दृष्टिकोण में इसकी खामी है। चूंकि यह यादृच्छिक नमूनों का उपयोग करता है इसलिए कुछ नमूना बड़ी त्रुटि पैदा करते हैं। सीवी को कम से कम करने के लिए तकनीक है लेकिन वर्गीकरण समस्याओं के साथ यह इतना शक्तिशाली नहीं है। बूटस्ट्रैप इसमें मदद करता है, यह अपने स्वयं के नमूने की जांच से त्रुटि को सुधारता है..इसके लिए कृपया कृपया देखें ..
https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/cv_boot.pdf