K- गुना क्रॉस-वेलिडेशन (CV) बेतरतीब ढंग से K विभाजनों में आपके डेटा को तोड़ता है, और आप उन K भागों में से एक को टेस्ट केस के रूप में रखते हैं, और अन्य K-1 भागों को एक साथ आपके प्रशिक्षण डेटा के रूप में एक साथ जोड़ते हैं। लीव वन आउट (LOO) वह विशेष मामला है जहां आप अपना एन डेटा आइटम लेते हैं और एन-गुना सीवी करते हैं। कुछ अर्थों में, होल्ड आउट एक और विशेष मामला है, जहां आप केवल अपने एक के फोल्ड को टेस्ट के रूप में चुनते हैं और सभी K सिलवटों के माध्यम से घूमते नहीं हैं।
जहां तक मुझे पता है, 10-गुना CV बहुत अधिक डी रिग्युर है, क्योंकि यह आपके डेटा का कुशलतापूर्वक उपयोग करता है और अशुभ विभाजन विकल्पों से बचने में भी मदद करता है। होल्ड आउट आपके डेटा का कुशल उपयोग नहीं करता है, और LOO उतना मजबूत (या ऐसा कुछ) नहीं है, लेकिन 10-ish-fold सिर्फ सही है।
यदि आप जानते हैं कि आपके डेटा में एक से अधिक श्रेणी हैं, और एक या एक से अधिक श्रेणियां बाकी की तुलना में बहुत छोटी हैं, तो आपके कुछ K यादृच्छिक विभाजन में भी कोई भी छोटी श्रेणी नहीं हो सकती है, जो खराब होगी। यह सुनिश्चित करने के लिए कि प्रत्येक विभाजन यथोचित प्रतिनिधि है, आप स्तरीकरण का उपयोग करते हैं: अपने डेटा को श्रेणियों में विभाजित करें और फिर प्रत्येक श्रेणी से यादृच्छिक और आनुपातिक रूप से चुनकर यादृच्छिक विभाजन बनाएं।
K- गुना CV पर इन सभी विविधताओं को प्रतिस्थापन के बिना आपके डेटा से चुनें। बूटस्ट्रैप प्रतिस्थापन के साथ डेटा चुनता है, इसलिए एक ही डेटम को कई बार शामिल किया जा सकता है और कुछ डेटा को बिल्कुल भी शामिल नहीं किया जा सकता है। (प्रत्येक "विभाजन" में K- गुना के विपरीत N आइटम भी होंगे, जिसमें प्रत्येक विभाजन में N / K आइटम होंगे।)
(मुझे यह स्वीकार करना होगा कि मुझे नहीं पता कि सीवी में बूटस्ट्रैप का उपयोग कैसे किया जाएगा। हालांकि, परीक्षण और सीवी का सिद्धांत यह सुनिश्चित करना है कि आप उस डेटा पर परीक्षण न करें जिसे आपने प्रशिक्षित किया है, इसलिए आप प्राप्त करें आपकी तकनीक + गुणांक वास्तविक दुनिया में कैसे काम कर सकती है, इसका अधिक यथार्थवादी विचार।)
संपादित करें: टिप्पणी के अनुसार "होल्ड आउट कारगर नहीं है", "होल्ड आउट आपके डेटा का कुशल उपयोग नहीं करता है", टिप्पणियों के अनुसार स्पष्ट करने में मदद करता है।