k -Fold क्रॉस मान्यता
मान लीजिए कि आपके पास 100 डेटा पॉइंट हैं। के लिए पार सत्यापन गुना, इन 100 अंक में बांटा जाता है के बराबर आकार और पारस्परिक रूप से अनन्य 'सिलवटों'। के लिए = 10, आप निर्धारित करना चाहेंगे 1-10 अंक # 2 गुना करने के लिए # 1, 11-20 गुना करने के लिए, और इतने पर, बताए अंक 91-100 द्वारा परिष्करण # 10 गुना करने के लिए। अगला, हम परीक्षण सेट के रूप में कार्य करने के लिए एक गुना का चयन करते हैं, और प्रशिक्षण डेटा बनाने के लिए शेष सिलवटों का उपयोग करते हैं । पहले रन के लिए, आप परीक्षण सेट के रूप में 1-10 और प्रशिक्षण सेट के रूप में 11-100 का उपयोग कर सकते हैं। अगला रन तब टेस्ट सेट के रूप में अंक 11-20 का उपयोग करेगा और अंक 1-10 और 21-100 पर ट्रेन करेगा, और तब तक, जब तक कि परीक्षण सेट के रूप में प्रत्येक गुना का उपयोग नहीं किया जाता है।k k k - १kkkk−1
मोंटे-कार्लो क्रॉस सत्यापन
मोंटे कार्लो कुछ अलग तरह से काम करता है। आप प्रशिक्षण सेट बनाने के लिए अपने डेटा के कुछ अंश को बेतरतीब ढंग से (प्रतिस्थापन के बिना) चुनते हैं, और फिर बाकी बिंदुओं को परीक्षण सेट पर असाइन करते हैं। इस प्रक्रिया को तब कई बार दोहराया जाता है, जिससे हर बार (यादृच्छिक) नए प्रशिक्षण और परीक्षण विभाजन उत्पन्न होते हैं। उदाहरण के लिए, मान लीजिए कि आपने अपने डेटा का 10% परीक्षण डेटा के रूप में उपयोग करना चुना है। फिर रेप # 1 पर सेट किया गया आपका टेस्ट 64, 90 , 63, 42 , 65, 49, 10, 64, 96 और 48 हो सकता है। अगले रन पर, आपका टेस्ट सेट 90 , 60, 23, 67, 67 हो सकता है । 16, 78, 42 , 17, 73, और 26. चूंकि विभाजन प्रत्येक रन के लिए स्वतंत्र रूप से किया जाता है, वही बिंदु कई बार सेट किए गए टेस्ट में दिखाई दे सकता है,जो मोंटे कार्लो और क्रॉस सत्यापन के बीच प्रमुख अंतर है ।
तुलना
प्रत्येक विधि के अपने फायदे और नुकसान हैं। क्रॉस वैलिडेशन के तहत, प्रत्येक बिंदु को एक बार ठीक से परीक्षण किया जाता है, जो उचित लगता है। हालाँकि, क्रॉस-मान्यता केवल कुछ संभावित तरीकों की खोज करती है जो आपके डेटा को विभाजित कर सकते थे। मोंटे कार्लो आपको कुछ और संभावित विभाजन का पता लगाने देता है, हालांकि आप उन सभी को प्राप्त करने की संभावना नहीं रखते हैं - वहाँ संभव तरीके हैं 50/50 पर 100 डेटा बिंदु विभाजित करें सेट(!)।(10050)≈1028
आप अनुमान करने के लिए (यानी, सांख्यिकीय रूप से दो एल्गोरिदम तुलना) का प्रयास कर रहे हैं, तो एक के परिणामों औसत पार सत्यापन रन के रूप में आप चाहते आप एक (लगभग) एल्गोरिथ्म के प्रदर्शन की निष्पक्ष अनुमान हो जाता है, लेकिन उच्च विचरण के साथ (गुना केवल 5 या 10 डेटा पॉइंट होने की उम्मीद)। चूंकि आप सिद्धांत रूप में, इसे तब तक चला सकते हैं जब तक आप चाहते हैं / खर्च कर सकते हैं, मोंटे कार्लो क्रॉस सत्यापन आपको कम चर दे सकता है, लेकिन अधिक पक्षपाती अनुमान।k
कुछ दृष्टिकोण दोनों को फ्यूज करते हैं, जैसा कि विचार के लिए 5x2 क्रॉस सत्यापन ( डायटरिच (1998) देखें ) , हालांकि मुझे लगता है कि तब से कुछ और सुधार हुए हैं), या पूर्वाग्रह के लिए सुधार करके (जैसे, नादेउ और बेंगियो, 2003 ) ।