मुझे आश्चर्य है कि वर्गीकरण समस्या के लिए किस प्रकार का मॉडल क्रॉस-वेलिडेशन: के-गुना या रैंडम सब-सैंपलिंग (बूटस्ट्रैप नमूनाकरण)?
मेरा सबसे अच्छा अनुमान प्रशिक्षण के लिए डेटा सेट के 2/3 (जो ~ 1000 आइटम हैं) और सत्यापन के लिए 1/3 का उपयोग करना है।
इस मामले में के-गुना केवल तीन पुनरावृत्तियों (सिलवटों) देता है, जो स्थिर औसत त्रुटि को देखने के लिए पर्याप्त नहीं है।
दूसरी ओर मुझे यादृच्छिक उप-नमूना सुविधा पसंद नहीं है: कि कुछ वस्तुओं को कभी भी प्रशिक्षण / सत्यापन के लिए नहीं चुना जाएगा, और कुछ का उपयोग एक से अधिक बार किया जाएगा।
वर्गीकरण एल्गोरिदम का इस्तेमाल किया: यादृच्छिक वन और उपस्कर प्रतिगमन।