ऐसी कई स्थितियाँ हैं जहाँ आप कई अलग-अलग क्लासिफायर को प्रशिक्षित कर सकते हैं, या कई अलग-अलग फ़ीचर निष्कर्षण विधियों का उपयोग कर सकते हैं। साहित्य लेखकों में अक्सर डेटा के यादृच्छिक विभाजन के एक सेट (यानी एक डबल नेस्टेड-क्रॉस-सत्यापन के बाद) के माध्यम से माध्य वर्गीकरण त्रुटि देते हैं, और कभी-कभी विभाजन के साथ-साथ त्रुटि पर भी भिन्नता देते हैं। हालांकि यह अपने आप में यह कहने के लिए पर्याप्त नहीं है कि एक क्लासिफायरियर दूसरे की तुलना में काफी बेहतर है। मैंने इसके लिए कई अलग-अलग दृष्टिकोण देखे हैं - ची-स्क्वेर परीक्षण, टी-टेस्ट, एनोवा के साथ पश्च-परीक्षण परीक्षण आदि का उपयोग करना।
सांख्यिकीय महत्व को निर्धारित करने के लिए किस पद्धति का उपयोग किया जाना चाहिए? उस प्रश्न को समझना: वर्गीकरण स्कोर के वितरण के बारे में हमें क्या धारणाएँ बनानी चाहिए?