मैं सबसे अधिक (और सबसे अधिक बार) "सत्यापन" से नाराज हूं, जो कि पूर्वानुमानित मॉडलों के सामान्यीकरण त्रुटि पर लक्षित है, जहां परीक्षण डेटा स्वतंत्र नहीं है (उदाहरण के लिए आमतौर पर प्रति मरीज में कई माप, आउट-ऑफ-बूटस्ट्रैप या क्रॉस सत्यापन विभाजन माप नहीं रोगियों )।
इससे भी अधिक कष्टप्रद, कागजात जो इस तरह के त्रुटिपूर्ण क्रॉस सत्यापन परिणाम देते हैं और साथ ही एक स्वतंत्र परीक्षण सेट है जो क्रॉस सत्यापन के ओवरोप्टिमिस्टिक पूर्वाग्रह को प्रदर्शित करता है लेकिन एक भी शब्द नहीं है कि क्रॉस सत्यापन का डिज़ाइन गलत है ...
(यदि एक ही डेटा प्रस्तुत किया जाएगा तो मुझे पूरी तरह से खुशी होगी "हमें पता है कि क्रॉस सत्यापन को रोगियों को विभाजित करना चाहिए, लेकिन हम सॉफ्टवेयर के साथ फंस गए हैं यह अनुमति नहीं देता है। इसलिए हमने इसके अलावा परीक्षण रोगियों के एक स्वतंत्र सेट का परीक्षण किया। ")
(मुझे यह भी पता है कि बूटस्ट्रैपिंग = रिप्लेसमेंट के साथ रेज़मैपलिंग आमतौर पर क्रॉस वेलिडेशन से बेहतर होता है = रिप्लेसमेंट रिप्लेसमेंट के बिना। हालांकि, हम स्पेक्ट्रोस्कोपिक डेटा (नकली स्पेक्ट्रा और थोड़ा कृत्रिम मॉडल सेटअप लेकिन असली स्पेक्ट्रा) के लिए पाए गए हैं जो बार-बार क्रॉस सत्यापन को दोहराते हैं और बाहर करते हैं। -ऑफ़-बूटस्ट्रैप में समान समग्र अनिश्चितता थी, ओब में अधिक पूर्वाग्रह था लेकिन कम विचरण था - विश्वास के लिए, मैं इसे बहुत ही व्यावहारिक दृष्टिकोण से देख रहा हूं: दोहराया क्रॉस सत्यापन बनाम आउट-ऑफ-बूटस्ट्रैप लंबे समय तक कई कागजात से कोई फर्क नहीं पड़ता। सीमित परीक्षण नमूना आकार के कारण न तो रोगी-वार विभाजित करें और न ही रिपोर्ट / चर्चा / यादृच्छिक अनिश्चितता का उल्लेख करें।)
गलत होने के अलावा इसका साइड इफेक्ट यह भी है कि जो लोग उचित मान्यता रखते हैं, उन्हें अक्सर बचाव करना पड़ता है कि साहित्य में उन सभी परिणामों की तुलना में उनके परिणाम इतने खराब क्यों हैं।