क्रॉस सत्यापन का उपयोग किसी विशेष खोज की वैधता का आकलन करने के लिए किया जाता है, जो आमतौर पर भविष्यवाणी मॉडल से संबंधित है। इस प्रकार के निष्कर्षों में क्लस्टर विश्लेषण, वर्गीकरण या भविष्यवाणी मॉडल के परिणाम शामिल हो सकते हैं। किसी भी मामले में, विश्लेषण की प्रकृति वैज्ञानिक हित के एक पूर्व-निर्दिष्ट प्रश्न का हिस्सा है जैसे कि "जो mRNA अभिव्यक्ति की आवृत्तियों की संभावना सबसे अधिक स्तन कैंसर बायोप्सी बनाम स्वस्थ नियंत्रण से उत्पन्न हुई है?"। क्रॉस सत्यापन एक निर्धारित उद्देश्य मॉडल की वैधता का आकलन करने के लिए एक बहुत ही मजबूत तरीका है जो एक विशिष्ट उद्देश्य को पूरा करता है। मुझे संदेह है कि फोल्ड क्रॉस सत्यापन, जिसमें दोहराया मॉडल फिटिंग शामिल है, आपके भ्रम का मूल हो सकता है।k
"इष्टतम" ट्यूनिंग पैरामीटर की पहचान करने के लिए CV का उपयोग करते समय, जैसा कि दंडित संभावना विधियों के साथ आवश्यक है, आमतौर पर एक निर्धारित मानदंड है जो प्रक्रिया को पूरा करने के लिए निर्धारित है। यह न्यूनतम MSE, या अधिकतम AUC, या न्यूनतम BIC हो सकता है। यदि आप चेरी a चुनते हैं जो आपको परिणाम देता है जिसके बाद आप हैं, तो आपने डेटा ड्रेजिंग से भी बदतर कुछ किया है, मुझे लगता है। इसलिए, एक माइक्रोएरे उदाहरण का उपयोग करते हुए, यदि आप रुचि रखते हैं जिसमें प्रोटीन कैंसर के मामलों बनाम नियंत्रण में अधिक व्यक्त किए जाते हैं, तो आप एक GLM LASSO को निर्धारित कर सकते हैं, जिसके लिए _ लैंबडा सबसे अच्छा BIC देता है और अंतिम मॉडल में चुने गए मार्करों को उम्मीदवार प्रोटीन के रूप में चुना जाता है। आगे की जांच पड़ताल। यह सुविधा चयन का एक उदाहरण है।λλλ
"डेटा स्नूपिंग" या, जैसा कि मैं इसे कह सकता था, "खोजपूर्ण डेटा विश्लेषण" एक पूर्व-निर्दिष्ट प्रश्न से निपटता नहीं है। आप संभावित रूप से दिलचस्प परिणामों की संख्या की गणना करते हैं और व्यक्तिगत रूप से उनका मूल्यांकन करते हैं। आप किसी भी संख्या में खोजपूर्ण विश्लेषण कर सकते हैं और आमतौर पर, आप कई परीक्षण के बारे में चिंता नहीं करते हैं। आप क्रॉस-सत्यापन का उपयोग करके व्यक्तिगत रूप से प्रत्येक खोजपूर्ण विश्लेषण का आकलन कर सकते हैं, लेकिन जब आप 1 से अधिक खोजपूर्ण विश्लेषण करते हैं, तो यह स्वाभाविक रूप से कई परीक्षणों के लिए जिम्मेदार नहीं होता है। इस सेटिंग में परिकल्पना काफी व्यापक और दूरगामी हो सकती है, "प्रोस्टेट कैंसर से कौन से कारक जुड़े हैं?" (जिससे कॉफी पीना, पुरुष नसबंदी उपयोग, आदि) एक पलटन में मापा गया था)। महत्वपूर्ण परिणामों को "परिकल्पना उत्पन्न करना" के रूप में देखा जाता है और कोई पुष्ट प्रमाण नहीं मिलता है।
इसलिए जब दोनों दृष्टिकोण प्रकृति में कुछ हद तक "पुनरावृत्त" हैं, तो वे पूरी तरह से स्वतंत्र प्रक्रियाएं हैं। -फोल्ड क्रॉस-वेलिडेशन निष्कर्षों के एक विशेष सेट की अनिश्चितता और वैधता का आकलन करने के लिए एक उपकरण है जो एक "मॉड्यूलर" परिकल्पना का हिस्सा है। डेटा ड्रेजिंग, डेटा स्नूपिंग या खोजपूर्ण डेटा विश्लेषण एक व्यापक और बड़े डेटासेट द्वारा संबोधित संभवतः दिलचस्प सवालों के एक बड़े सेट के आधार पर परिकल्पना उत्पन्न करने के लिए है।k