अनुकूली डेटा विश्लेषण का विचार का है कि आप लिए अपनी योजना को बदल दें क्योंकि आप इसके बारे में अधिक सीखते हैं। खोजपूर्ण डेटा विश्लेषण (EDA) के मामले में, यह आम तौर पर एक अच्छा विचार है (आप अक्सर डेटा में अप्रत्याशित पैटर्न की तलाश कर रहे हैं), लेकिन एक पुष्टिकरण अध्ययन के लिए, यह व्यापक रूप से विश्लेषण की एक बहुत ही त्रुटिपूर्ण विधि के रूप में स्वीकार किया जाता है (जब तक कि सभी कदम स्पष्ट रूप से परिभाषित और ठीक से उन्नत में योजनाबद्ध हैं)।
यही कारण है कि किया जा रहा है ने कहा, अनुकूली डेटा विश्लेषण है कि कितने शोधकर्ताओं वास्तव में बहुत सांख्यिकीविदों की बेचैनी को, उनके विश्लेषण करने में आम तौर पर। जैसे, यदि कोई सांख्यिकीय वैध तरीके से ऐसा कर सकता है, तो यह सांख्यिकीय अभ्यास में क्रांतिकारी बदलाव लाएगा।
निम्नलिखित विज्ञान लेख में दावा किया गया है कि ऐसा करने के लिए एक विधि मिल गई है (मैं भुगतानकर्ता के लिए माफी माँगता हूँ, लेकिन यदि आप किसी विश्वविद्यालय में हैं, तो आपके पास पहुँच है): DERT et al, 2015, पुन: प्रयोज्य पकड़: अनुकूली डेटा विश्लेषण में वैधता का संरक्षण ।
व्यक्तिगत रूप से, मुझे विज्ञान में प्रकाशित होने वाले सांख्यिकी लेखों पर हमेशा संदेह रहा है , और यह कोई अलग नहीं है। वास्तव में, पूरक सामग्री सहित दो बार लेख के माध्यम से पढ़ने के बाद, मुझे समझ में नहीं आ रहा है (आखिरकार) कि लेखक क्यों दावा करते हैं कि उनकी विधि अधिक-फिटिंग को रोकती है।
मेरी समझ यह है कि उनके पास एक होल्डआउट डेटासेट है, जिसका वे पुनः उपयोग करेंगे। वे होल्डआउट डेटासेट पर पुष्टिकरण विश्लेषण के आउटपुट "फ़ज़िंग" द्वारा दावा करते हैं, ओवर-फिटिंग को रोका जाएगा (यह ध्यान देने योग्य है कि फ़ज़िंग सिर्फ शोर जोड़ रहा है यदि प्रशिक्षण डेटा पर गणना की गई आँकड़ा पर्याप्त रूप से दूर है होल्डआउट डेटा पर गणना की गई आँकड़ा से )। जहां तक मैं बता सकता हूं, कोई वास्तविक कारण नहीं है कि इससे ओवर-फिटिंग को रोका जाए।
क्या मैं गलती कर रहा हूं कि लेखक क्या प्रस्ताव दे रहे हैं? वहाँ कुछ सूक्ष्म प्रभाव है कि मैं देख रहा हूँ? या विज्ञान ने आज तक की सबसे खराब सांख्यिकीय प्रथा का समर्थन किया है?