मैंने पहले अभिव्यक्ति को सुना है:
"आँकड़ों में अनुकूलन सभी बुराई की जड़ है"।
उदाहरण के लिए, इस धागे में शीर्ष उत्तर मॉडल चयन के दौरान बहुत अधिक आक्रामक तरीके से अनुकूलन के खतरे के संदर्भ में यह बयान देता है।
मेरा पहला प्रश्न निम्नलिखित है: क्या यह उद्धरण विशेष रूप से किसी के लिए भी जिम्मेदार है? (आंकड़े साहित्य में)
मैं जो समझता हूं, वह कथन ओवरफिटिंग के जोखिमों को संदर्भित करता है। पारंपरिक ज्ञान का कहना है कि उचित क्रॉस सत्यापन पहले से ही इस समस्या से लड़ता है, लेकिन ऐसा लगता है कि इस समस्या से कहीं अधिक है।
क्या सांख्यिकीविदों और एमएल चिकित्सकों को कड़े पार सत्यापन प्रोटोकॉल (जैसे 100 नेस्टेड 10-गुना सीवी) का पालन करते हुए भी अपने मॉडलों का अधिक अनुकूलन करना चाहिए? यदि हां, तो हमें कैसे पता चलेगा कि "सर्वश्रेष्ठ" मॉडल की खोज कब बंद करनी है?