क्या कागले का निजी लीडरबोर्ड विजेता मॉडल के आउट-ऑफ-सैंपल प्रदर्शन का एक अच्छा भविष्यवक्ता है?


16

हालांकि निजी परीक्षण सेट के परिणामों का उपयोग मॉडल को और अधिक परिष्कृत करने के लिए नहीं किया जा सकता है, लेकिन क्या मॉडल का चयन निजी परीक्षण सेट परिणामों के आधार पर नहीं किया जा रहा है? क्या आप अकेले उस प्रक्रिया के माध्यम से, निजी परीक्षण सेट पर ओवरफिटिंग नहीं करेंगे?

के अनुसार "छद्म गणित और वित्तीय charlatanism: backtest Overfitting के प्रभाव से बाहर का नमूना प्रदर्शन पर" बेली et.al. द्वारा एक ही डेटासेट पर मूल्यांकन किए गए बड़ी संख्या में मॉडलों में से सर्वश्रेष्ठ का चयन करते समय "ओवरफिट" करना अपेक्षाकृत आसान है। क्या ऐसा कागल के निजी लीडरबोर्ड के साथ नहीं हो रहा है?

  • निजी लीडरबोर्ड पर सबसे अच्छा प्रदर्शन करने वाले मॉडल के लिए सांख्यिकीय औचित्य क्या हैं जो मॉडल से आउट-ऑफ-सैंपल डेटा को सामान्य करते हैं?
  • क्या कंपनियां वास्तव में विजेता मॉडल का उपयोग करती हैं, या केवल "गेम के नियम" प्रदान करने के लिए निजी लीडरबोर्ड है, और कंपनियां वास्तव में उस अंतर्दृष्टि में अधिक रुचि रखती हैं जो समस्या की चर्चा से उत्पन्न होती है?

1
कुछ हद तक संबंधित: आंकड़े.स्टैकएक्सचेंज.com
q

2
आप निजी और सार्वजनिक स्कोर के बीच अंतर देख सकते हैं। कोई यह तर्क दे सकता है कि एक गैर-ओवरफ़ीड मॉडल को दोनों डेटा सेटों पर समान प्रदर्शन प्राप्त करना चाहिए।
छायाकार

2
@shadowtalker वास्तव में ओवरफिटिंग का पता लगाने का एक अच्छा तरीका होगा, लेकिन जो हम वास्तव में रुचि रखते हैं वह मॉडल की आउट-ऑफ-सैंपल प्रेडिक्टिव पावर है, न कि ओवरफिटिंग की डिग्री। एक ओवरफिट मॉडल - यानी एक जो आउट-ऑफ-सैंपल की तुलना में बहुत बेहतर इन-सैंपल काम करता है - हो सकता है कि ओवरफिट न होने वाले मॉडल की तुलना में बेहतर आउट-ऑफ-सैंपल परफॉर्मेंस हो। मेरे पास हाथ पर एक संदर्भ नहीं है, लेकिन मेरा मानना ​​है कि जटिल मॉडल, जैसे कि कंप्यूटर का उपयोग करते समय जटिल डोमेन में अक्सर ऐसा होता है, जैसे कि सीएनएन।
rinspy

जवाबों:


10

वैसे आपके द्वारा प्रस्तुत किए गए बिंदु निष्पक्ष हैं, हालांकि मुझे लगता है कि सार्वजनिक लीडरबोर्ड पर ओवरफिट करने वाले लोगों के साथ कहीं अधिक वास्तविक मुद्दा है ।

ऐसा तब हो सकता है जब आप 100 या तो सबमिशन करते हैं, सार्वजनिक परीक्षण सेट अंततः आपके हाइपरपरमीटर चयन और इस प्रकार ओवरफिट होने पर बाहर निकल जाएगा । मुझे लगता है कि उस संदर्भ में निजी लीडरबोर्ड आवश्यक है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.