क्या कागल प्रतियोगिता सिर्फ संयोग से जीती हैं?


12

कैगल प्रतियोगिताओं में आयोजित आउट-टेस्ट टेस्ट के आधार पर अंतिम रैंकिंग निर्धारित की जाती है।

एक आयोजित-आउट परीक्षण सेट एक नमूना है; यह मॉडलिंग की जा रही आबादी का प्रतिनिधि नहीं हो सकता है। चूंकि प्रत्येक सबमिशन एक परिकल्पना की तरह है, प्रतियोगिता को जीतने वाले एल्गोरिदम को कुल मिलाकर, दूसरों की तुलना में बेहतर परीक्षण सेट का मिलान करना समाप्त हो सकता है। दूसरे शब्दों में, यदि एक अलग परीक्षण सेट का चयन किया गया और प्रतियोगिता को दोहराया गया, तो क्या रैंकिंग समान रहेगी?

प्रायोजन निगम के लिए, यह वास्तव में कोई फर्क नहीं पड़ता (शायद शीर्ष 20 प्रस्तुतियाँ उनकी आधारभूत स्थिति में सुधार करेंगी)। हालांकि, विडंबना यह है कि वे पहले स्थान पर रहने वाले मॉडल का उपयोग कर समाप्त हो सकते हैं जो अन्य शीर्ष पांच की तुलना में खराब है। लेकिन, प्रतियोगिता के प्रतिभागियों के लिए, ऐसा लगता है कि कागल अंततः मौका का खेल है - भाग्य को सही समाधान पर ठोकर खाने की ज़रूरत नहीं है, यह उस पर ठोकर खाने की ज़रूरत है जो परीक्षण सेट से मेल खाता है!

क्या प्रतियोगिता को बदलना संभव है ताकि सभी शीर्ष टीमें जो सांख्यिकीय रूप से प्रतिष्ठित नहीं हो सकती हैं? या, इस समूह में, सबसे पारसी या कम्प्यूटेशनल सस्ते मॉडल जीत सकता है?


1
कुछ लोग वास्तविक परीक्षण मूल्यों को वापस करने के लिए छिपे हुए सेट पर परीक्षण का उपयोग करते हैं। यह उन्हें लगभग पूरी तरह से परिणाम फिट करने की अनुमति देता है। होल्डआउट इसे रोकता है। मेरी निजी राय है कि होल्डआउट और नॉन-होल्डआउट के बीच अंतर सिनेमाघरों से छुटकारा पाने का है।
एंग्रीस्टूडेंट

1
X

अंकों को वज़न दिया जाता है। एक बेहतरीन प्रणाली लगभग हर बार एक कबाड़ से निकलने वाली है। यह काम का एक ट्रक लोड इतना बुरा लेता है कि अंतिम पहले हो जाता है। स्थानीय क्रम, शायद रैंक में 10 कदम या उससे कम, जब हजारों प्रतिभागी होते हैं, तो होल्डआउट को फिर से शुरू करने पर बदल जाएगा। आप इसे दिखाने के लिए एक संख्यात्मक प्रयोग कर सकते हैं।
एंग्रीस्टूडेंट

2
प्रायोजक निगम के दृष्टिकोण से, वे वास्तव में विजेता मॉडल को लागू करने के लिए मजबूर नहीं हैं। अगर मुझे सही ढंग से याद है कि नेटफ्लिक्स चुनौती जीतने वाला मॉडल कभी लागू नहीं किया गया था। वे सर्वश्रेष्ठ मॉडलों में से कुछ विश्वसनीय उम्मीदवारों को ले सकते हैं और उन्हें आगे परीक्षण कर सकते हैं।
डेविड अर्नस्ट

जवाबों:


12

हां, आपका तर्क सही है। यदि एक अलग परीक्षण सेट का चयन किया गया और प्रतियोगिता को दोहराया गया, तो रैंकिंग वास्तव में बदल जाएगी। निम्नलिखित उदाहरण पर विचार करें। बाइनरी लेबल के साथ एक कागेल प्रतियोगिता की सभी प्रविष्टियां उनके उत्पादन की भविष्यवाणी करने के लिए केवल यादृच्छिक रूप से (और, कहते हैं, स्वतंत्र रूप से) अनुमान लगाती हैं। संयोग से, उनमें से एक दूसरों की तुलना में अधिक पकड़ के साथ सहमत होगा, भले ही कोई भविष्यवाणी नहीं हो रही हो।

हालांकि यह थोड़ा विरोधाभास है, हम देख सकते हैं कि प्रस्तुत करने वाले प्रत्येक मॉडल में विचरण का मतलब होगा कि ऐसी कई प्रविष्टियाँ लागू करना वास्तव में होल्डआउट सेट के शोर के लिए उपयुक्त होगा। यह हमें बताता है कि (व्यक्तिगत मॉडल संस्करण पर निर्भर करता है), शीर्ष-एन मॉडल शायद उसी को सामान्य करते हैं। यह फोर्किंग रास्तों का उद्यान है , सिवाय इसके कि "शोधकर्ता" समान नहीं हैं (लेकिन इससे कोई फर्क नहीं पड़ता)।

क्या प्रतियोगिता को बदलना संभव है ताकि टेस्ट सेट जीत पर शीर्ष प्रदर्शन से सभी टीमों को सांख्यिकीय रूप से प्रतिष्ठित नहीं किया जा सके?

वास्तव में।

  • एक दृष्टिकोण (जैसा कि यह अव्यवहारिक है) प्रत्येक प्रविष्टि में दिए गए मॉडल के विचरण को स्पष्ट रूप से करने के लिए होगा, जो हमें उनके होल्डआउट प्रदर्शन पर सीआई प्रदान करेगा।
  • एक अन्य दृष्टिकोण, जिसमें बहुत अधिक गणना हो सकती है, सभी मॉडलों के लिए एक प्रशिक्षण और परीक्षण एपीआई को उजागर करके, CI को होल्डआउट प्रदर्शन पर बूटस्ट्रैप करना है।

बहुत बढ़िया जवाब। क्या आप इस बात पर विस्तार से बता सकते हैं कि दो तरीकों को कैसे लागू किया जा सकता है?
उपयोगकर्ता 0

1
यह दिलचस्प है: सबसे अच्छा मॉडल वास्तव में विजेता टीम नहीं हो सकता है।
उपयोगकर्ता 0

1
स्पष्ट रूप से डेटा विचलन के बिना विचरण को पूरा नहीं किया जा सकता (मैं केवल इसका उल्लेख करता हूं क्योंकि यह सिद्धांत बताता है)। यह पत्र सटीकता के अनुमान के लिए कई तरीकों (और जहां वे विफल रहता है) का वर्णन करता है, जिसमें बूटस्ट्रैप और क्रॉस-सत्यापन शामिल है। इस संदर्भ में, कागज के विपरीत, हम प्रशिक्षण सेट पर मॉडल चयन के लिए सीवी नहीं कर रहे हैं, बल्कि संयुक्त प्रशिक्षण और परीक्षण डेटा सेट पर एक मजबूत "स्कोर" के लिए कर रहे हैं।
VF1

मजबूत विजेता अनुमान के लिए शायद दो राउंड बेहतर हैं। पहला 99% सबसे खराब निकालता है, और दूसरा दौर क्रम को "पॉलिश" करने के लिए रैंकिंग का फिर से अनुमान लगाता है।
इंग्लैंड स्ट्रेटजेंट

1
यहां विचारों पर जोड़ने के लिए, 2014 में NCAA मार्च मैडल कागले प्रतियोगिता के विजेता द्वारा इस पेपर को देखें। नीचे खंड 4 में स्क्रॉल करें, "सिमुलेशन स्टडी"। उनके सिम के अनुसार, यदि प्रत्येक माचिस के लिए उनके मॉडल की अनुमानित संभावनाएं वास्तव में प्रकृति की वास्तविक स्थिति थीं, तो उनका औसत स्थान 11 वें स्थान पर होगा।
klumbard

3

कागले में अन्य प्रकार की प्रतियोगिताएं हैं, जिनमें कोई मौका तत्व नहीं हैं। उदाहरण के लिए, यह एक Stanta की चोरी की नींद

यह एक असतत अनुकूलन समस्या है और इसमें निजी नेता बोर्ड भी नहीं है। सार्वजनिक नेता बोर्ड में आप जो देखते हैं वह अंतिम परिणाम है।

पर्यवेक्षित शिक्षण की तुलना में, कई लोगों के लिए एक आसान शुरुआत है, इस प्रकार की प्रतियोगिता प्रकृति में अधिक "कठिन" है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.