अनाम स्केल किए गए संख्यात्मक भविष्यवक्ताओं के साथ numer.ai प्रतियोगिता के लिए कैसे संपर्क करें?


9

Numer.ai अभी कुछ समय के लिए है और वेब पर इसके बारे में केवल कुछ पोस्ट या अन्य चर्चाएँ होती हैं।

सिस्टम समय-समय पर बदला गया है और आज सेट-अप निम्नलिखित है:

  1. ट्रेन (N = 96K) और परीक्षण (N = 33K) डेटा 21 विशेषताओं के साथ [0,1] में निरंतर मूल्यों और एक बाइनरी लक्ष्य।
  2. डेटा साफ है (कोई लापता मान नहीं) और हर 2 सप्ताह में अपडेट किया जाता है। आप अपनी भविष्यवाणी (परीक्षण सेट पर) अपलोड कर सकते हैं और लॉग-नुकसान देख सकते हैं। परीक्षण डेटा का एक हिस्सा लाइव डेटा भी है और आपको अच्छी भविष्यवाणियों के लिए भुगतान किया जाता है।

मैं क्या चर्चा करना चाहूंगा:

के रूप में सुविधाओं पूरी तरह से गुमनाम हैं मुझे लगता है कि हम कर सकते हैं बहुत सुविधा इंजीनियरिंग नहीं है। इसलिए मेरा दृष्टिकोण बहुत यांत्रिक है:

  1. प्रेरित द्वारा इस मैं एक वर्गीकरण एल्गोरिथ्म का उपयोग उन प्रशिक्षण डेटा जो मेरे परीक्षण डाटा सबसे अच्छा करने के लिए फ़िल्टर कर बाहर।
  2. कुछ अच्छा प्रीप्रोसेसिंग चित्र
  3. ट्रेन अच्छा वर्गीकरण एल्गोरिदम
  4. उन्हें (स्टैकिंग, ..) के एसेम्बल बनाते हैं।

ठोस सवाल:

चरण 1 के बारे में: क्या आपको इस तरह के दृष्टिकोण का अनुभव है? मान लीजिए कि मैं ट्रेन के नमूनों की प्रायिकता का परीक्षण करने का आदेश देता हूं (आमतौर पर 0.5 से नीचे) और फिर मैं सबसे बड़ी K संभावनाएं लेता हूं। आप K को कैसे चुनेंगे? मैंने 15K के साथ कोशिश की .. लेकिन मुख्य रूप से चरण 3 में प्रशिक्षण को गति देने के लिए एक छोटा प्रशिक्षण डेटा सेट है।

चरण 2 के बारे में: डेटा पहले से ही 0,1 पैमाने पर है। यदि मैं किसी भी (PCA जैसे) रैखिक परिवर्तन को लागू करता हूं तो मैं इस पैमाने को तोड़ दूंगा। यदि आपके पास ऐसे संख्यात्मक डेटा हैं और आप नहीं जानते कि यह वास्तव में है तो आप प्रीप्रोसेसिंग में क्या प्रयास करेंगे।

पुनश्च: मुझे पता है कि क्योंकि numer.ai लोगों को इस बात पर चर्चा करता है कि इससे मुझे कुछ पैसे कमाने में मदद मिल सकती है। लेकिन जैसा कि यह सार्वजनिक है यह किसी को भी वहाँ मदद करेगा ...

पीपीएस: आज के लीडरबोर्ड में एक दिलचस्प पैटर्न है: शीर्ष दो 0.64xx के लॉगलॉस के साथ, फिर 0.66xx के साथ नंबर 3 और फिर अधिकांश भविष्यवक्ता 0.6888x तक पहुंचते हैं।

इस प्रकार एक बहुत छोटा शीर्ष क्षेत्र और बहुत से सफल लोग (मेरे सहित) प्रतीत होते हैं।

जवाबों:


2

मैंने दृष्टिकोण को देखा है और मैं एक श्रेणी, 5k, 10k, 15k आदि की कोशिश करके K का चयन करूंगा और फिर उस सीमा की खोज करूंगा जिसमें सबसे अच्छा परिणाम गिरता है, कहते हैं कि सर्वश्रेष्ठ 15k है तो मैं 13, 14, कर सकता हूं। 15, 16, 17 और इसी तरह।

अब तक मुझे प्रभावी होने के लिए कोई पूर्व-प्रसंस्करण नहीं मिला है।

टिप्पणी का उत्तर देना:

मैंने LogisticRegression, SVM, Neural Networks, RandomForests, Multinomial NB, Extra Trees का उपयोग करने की कोशिश की है। Sklearn में कार्यान्वयन का उपयोग करते हुए तंत्रिका नेटवर्क को छोड़कर सभी। एनएन के लिए PyBrain।


शायद आप कुछ और विवरण जोड़ सकते हैं? हां, हम विभिन्न आकारों के प्रशिक्षण डेटा का प्रयास करते हैं। आपने किस प्रीप्रोसेसिंग की कोशिश की है? कौन से क्लासीफायर? धन्यवाद!
रिचर्ड
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.