Numer.ai अभी कुछ समय के लिए है और वेब पर इसके बारे में केवल कुछ पोस्ट या अन्य चर्चाएँ होती हैं।
सिस्टम समय-समय पर बदला गया है और आज सेट-अप निम्नलिखित है:
- ट्रेन (N = 96K) और परीक्षण (N = 33K) डेटा 21 विशेषताओं के साथ [0,1] में निरंतर मूल्यों और एक बाइनरी लक्ष्य।
- डेटा साफ है (कोई लापता मान नहीं) और हर 2 सप्ताह में अपडेट किया जाता है। आप अपनी भविष्यवाणी (परीक्षण सेट पर) अपलोड कर सकते हैं और लॉग-नुकसान देख सकते हैं। परीक्षण डेटा का एक हिस्सा लाइव डेटा भी है और आपको अच्छी भविष्यवाणियों के लिए भुगतान किया जाता है।
मैं क्या चर्चा करना चाहूंगा:
के रूप में सुविधाओं पूरी तरह से गुमनाम हैं मुझे लगता है कि हम कर सकते हैं बहुत सुविधा इंजीनियरिंग नहीं है। इसलिए मेरा दृष्टिकोण बहुत यांत्रिक है:
- प्रेरित द्वारा इस मैं एक वर्गीकरण एल्गोरिथ्म का उपयोग उन प्रशिक्षण डेटा जो मेरे परीक्षण डाटा सबसे अच्छा करने के लिए फ़िल्टर कर बाहर।
- कुछ अच्छा प्रीप्रोसेसिंग चित्र
- ट्रेन अच्छा वर्गीकरण एल्गोरिदम
- उन्हें (स्टैकिंग, ..) के एसेम्बल बनाते हैं।
ठोस सवाल:
चरण 1 के बारे में: क्या आपको इस तरह के दृष्टिकोण का अनुभव है? मान लीजिए कि मैं ट्रेन के नमूनों की प्रायिकता का परीक्षण करने का आदेश देता हूं (आमतौर पर 0.5 से नीचे) और फिर मैं सबसे बड़ी K संभावनाएं लेता हूं। आप K को कैसे चुनेंगे? मैंने 15K के साथ कोशिश की .. लेकिन मुख्य रूप से चरण 3 में प्रशिक्षण को गति देने के लिए एक छोटा प्रशिक्षण डेटा सेट है।
चरण 2 के बारे में: डेटा पहले से ही 0,1 पैमाने पर है। यदि मैं किसी भी (PCA जैसे) रैखिक परिवर्तन को लागू करता हूं तो मैं इस पैमाने को तोड़ दूंगा। यदि आपके पास ऐसे संख्यात्मक डेटा हैं और आप नहीं जानते कि यह वास्तव में है तो आप प्रीप्रोसेसिंग में क्या प्रयास करेंगे।
पुनश्च: मुझे पता है कि क्योंकि numer.ai लोगों को इस बात पर चर्चा करता है कि इससे मुझे कुछ पैसे कमाने में मदद मिल सकती है। लेकिन जैसा कि यह सार्वजनिक है यह किसी को भी वहाँ मदद करेगा ...
पीपीएस: आज के लीडरबोर्ड में एक दिलचस्प पैटर्न है: शीर्ष दो 0.64xx के लॉगलॉस के साथ, फिर 0.66xx के साथ नंबर 3 और फिर अधिकांश भविष्यवक्ता 0.6888x तक पहुंचते हैं।
इस प्रकार एक बहुत छोटा शीर्ष क्षेत्र और बहुत से सफल लोग (मेरे सहित) प्रतीत होते हैं।