मुझे अपने मशीन लर्निंग कार्यान्वयन के परीक्षण के लिए डेटासेट उपयोगी कहां मिल सकता है? [बन्द है]


9

मैं वर्तमान में कुछ मशीन लर्निंग एल्गोरिदम को अपने दम पर लागू करने की कोशिश कर रहा हूं। उनमें से कई के पास डिबग करने के लिए कठिन होने की गंदा संपत्ति है, कुछ कीड़े प्रोग्राम को क्रैश करने का कारण नहीं बनते हैं, बल्कि काम नहीं करते हैं और ऐसा लगता है कि एल्गोरिदम सिर्फ कमजोर परिणाम देता है।

मैं कार्यान्वयन में अपने आत्मविश्वास को बढ़ाने का कुछ तरीका चाहूंगा, उदाहरण के लिए अगर मेरे पास कुछ छोटे डेटासेट थे, तो अतिरिक्त जानकारी के साथ "एलगोरिदम एक्स ने वाई पुनरावृत्तियों के लिए काम किया और इस डेटासेट पर जेड परिणाम था", जो वास्तव में उपयोगी होगा। क्या किसी ने ऐसे डेटासेट के बारे में सुना है?


इस प्रश्न की जाँच में आपने क्या शोध किया है? पहले ब्लश पर, कोई सोचता होगा कि इन एल्गोरिदम को खोजने के लिए आप जिस साहित्य का उपयोग कर रहे हैं, वह नमूना डेटासेट से भरा होगा।
whuber

1
वैसे, मैं ज्यादातर विश्वविद्यालय के पाठ्यक्रम, कर्सिया, इंटरनेट पर व्याख्यान वीडियो और विशिष्ट विषयों पर पढ़े गए कुछ पत्रों को जानता हूं। मुझे पता है कि हर जगह बहुत सारे सैंपल डेटासेट हैं, लेकिन मैं कुछ जानकारी के साथ देख रहा हूं कि विभिन्न एमएल एल्गोरिदम ने उन पर कैसा प्रदर्शन किया है, इसलिए मैं अपने स्वयं के कार्यान्वयन को मान्य कर सकता हूं।
sjm.majewski

आईसीएमएल में हाल ही में मानकीकृत डेटासेट के साथ समस्या पर एक अच्छा पेपर था - यह आपको वास्तविक दुनिया की समस्याओं के बारे में बहुत कठिन सोचने से रोकता है और वास्तविक दुनिया की समस्याओं को शामिल करता है। व्यक्तिगत रूप से जब मैंने वास्तविक-विश्व डेटा का उपयोग करना शुरू किया, तो एक प्रैक्टिशनर के रूप में मेरा कौशल खिल उठा। इसलिए जब मैं आपको कदम-पत्थर या परीक्षण के रूप में यूसीआई जैसी चीजों का उपयोग करने से हतोत्साहित नहीं करूंगा, तो पुरस्कार पर नजर रखें!
पैट्रिक कैलडन

1
आपको यह निर्दिष्ट करना चाहिए कि आप किस प्रकार की मशीन सीख रहे हैं। बाइनरी वर्गीकरण डेटा सेट फ़ंक्शन सन्निकटन (प्रतिगमन) डेटा सेट से भिन्न होते हैं।
डगलस ज़ेरे

जवाबों:


10

से UC Irvine मशीन लर्निंग भंडार :

वर्तमान में हम मशीन लर्निंग समुदाय के लिए एक सेवा के रूप में 223 डेटा सेट बनाए रखते हैं। आप हमारे खोज योग्य इंटरफ़ेस के माध्यम से सभी डेटा सेट देख सकते हैं। हमारी पुरानी वेब साइट अभी भी उपलब्ध है, उन लोगों के लिए जो पुराने प्रारूप को पसंद करते हैं। ... यदि आप डेटा सेट दान करना चाहते हैं, तो कृपया हमारी दान नीति से परामर्श करें। ... हमने रिपॉजिटरी के लिए एक दर्पण साइट भी स्थापित की है।

इसके अलावा, निम्नलिखित MIAS डेटासेट का व्यापक रूप से उपयोग और अध्ययन किया गया है:

जब एक एल्गोरिथ्म को बेंचमार्किंग किया जाता है, तो शोधकर्ताओं द्वारा परिणामों की सीधे तुलना करने में सक्षम होने के लिए एक मानक परीक्षण डेटाबेस (डेटा सेट) का उपयोग करने की सिफारिश की जाती है। अधिकांश मैमोग्राफिक डेटाबेस सार्वजनिक रूप से उपलब्ध नहीं हैं। सबसे आसानी से एक्सेस किए जाने वाले डेटाबेस और इसलिए सबसे अधिक इस्तेमाल किया जाने वाला डेटाबेस मैमोग्राफिक इमेज एनालिसिस सोसाइटी (MIAS) डेटाबेस और डिजिटल डेटाबेस फॉर स्क्रीनिंग मैमोग्राफी (DDSM) हैं। इसके अलावा, वर्तमान में नई मैमोग्राफिक छवि डेटाबेस के साथ-साथ कई पुरानी परियोजनाओं को विकसित करने वाली कुछ परियोजनाएं हैं।


2
+1 यदि आप अधिक स्रोत खोजना जारी रखते हैं, तो कृपया इस उत्तर को बढ़ाने के लिए स्वतंत्र महसूस करें।
whuber

5

बशर द्वारा उल्लिखित यूसीआई भंडार शायद सबसे बड़ा है, फिर भी मैं कुछ छोटे संग्रह जोड़ना चाहता था जो मेरे सामने आए:

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.