बुनियादी मशीन लर्निंग एल्गोरिदम सीखने के लिए कुछ अच्छे डेटासेट क्या हैं और क्यों?


19

मैं मशीन सीखने के लिए नया हूं और कुछ डेटासेट की तलाश कर रहा हूं जिसके माध्यम से मैं अलग-अलग मशीन लर्निंग एल्गोरिदम (डिसीजन ट्रीज, बूस्टिंग, एसवीएम और न्यूरल नेटवर्क्स) के बीच अंतर की तुलना और विरोधाभास कर सकता हूं।

मुझे ऐसे डेटासेट कहां मिल सकते हैं? डेटासेट पर विचार करते समय मुझे क्या देखना चाहिए?

यह बहुत अच्छा होगा यदि आप कुछ अच्छे डेटासेट्स को इंगित कर सकते हैं और मुझे यह भी बता सकते हैं कि उन्हें एक अच्छा डेटासेट क्या बनाता है?


6
मुझे आश्चर्य है कि अगर यह सवाल opendata.stackexchange.com के लिए बेहतर फिट नहीं है ... डेटासेट्स के बारे में, अधिकांश पाठ्यपुस्तकों में ऐसे डेटासेट का उल्लेख है और उन्हें उपलब्ध कराया जाता है, कई ऐसे सॉफ़्टवेयर के लिए सांख्यिकीय सॉफ़्टवेयर या पुस्तकालयों में पहले से ही उपलब्ध हैं। आप संग्रह .ics.uci.edu/ml/datasets.html भी देख सकते हैं । बेशक, एक और सवाल यह है कि कुछ डेटासेट को सीखने के लिए "अच्छा" और कुछ को "बुरा" कहा जाता है - यह एक दिलचस्प सवाल है।
टिम

आपको CRAN पर पैकेज के रूप में कुछ डेटासेट मिलेंगे, जैसे: ElemStatLearn और अन्य।
kjetil b halvorsen

2
@ समय क्योंकि इस प्रश्न का एक शैक्षणिक पहलू है (उदाहरण के लिए, सीखने के उद्देश्यों के लिए "अच्छा" डेटा सेट का एक उदाहरण वह है जो दिखाता है कि विभिन्न एल्गोरिदम बहुत अलग परिणाम देते हैं) मुझे लगता है कि यह ओपनडाटा की तुलना में सीवी के लिए बेहतर है।
सिल्वरफिश


@ सिल्वरफ़िश: इस पर मेटा - " डेटासैट के बारे में प्रश्न" पर चर्चा की गई है : संभावित अपवाद? - और लगता है कि आपकी बात से सामान्य समझौता हुआ है। लेकिन मुझे अभी भी यह क्यू लगता है। बल्कि व्यापक है - क्या यह स्पष्ट रूप से उपलब्ध डेटा नमूनों का पता लगाने से अलग करता है ?
Scortchi - को पुनः स्थापित मोनिका

जवाबों:


16

निम्नलिखित साइटों में डेटा सेट मुफ्त में उपलब्ध हैं। इन डेटा सेट का उपयोग छात्रों को एमएल एल्गोरिदम सिखाने के लिए किया गया है क्योंकि अधिकांश के लिए डेटा सेट के साथ विवरण हैं। इसके अलावा, यह उल्लेख किया गया है कि किस प्रकार के एल्गोरिदम लागू हैं।

  1. यूसीआई- मशीन लर्निंग रिपॉजिटरी
  2. एमएल कॉम्प
  3. मम्मो छवि
  4. Mulan

11

कागले के पास संपूर्ण डेटासेट्स हैं, जिनके साथ आप अभ्यास कर सकते हैं।

(मुझे आश्चर्य है कि यह अब तक उल्लेख नहीं किया गया था!)

यह दो चीजें हैं (कई अन्य लोगों के बीच) जो इसे एक अत्यधिक अमूल्य संसाधन बनाती हैं:

  • स्वच्छ डेटासेट के बहुत सारे। हालांकि शोर-मुक्त डेटासेट वास्तव में वास्तविक-विश्व डेटासेट के प्रतिनिधि नहीं हैं, वे विशेष रूप से आपके उद्देश्य के लिए अनुकूल हैं - एमएल एल्गोरिदम को तैनात करना।
  • आप समान डेटासेट के लिए दूसरों के एमएल मॉडल भी देख सकते हैं, जो कि रास्ते में कुछ हैक लेने का एक मजेदार तरीका हो सकता है। यह बिना यह कहे चला जाता है कि सर्वश्रेष्ठ चिकित्सकों से सीखने से आपको किस तरह का एक्सपोजर मिलता है, जैसे किसी और चीज के लिए, सुपर मददगार।

1
यह वास्तव में शीर्ष उत्तर होना चाहिए क्योंकि डेटासेट की एक विशाल विविधता के अलावा, प्रत्येक चुनौती के लिए फ़ोरम कोड उदाहरणों के साथ तकनीक और ट्रिक्स लेने के लिए एक अमूल्य संसाधन हैं।
एलेक्स आर।

2

पहले, मैं सैंपल डेटा के साथ शुरू करने की सलाह दूंगा जो सॉफ्टवेयर के साथ प्रदान किया गया है। अधिकांश सॉफ़्टवेयर वितरण में उदाहरण डेटा शामिल होता है जिसका उपयोग आप डेटा प्रकारों से निपटने के बिना एल्गोरिथ्म से परिचित होने के लिए कर सकते हैं और डेटा को एल्गोरिथम के लिए सही प्रारूप में कुश्ती कर सकते हैं। यहां तक ​​कि अगर आप खरोंच से एक एल्गोरिथ्म का निर्माण कर रहे हैं, तो आप नमूना को एक समान कार्यान्वयन से शुरू कर सकते हैं और प्रदर्शन की तुलना कर सकते हैं।

दूसरा, मैं सिंथेटिक डेटा सेट के साथ प्रयोग करने की सलाह दूंगा कि एल्गोरिथ्म यह कैसे महसूस करता है कि आपको पता है कि डेटा कैसे उत्पन्न होता है और शोर अनुपात का संकेत देता है।

आर में, आप इस कमांड के साथ वर्तमान में स्थापित पैकेज में सभी डेटासेट को सूचीबद्ध कर सकते हैं:

data(package = installed.packages()[, 1])

आर पैकेज एमएलबेन्च में वास्तविक डेटासेट हैं और सिंथेटिक डेटासेट उत्पन्न कर सकते हैं जो एल्गोरिदम के प्रदर्शन का अध्ययन करने के लिए उपयोगी हैं।

पायथन के स्किकिट-लर्न में नमूना डेटा है और सिंथेटिक / खिलौना डेटासेट भी उत्पन्न करता है।

SAS के पास डाउनलोड के लिए प्रशिक्षण डेटासेट उपलब्ध है और C: \ Program Files \ IBM \ SPSS \ आँकड़े \ 22 \ नमूने में सॉफ़्टवेयर के साथ SPSS नमूना डेटा स्थापित है

अंत में, मैं जंगली में डेटा देखूंगा। मैं वास्तविक डेटा सेट पर विभिन्न एल्गोरिदम और ट्यूनिंग मापदंडों के प्रदर्शन की तुलना करता हूं। इसके लिए आमतौर पर बहुत अधिक काम करने की आवश्यकता होती है क्योंकि आप डेटा टाइप और संरचनाओं के साथ डेटासेट शायद ही कभी पा सकेंगे, जिसे आप अपने एल्गोरिदम में छोड़ सकते हैं।

जंगली में डेटा के लिए, मैं सुझाऊंगा:

Reddit का डेटासेट आर्काइव

केडनगेट की सूची


1
जिन लोगों के पास R नहीं है, और वे केवल इन डेटासेट तक पहुंचने के लिए इसे डाउनलोड नहीं करना चाहते हैं, डेटासेट और विवरण यहां ऑनलाइन उपलब्ध हैं
गूँग - मोनिका

0

आइरिस डेटा सेट हाथ नीचे। यह बेस आर में भी है।


1
कृपया प्रश्न के मूल भाग का उत्तर दें: "... यह भी बताएं कि उन्हें एक अच्छा डेटासेट क्या बनाता है?"
whuber

0

मेरी राय में, आपको छोटे डेटासेट के साथ शुरू करना चाहिए जिसमें बहुत अधिक विशेषताएं नहीं हैं।

एक उदाहरण आइरिस डेटासेट (वर्गीकरण के लिए) होगा। इसमें 3 वर्ग हैं, प्रत्येक कक्षा के लिए 150 डेटा बिंदुओं के लिए 50 नमूने हैं। इस डेटा श्रृंखला का पता लगाने में आपकी मदद करने के लिए एक उत्कृष्ट संसाधन यह वीडियो श्रृंखला है डेटा स्कूल द्वारा है।

चेकआउट करने के लिए एक और डेटासेट UCI -ML रिपॉजिटरी से निर्धारित वाइन क्वालिटी डेटा है। इसमें 12 विशेषताओं के साथ 4898 डेटा पॉइंट हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.