पहले, मैं सैंपल डेटा के साथ शुरू करने की सलाह दूंगा जो सॉफ्टवेयर के साथ प्रदान किया गया है। अधिकांश सॉफ़्टवेयर वितरण में उदाहरण डेटा शामिल होता है जिसका उपयोग आप डेटा प्रकारों से निपटने के बिना एल्गोरिथ्म से परिचित होने के लिए कर सकते हैं और डेटा को एल्गोरिथम के लिए सही प्रारूप में कुश्ती कर सकते हैं। यहां तक कि अगर आप खरोंच से एक एल्गोरिथ्म का निर्माण कर रहे हैं, तो आप नमूना को एक समान कार्यान्वयन से शुरू कर सकते हैं और प्रदर्शन की तुलना कर सकते हैं।
दूसरा, मैं सिंथेटिक डेटा सेट के साथ प्रयोग करने की सलाह दूंगा कि एल्गोरिथ्म यह कैसे महसूस करता है कि आपको पता है कि डेटा कैसे उत्पन्न होता है और शोर अनुपात का संकेत देता है।
आर में, आप इस कमांड के साथ वर्तमान में स्थापित पैकेज में सभी डेटासेट को सूचीबद्ध कर सकते हैं:
data(package = installed.packages()[, 1])
आर पैकेज एमएलबेन्च में वास्तविक डेटासेट हैं और सिंथेटिक डेटासेट उत्पन्न कर सकते हैं जो एल्गोरिदम के प्रदर्शन का अध्ययन करने के लिए उपयोगी हैं।
पायथन के स्किकिट-लर्न में नमूना डेटा है और सिंथेटिक / खिलौना डेटासेट भी उत्पन्न करता है।
SAS के पास डाउनलोड के लिए प्रशिक्षण डेटासेट उपलब्ध है और C: \ Program Files \ IBM \ SPSS \ आँकड़े \ 22 \ नमूने में सॉफ़्टवेयर के साथ SPSS नमूना डेटा स्थापित है
अंत में, मैं जंगली में डेटा देखूंगा। मैं वास्तविक डेटा सेट पर विभिन्न एल्गोरिदम और ट्यूनिंग मापदंडों के प्रदर्शन की तुलना करता हूं। इसके लिए आमतौर पर बहुत अधिक काम करने की आवश्यकता होती है क्योंकि आप डेटा टाइप और संरचनाओं के साथ डेटासेट शायद ही कभी पा सकेंगे, जिसे आप अपने एल्गोरिदम में छोड़ सकते हैं।
जंगली में डेटा के लिए, मैं सुझाऊंगा:
Reddit का डेटासेट आर्काइव
केडनगेट की सूची