मशीन सीखने के वर्गीकरण / प्रतिगमन कार्यों के लिए कई क्लासिक डेटासेट हैं। सबसे लोकप्रिय हैं:
- आइरिस फूल डेटा सेट ;
- टाइटैनिक डेटा सेट ;
- मोटर ट्रेंड कारें ;
- आदि।
लेकिन क्या कोई नेटवर्क विश्लेषण / ग्राफ सिद्धांत के लिए समान डेटासेट जानता है? अधिक ठोस - मैं सोने के मानक डेटासेट की तुलना / मूल्यांकन / सीखने के लिए देख रहा हूँ :
- केंद्रीयता के उपाय;
- नेटवर्क क्लस्टरिंग एल्गोरिदम।
मुझे सार्वजनिक रूप से उपलब्ध नेटवर्क / ग्राफ़ की एक विशाल सूची की आवश्यकता नहीं है, लेकिन वास्तव में डेटासेट को अवश्य जानना चाहिए।
संपादित करें:
"स्वर्ण मानक डेटासेट" के लिए सटीक सुविधाएं प्रदान करना काफी कठिन है, लेकिन यहां कुछ विचार हैं। मुझे लगता है, असली क्लासिक डेटासेट को इन मानदंडों को पूरा करना चाहिए:
- लेख और पाठ्यपुस्तकों में कई संदर्भ;
- प्रसिद्ध नेटवर्क विश्लेषण सॉफ्टवेयर पैकेज में शामिल करना;
- अस्तित्व का पर्याप्त समय;
- ग्राफ विश्लेषण पर कई पाठ्यक्रमों में उपयोग।
अपनी रुचि के क्षेत्र के बारे में, मुझे वर्टिकल और / या प्रीकम्प्यूटेड (या पूर्वनिर्धारित) "प्राधिकरण स्कोर" (यानी केंद्रीयता अनुमान) के लिए लेबल वाली कक्षाओं की आवश्यकता है। इस प्रश्न को पूछने के बाद मैंने खोज जारी रखी, और यहाँ कुछ उपयुक्त उदाहरण दिए गए हैं:
- जैचेरी के कराटे क्लब : 1977 में पेश किया गया, जो कि 1.5k गुना (Google विद्वान के अनुसार) का हवाला देते हुए, वर्टेक्स में विशेषता फैक्शन (जिसे क्लस्टरिंग के लिए इस्तेमाल किया जा सकता है) है।
- एर्दोस सहयोग नेटवर्क : दुर्भाग्य से, मुझे यह नेटवर्क डेटा-फ़ाइल के रूप में नहीं मिला है, लेकिन यह बहुत प्रसिद्ध है, और अगर कोई गणितज्ञों के विशेषज्ञ डेटा के साथ नेटवर्क को समृद्ध करेगा, तो इसका उपयोग क्लस्टरिंग एल्गोरिदम के परीक्षण के लिए भी किया जा सकता है।