नेटवर्क विश्लेषण क्लासिक डेटासेट


10

मशीन सीखने के वर्गीकरण / प्रतिगमन कार्यों के लिए कई क्लासिक डेटासेट हैं। सबसे लोकप्रिय हैं:

लेकिन क्या कोई नेटवर्क विश्लेषण / ग्राफ सिद्धांत के लिए समान डेटासेट जानता है? अधिक ठोस - मैं सोने के मानक डेटासेट की तुलना / मूल्यांकन / सीखने के लिए देख रहा हूँ :

  1. केंद्रीयता के उपाय;
  2. नेटवर्क क्लस्टरिंग एल्गोरिदम।

मुझे सार्वजनिक रूप से उपलब्ध नेटवर्क / ग्राफ़ की एक विशाल सूची की आवश्यकता नहीं है, लेकिन वास्तव में डेटासेट को अवश्य जानना चाहिए।

संपादित करें:

"स्वर्ण मानक डेटासेट" के लिए सटीक सुविधाएं प्रदान करना काफी कठिन है, लेकिन यहां कुछ विचार हैं। मुझे लगता है, असली क्लासिक डेटासेट को इन मानदंडों को पूरा करना चाहिए:

  • लेख और पाठ्यपुस्तकों में कई संदर्भ;
  • प्रसिद्ध नेटवर्क विश्लेषण सॉफ्टवेयर पैकेज में शामिल करना;
  • अस्तित्व का पर्याप्त समय;
  • ग्राफ विश्लेषण पर कई पाठ्यक्रमों में उपयोग।

अपनी रुचि के क्षेत्र के बारे में, मुझे वर्टिकल और / या प्रीकम्प्यूटेड (या पूर्वनिर्धारित) "प्राधिकरण स्कोर" (यानी केंद्रीयता अनुमान) के लिए लेबल वाली कक्षाओं की आवश्यकता है। इस प्रश्न को पूछने के बाद मैंने खोज जारी रखी, और यहाँ कुछ उपयुक्त उदाहरण दिए गए हैं:

  • जैचेरी के कराटे क्लब : 1977 में पेश किया गया, जो कि 1.5k गुना (Google विद्वान के अनुसार) का हवाला देते हुए, वर्टेक्स में विशेषता फैक्शन (जिसे क्लस्टरिंग के लिए इस्तेमाल किया जा सकता है) है।
  • एर्दोस सहयोग नेटवर्क : दुर्भाग्य से, मुझे यह नेटवर्क डेटा-फ़ाइल के रूप में नहीं मिला है, लेकिन यह बहुत प्रसिद्ध है, और अगर कोई गणितज्ञों के विशेषज्ञ डेटा के साथ नेटवर्क को समृद्ध करेगा, तो इसका उपयोग क्लस्टरिंग एल्गोरिदम के परीक्षण के लिए भी किया जा सकता है।

1
मुझे लगता है कि आप "गोल्ड स्टैंडर्ड डेटासेट" को अधिक उद्देश्यपूर्ण ढंग से परिभाषित करके इस प्रश्न को सुधार सकते हैं। क्या यह "पता होना चाहिए"? क्या इसे कई पाठ्य पुस्तकों में संदर्भित किया जाना चाहिए? कई प्रकाशित मॉडलों में उपयोग किया गया है? आदि अन्यथा उत्तर व्यक्तिपरक होंगे और समय बीतने के साथ वे बदल जाएंगे। एक बुरा संयोजन यहाँ।
वायु

जवाबों:


5

आप जो देख रहे हैं वह KONECT में पाया जा सकता है (वेबसाइट नीचे है क्योंकि मैं यह लिख रहा हूं लेकिन इसे जल्द ही ठीक कर लिया जाना चाहिए!)। यह नेटवर्क विश्लेषण के लिए लगभग सबसे व्यापक डेटा संग्रह है। लेकिन सवाल यह है कि कौन सा उपयोग करने के लिए अधिक मानक है?

खैर, ज़ाचारी के कराटे क्लब के अलावा कोई स्पष्ट जवाब नहीं है!

यदि आप कम्युनिटी डिटेक्शन एल्गोरिदम में साहित्य की समीक्षा करते हैं, तो आप देखेंगे कि लगभग सभी शाइनिंग पेपर विभिन्न नेटवर्कों का उपयोग करते हैं। मेरा सुझाव एंड्रिया लानीचिनीटी और सैंटो फॉर्चुनैटो ने बेंचमार्किंग ग्राफ़ के लिए क्या किया है। उन्होंने कुछ बेंचमार्क ग्राफ पीढ़ी के एल्गोरिदम जैसे इस एक का प्रस्ताव रखा ।

आशा है ये मदद करेगा :)


आप इसे वेकबैक मशीन, इसके अपने सबसे अच्छे दोस्त web.archive.org/web/20150402165739/http://konect.uni-koblenz.de/…
albert


1

केवल एक चीज जिसके बारे में मुझे पता है वह है ग्राफ़ डेटाबेस के लिए मानदंड डेटा, जैसे कि Neo4j।

आपको इसके समान लिंक मिल सकते हैं: http://istc-bigdata.org/index.php/benchmarking-graph-dat डेटाबेस/

जहां आप नेटवर्क विश्लेषण और ग्राफ सिद्धांत का परीक्षण करने के लिए डेटा पा सकते हैं।

इसके अलावा, आप अपना डेटा एकत्र करने के लिए ट्विटर / फेसबुक के एपीआई के साथ खेल सकते हैं। यह उस स्थिति में भी सुझाव है जब आप उस डेटा को नहीं खोज रहे हैं जिसे आप खोज रहे हैं।


धन्यवाद, लेकिन यह वास्तव में मैं क्या देख रहा हूँ नहीं है। अधिक जानकारी के लिए अद्यतन देखें।
सोबच
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.