क्लस्टरिंग एल्गोरिदम के गुणों को प्रदर्शित करने के लिए 2 डी कृत्रिम डेटा की तलाश है


9

मैं अलग-अलग वितरण और रूपों के बाद 2 आयामी डेटा पॉइंट्स (प्रत्येक डेटापॉइंट दो मानों का एक वेक्टर है (x, y)) की खोज कर रहा हूं। इस तरह के डेटा को उत्पन्न करने के लिए कोड भी सहायक होगा। मैं उनका उपयोग करना चाहता हूं कि कुछ क्लस्टरिंग एल्गोरिदम प्रदर्शन करने की साजिश / कल्पना करें। यहाँ कुछ उदाहरण हैं:


मैं cw के लिए वोट देता हूं;)
स्टीफन

: विशिष्ट डेटासेट की लाइनों में ऐसा ही एक सवाल यहाँ बंद कर दिया गया stats.stackexchange.com/questions/38928/...
रथी

SPSS के लिए, मैंने एक क्लस्टर-जनरेटिंग मैक्रो (मेरे पृष्ठ पर जाएं, "जनरेट क्लस्टर" देखें) लिखा है। यह, हालांकि, अंगूठी या सर्पिल जैसे दिखावा आकार का उत्पादन नहीं करता है।
ttnphns

जवाबों:


11

आर बहुत सारे डेटासेट के साथ आता है, और ऐसा लगता है कि कोड के कुछ लाइनों के साथ आपके द्वारा उद्धृत अधिकांश उदाहरणों को पुन: पेश करना कोई बड़ी बात नहीं होगी। आपको मिलीबैंक पैकेज भी उपयोगी मिल सकता है , विशेष रूप से सिंथेटिक डेटासेट में mlbench.*। कुछ चित्र नीचे दिए गए हैं।

यहाँ छवि विवरण दर्ज करें

CRAN पर क्लस्टर टास्क व्यू को देखकर आपको अतिरिक्त उदाहरण मिलेंगे। उदाहरण के लिए, fpc पैकेज में "फेस-शेप्ड" क्लस्टर बेंचमार्क डेटासेट ( rFace) के लिए एक अंतर्निहित जनरेटर है ।

यहाँ छवि विवरण दर्ज करें

इसी तरह के विचार पायथन पर भी लागू होते हैं, जहां आपको स्किकिट-लर्न के साथ क्लस्टरिंग के लिए दिलचस्प बेंचमार्क परीक्षण और डेटासेट मिलेंगे

यूसीआई मशीन लर्निंग रिपॉजिटरी बहुत सारे डेटासेट को होस्ट करती है , लेकिन आप अपनी पसंद की भाषा के साथ डेटा का स्वयं अनुकरण करना बेहतर समझते हैं।



2

इस खिलौना क्लस्टरिंग बेंचमार्क में ARFF प्रारूप में विभिन्न डेटा सेट होते हैं (आसानी से CSV में परिवर्तित किए जा सकते हैं), ज्यादातर जमीनी सच्चाई लेबल के साथ। बेंचमार्क को क्लस्टरिंग एल्गोरिदम के बुनियादी वांछित गुणों को मान्य करना चाहिए। अधिकांश डेटा सेट क्लस्टर पेपर से आते हैं जैसे:

  • BIRCH - झांग, तियान, रघु रामकृष्णन, और मिरॉन लिवनी। "BIRCH: बहुत बड़े डेटाबेस के लिए एक कुशल डेटा क्लस्टरिंग विधि।" ACM SIGMOD रिकॉर्ड वॉल्यूम। 25. नंबर 2. एसीएम, 1996।
  • इलाज - गुहा, सुदीप्तो, राजीव रस्तोगी, और क्यूसेक शिम। "इलाज: बड़े डेटाबेस के लिए एक कुशल क्लस्टरिंग एल्गोरिथ्म।" ACM SIGMOD रिकॉर्ड वॉल्यूम। 27. नंबर 2. एसीएम, 1998।
  • गिरगिट - करैपीस, जॉर्ज, यि-होंग हान, और विपिन कुमार। "गिरगिट: गतिशील मॉडलिंग का उपयोग करते हुए पदानुक्रमिक क्लस्टरिंग।" कंप्यूटर 32.8 (1999): 68-75।
  • मौलिक क्लस्टरिंग प्रॉब्लम सूट - उल्ट्स, ए .: क्लस्टरिंग विथ सोम: यू * सी, इन प्रोक। सेल्फ-ऑर्गनाइजिंग मैप्स, पेरिस, फ्रांस, (2005), पीपी। 75-82 पर कार्यशाला
  • MOCK - हैंडल, जूलिया और जोशुआ नोल्स। "मल्टीबोजेक्टिव क्लस्टरिंग के लिए एक विकासवादी दृष्टिकोण।" विकासवादी संगणना, IEEE लेनदेन 11.1 (2007): 56-76 पर।
  • मजबूत पथ-आधारित वर्णक्रमीय क्लस्टरिंग - चांग, ​​हांग, और डिट-यान येयुंग। "मजबूत पथ-आधारित वर्णक्रमीय क्लस्टरिंग।" पैटर्न मान्यता 41.1 (2008): 191-203।

karypis डेटा क्लूटो डेटा


1

ELKI डेटा सेट के एक जोड़े के साथ आता है (यूनिट परीक्षणों की भी जांच करें, वे वेब साइट पर उन लोगों की तुलना में कई अधिक होते हैं, साथ में सीमाएं )।

इसमें एक काफी लचीला डेटा जनरेटर भी शामिल है।


1

यहाँ एक अनुकूलन क्लस्टर जनरेटर है। यह केवल डेटा सेट की एक निश्चित श्रेणी को संबोधित करता है, लेकिन इसका उपयोग निश्चित रूप से क्लस्टर एल्गोरिथ्म की जांच के लिए किया जा सकता है।

यहाँ गुच्छों के प्रकार का एक उदाहरण है जो इसे बना सकते हैं:

http://i.stack.imgur.com/vrCG5.png

क्लस्टर संबद्धता एक पाठ फ़ाइल में सहेजी जाती है। कोड एमआईटी लाइसेंस के तहत खुला स्रोत है।


1

यह Matlab स्क्रिप्ट क्लस्टरिंग के लिए 2D डेटा जेनरेट करता है। यह कई मापदंडों को स्वीकार करता है ताकि उत्पन्न डेटा उपयोगकर्ता की आवश्यकताओं के भीतर हो।


0

मैं विश्वास नहीं कर सकता कि किसी ने फिशर के आइरिस डेटा का उल्लेख नहीं किया है।

मुझे नहीं लगता कि मैंने एक क्लस्टरिंग तकनीक देखी है जो उदाहरण के रूप में आईरिस डेटा का उपयोग नहीं करती है

आर में, डेटा तक पहुंचने के लिए बस "आईरिस" टाइप करें।

यहाँ एक अच्छा (और विशिष्ट) आईरिस प्लॉट का एक उदाहरण दिया गया है: http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.