क्लस्टरिंग एल्गोरिदम के गुणों को प्रदर्शित करने के लिए 2 डी कृत्रिम डेटा की तलाश है

9

मैं अलग-अलग वितरण और रूपों के बाद 2 आयामी डेटा पॉइंट्स (प्रत्येक डेटापॉइंट दो मानों का एक वेक्टर है (x, y)) की खोज कर रहा हूं। इस तरह के डेटा को उत्पन्न करने के लिए कोड भी सहायक होगा। मैं उनका उपयोग करना चाहता हूं कि कुछ क्लस्टरिंग एल्गोरिदम प्रदर्शन करने की साजिश / कल्पना करें। यहाँ कुछ उदाहरण हैं:

— स्टीफन
स्रोत

मैं cw के लिए वोट देता हूं;)

— स्टीफन

: विशिष्ट डेटासेट की लाइनों में ऐसा ही एक सवाल यहाँ बंद कर दिया गया stats.stackexchange.com/questions/38928/...

— रथी

SPSS के लिए, मैंने एक क्लस्टर-जनरेटिंग मैक्रो (मेरे पृष्ठ पर जाएं, "जनरेट क्लस्टर" देखें) लिखा है। यह, हालांकि, अंगूठी या सर्पिल जैसे दिखावा आकार का उत्पादन नहीं करता है।

— ttnphns

11

आर बहुत सारे डेटासेट के साथ आता है, और ऐसा लगता है कि कोड के कुछ लाइनों के साथ आपके द्वारा उद्धृत अधिकांश उदाहरणों को पुन: पेश करना कोई बड़ी बात नहीं होगी। आपको मिलीबैंक पैकेज भी उपयोगी मिल सकता है , विशेष रूप से सिंथेटिक डेटासेट में mlbench.*। कुछ चित्र नीचे दिए गए हैं।

यहाँ छवि विवरण दर्ज करें

CRAN पर क्लस्टर टास्क व्यू को देखकर आपको अतिरिक्त उदाहरण मिलेंगे। उदाहरण के लिए, fpc पैकेज में "फेस-शेप्ड" क्लस्टर बेंचमार्क डेटासेट ( rFace) के लिए एक अंतर्निहित जनरेटर है ।

यहाँ छवि विवरण दर्ज करें

इसी तरह के विचार पायथन पर भी लागू होते हैं, जहां आपको स्किकिट-लर्न के साथ क्लस्टरिंग के लिए दिलचस्प बेंचमार्क परीक्षण और डेटासेट मिलेंगे ।

यूसीआई मशीन लर्निंग रिपॉजिटरी बहुत सारे डेटासेट को होस्ट करती है , लेकिन आप अपनी पसंद की भाषा के साथ डेटा का स्वयं अनुकरण करना बेहतर समझते हैं।

— chl
स्रोत

4

यहाँ कुछ डेटासेट इस कार्य के लिए डिज़ाइन किए गए हैं:

उल्केश द्वारा मौलिक क्लस्टरिंग समस्या सूट

— रिवीजन स्टीफ़न
स्रोत

2

इस खिलौना क्लस्टरिंग बेंचमार्क में ARFF प्रारूप में विभिन्न डेटा सेट होते हैं (आसानी से CSV में परिवर्तित किए जा सकते हैं), ज्यादातर जमीनी सच्चाई लेबल के साथ। बेंचमार्क को क्लस्टरिंग एल्गोरिदम के बुनियादी वांछित गुणों को मान्य करना चाहिए। अधिकांश डेटा सेट क्लस्टर पेपर से आते हैं जैसे:

BIRCH - झांग, तियान, रघु रामकृष्णन, और मिरॉन लिवनी। "BIRCH: बहुत बड़े डेटाबेस के लिए एक कुशल डेटा क्लस्टरिंग विधि।" ACM SIGMOD रिकॉर्ड वॉल्यूम। 25. नंबर 2. एसीएम, 1996।
इलाज - गुहा, सुदीप्तो, राजीव रस्तोगी, और क्यूसेक शिम। "इलाज: बड़े डेटाबेस के लिए एक कुशल क्लस्टरिंग एल्गोरिथ्म।" ACM SIGMOD रिकॉर्ड वॉल्यूम। 27. नंबर 2. एसीएम, 1998।
गिरगिट - करैपीस, जॉर्ज, यि-होंग हान, और विपिन कुमार। "गिरगिट: गतिशील मॉडलिंग का उपयोग करते हुए पदानुक्रमिक क्लस्टरिंग।" कंप्यूटर 32.8 (1999): 68-75।
मौलिक क्लस्टरिंग प्रॉब्लम सूट - उल्ट्स, ए .: क्लस्टरिंग विथ सोम: यू * सी, इन प्रोक। सेल्फ-ऑर्गनाइजिंग मैप्स, पेरिस, फ्रांस, (2005), पीपी। 75-82 पर कार्यशाला
MOCK - हैंडल, जूलिया और जोशुआ नोल्स। "मल्टीबोजेक्टिव क्लस्टरिंग के लिए एक विकासवादी दृष्टिकोण।" विकासवादी संगणना, IEEE लेनदेन 11.1 (2007): 56-76 पर।
मजबूत पथ-आधारित वर्णक्रमीय क्लस्टरिंग - चांग, हांग, और डिट-यान येयुंग। "मजबूत पथ-आधारित वर्णक्रमीय क्लस्टरिंग।" पैटर्न मान्यता 41.1 (2008): 191-203।

— टॉम्बर्ट का पता चलता है
स्रोत

1

ELKI डेटा सेट के एक जोड़े के साथ आता है (यूनिट परीक्षणों की भी जांच करें, वे वेब साइट पर उन लोगों की तुलना में कई अधिक होते हैं, साथ में सीमाएं )।

इसमें एक काफी लचीला डेटा जनरेटर भी शामिल है।

— QUIT है - एनीनी-मूस
स्रोत

1

यहाँ एक अनुकूलन क्लस्टर जनरेटर है। यह केवल डेटा सेट की एक निश्चित श्रेणी को संबोधित करता है, लेकिन इसका उपयोग निश्चित रूप से क्लस्टर एल्गोरिथ्म की जांच के लिए किया जा सकता है।

यहाँ गुच्छों के प्रकार का एक उदाहरण है जो इसे बना सकते हैं:

क्लस्टर संबद्धता एक पाठ फ़ाइल में सहेजी जाती है। कोड एमआईटी लाइसेंस के तहत खुला स्रोत है।

— फेलिक्स डॉब्स्लाव
स्रोत

1

यह Matlab स्क्रिप्ट क्लस्टरिंग के लिए 2D डेटा जेनरेट करता है। यह कई मापदंडों को स्वीकार करता है ताकि उत्पन्न डेटा उपयोगकर्ता की आवश्यकताओं के भीतर हो।

— faken
स्रोत

0

मैं विश्वास नहीं कर सकता कि किसी ने फिशर के आइरिस डेटा का उल्लेख नहीं किया है।

मुझे नहीं लगता कि मैंने एक क्लस्टरिंग तकनीक देखी है जो उदाहरण के रूप में आईरिस डेटा का उपयोग नहीं करती है ।

आर में, डेटा तक पहुंचने के लिए बस "आईरिस" टाइप करें।

यहाँ एक अच्छा (और विशिष्ट) आईरिस प्लॉट का एक उदाहरण दिया गया है: http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/

— geneorama
स्रोत