क्लस्टरिंग के लिए विज़ुअलाइज़ेशन सॉफ़्टवेयर


14

मैं ~ 22000 अंक क्लस्टर करना चाहता हूं। कई क्लस्टरिंग एल्गोरिदम उच्च गुणवत्ता वाले प्रारंभिक अनुमानों के साथ बेहतर काम करते हैं। क्या उपकरण मौजूद हैं जो मुझे डेटा के किसी न किसी आकार का एक अच्छा विचार दे सकते हैं?

मैं अपनी खुद की दूरी मीट्रिक का चयन करने में सक्षम होना चाहता हूं, इसलिए एक कार्यक्रम जिसे मैं बस ठीक होने के लिए जोड़ीदार दूरियों की सूची खिला सकता हूं। मैं कुछ ऐसा करने में सक्षम होना चाहूंगा जैसे डिस्प्ले पर किसी क्षेत्र या क्लस्टर को हाइलाइट करना और उस क्षेत्र में डेटा बिंदुओं की सूची प्राप्त करना।

मुफ्त सॉफ्टवेयर पसंद किया गया है, लेकिन मेरे पास पहले से ही एसएएस और MATLAB है।

जवाबों:


11

GGobi (http://www.ggobi.org/), आर पैकेज rggobi के साथ, इस कार्य के लिए पूरी तरह से अनुकूल है।

उदाहरण के लिए संबंधित प्रस्तुति देखें: http://www.ggobi.org/book/2007-infovis/05-clustering.pdf


सुझाव के लिए धन्यवाद, @ शाने। ggobi होनहार लग रहा है, मैं इसे अभी स्थापित कर रहा हूं और इसे आजमाऊंगा :)

1
अन्य प्लेटफार्मों पर ठीक काम करता है, लेकिन gtk OSX के साथ अच्छा नहीं खेलता है।

3
gtk OSX पर ठीक है।
हैडली

5

संकुल क्लस्टरिंग और gcExplorer का उपयोग करके उच्च आयामों में क्लस्टरिंग परिणामों को आर में किया जा सकता है । यहाँ और अधिक के लिए देखो ।


धन्यवाद, लेकिन क्या सीधे ggobi को कॉल करने के बजाय क्लस्टर का उपयोग करने का कोई लाभ है? वेबसाइट में केवल क्लस्टरिंग विधियों का उल्लेख है, जो दिलचस्प हैं, लेकिन अभी तक मेरा प्राथमिक लक्ष्य नहीं है। gcexplorer में कम जानकारीपूर्ण वेबसाइट है, लेकिन ऐसा लगता है कि यह डेटा को विज़ुअलाइज़ करने के लिए है क्योंकि यह पहले ही क्लस्टर में विभाजित हो चुका है। मैं उन्हें उस मुकाम पर पहुँचने के बाद एक कोशिश करूँगा, लेकिन अभी मुझे जो चाहिए वह नहीं।

4

(महीने बाद), के-क्लस्टर्स की तस्वीर लगाने और विभिन्न के के प्रभाव को देखने का एक अच्छा तरीका न्यूनतम स्पैनिंग ट्री बनाना और सबसे लंबे किनारों को देखना है। उदाहरण के लिए,

वैकल्पिक शब्द

यहां 10 क्लस्टर हैं, जिनमें 9 सबसे लंबे किनारों के साथ 855 899 942 954 1003 1005 1069 1134 1267 हैं।
9 समूहों के लिए, सियान 855 किनारे को ढहते हैं; 8 के लिए, बैंगनी 899; और इसी तरह।

एकल-लिंक k- क्लस्टरिंग एल्गोरिथ्म ... वास्तव में क्रुशाल का एल्गोरिथ्म है ... एक एमएसटी खोजने और के -1 सबसे महंगे किनारों को हटाने के बराबर है।

- वेन, लालची एल्गोरिदम

22000 अंक, 242 मीटर जोड़ीदार दूरी, ~ 1 गीगाबाइट (फ्लोट 32): फिट हो सकती है।

2 डी में एक उच्च-आयामी पेड़ या ग्राफ को देखने के लिए, बहुआयामी स्केलिंग (क्रुस्कल से भी), और आयाम में कमी पर विशाल साहित्य देखें। हालाँकि, मंद> 20 कहते हैं, अधिकांश दूरी मध्य के पास होगी, इसलिए मेरा मानना ​​है कि आयाम में कमी वहाँ काम नहीं कर सकती है।


2

मुझे अपने एक प्रोजेक्ट के दौरान KNIME के साथ अच्छा अनुभव हुआ है । यह त्वरित खोज खनन और रेखांकन के लिए एक उत्कृष्ट समाधान है। इसके शीर्ष पर यह आर और वीका मॉड्यूल को सहज एकीकरण प्रदान करता है।


एक उपयोगी कार्यक्रम की तरह दिखता है, लेकिन उनका वेबपेज मुझे समझाने का अच्छा काम नहीं करता है जो इस सटीक समस्या को हल करेगा। ऐसा लगता है कि यह बहुत व्यापक हो सकता है, बहुत सी विशेषताएं जिनके बारे में मुझे कोई परवाह नहीं है, जिससे साधारण चीजें करना मुश्किल हो जाता है। अगर अन्य विकल्प काम नहीं करेंगे तो मैं इसे एक और रूप दूंगा।


1

क्लस्टर 3.0 पर एक नज़र डालें । मुझे यकीन नहीं है कि यह सब आप चाहते हैं, लेकिन यह बहुत अच्छी तरह से प्रलेखित है और आपको कुछ दूरी मैट्रिक्स से चुनने देता है। विज़ुअलाइज़ेशन पीस एक अलग प्रोग्राम के माध्यम से है जिसे जावा ट्री व्यू ( स्क्रीनशॉट ) कहा जाता है ।


सुझाव के लिए धन्यवाद, लेकिन मेरी दूरी को मापने की क्षमता महत्वपूर्ण है, इसलिए यह मेरे लिए काम नहीं करेगा। किसी और को यह उपयोगी लग सकता है, हालांकि।

1

GGobi इसके लिए दिलचस्प दिखता है। एक अन्य तरीका यह हो सकता है कि आपकी समानता / व्युत्क्रम दूरी के मेट्रिसेस को नेटवर्क आसन्न मैट्रिसेस के रूप में माना जाए और इसे एक नेटवर्क विश्लेषण रूटीन में फीड किया जाए (जैसे, या तो आरग्राफ या आर पाजेक में)। इस दृष्टिकोण के साथ मैं विभिन्न कटपॉइंट पर एक बाइनरी टाई में नोड दूरी काटने के साथ प्रयोग करूंगा।


मैंने यह सोचा था, लेकिन एक उचित कटौती बिंदु नहीं लगता है, और डोमेन विशेषज्ञ किसी एक को भी सही नहीं ठहरा सकते हैं।

मुझे लगता है कि यह आपके बताए उद्देश्य के लिए काफी हद तक मनमाना हो सकता है - ईमानदारी से, आपको वास्तव में बाइनरी में कटौती करने की आवश्यकता नहीं हो सकती है, बस कुछ प्रबंधनीय संख्या के लिए 1 के पैमाने पर एक टाई वैल्यू लेबल को फिर से व्यवस्थित करें, फिर उत्तरोत्तर छिपाने / संबंधों को दिखाने के लिए विभिन्न स्तरों (वैकल्पिक रूप से भी रास्ते में किसी भी पेंडेंट और अनाथों को छिपाना / समाप्त करना)। लिखित रूप में आपके अनुरोध पर सीधे प्रतिक्रिया नहीं दे रहा है, लेकिन क्यों एक अधिक विशिष्ट दृष्टिकोण नहीं है और एक हाइब्रिड क्लस्टरिंग विधि का उपयोग करें जो प्रारंभिक समूहों को पहचानने के लिए प्रारंभिक सेंट्रोइड्स का उपयोग नहीं करता है, फिर उस परिणाम से सेंट्रोइड्स को अपने नए विश्लेषण में फ़ीड करें?
शेल्बी

मैं अनुमान लगा रहा हूं कि जब तक मैं कुछ अच्छे परिणाम नहीं देख लेता, तब तक आप कई अलग-अलग कटऑफ के लिए प्रयास करते हैं? मैं मानक कई तुलना कारणों के लिए उससे बचना चाहता हूं। पुन: आपका दूसरा सुझाव मुझे लगता है कि मुझे उन एल्गोरिदम से बेहतर खुद पर भरोसा है। मैं कंप्यूटर का उपयोग बड़ी मात्रा में डेटा को हाथ से करने के लिए थकाऊ करने के लिए करता हूं, न कि अपनी सोच को बदलने के लिए।

1
आप परिकल्पना परीक्षण भाषा का उपयोग कर रहे हैं, लेकिन अभी तक एक ही खोजकर्ता के बारे में बात कर रहे हैं, पता है कि यह-जब-आप-यह-यह उसी समय @ दृष्टिकोण - तो यह स्पष्ट नहीं है कि वास्तव में आपके विश्लेषण के इस हिस्से के लिए आपका लक्ष्य क्या है। यदि आपके पास परिकल्पनाएं हैं जिनका आप बाद में परीक्षण कर रहे हैं (जैसे कि क्लस्टर सदस्यता की भविष्यवाणी करना या पूर्वसूचक के रूप में क्लस्टर सदस्यता का उपयोग करना) तो आप उन चीजों को न करने का विकल्प चुन सकते हैं जो वहां पूर्वाग्रह को लुभाएंगे। लेकिन "एकाधिक तुलना" मुद्दे वास्तव में आपके द्वारा बताई गई खोजपूर्ण समस्या में शामिल नहीं होते हैं। अर्थात कटऑफ सिर्फ आपको यह देखने में मदद करने के लिए है कि वहां क्या है - लेकिन आपका विश्वास अभी भी गलत हो सकता है।
शेल्बी

1

Weka डाटा खनन (wirtten और जावा में एक्स्टेंसिबल) के लिए एक खुला स्रोत कार्यक्रम है, ऑरेंज एक खुला स्रोत कार्यक्रम और डाटा खनन और मशीन लर्निंग (पायथन में लिखा) के लिए पुस्तकालय है। वे दोनों बहुआयामी डेटा के सुविधाजनक और कुशल दृश्य अन्वेषण की अनुमति देते हैं


ऑरेंज के फीचर पेज पर 'निर्माणाधीन' लिखा है और वे स्क्रीनशॉट्स को सूचीबद्ध नहीं करते हैं जैसे मैं क्या कर रहा हूं। weka की कोई विशेषता सूची नहीं है। वे वही कर सकते हैं जो मैं चाहता हूं, लेकिन अगर वे इस सुविधा का प्रचार नहीं करते हैं, तो मैं कैसे बता सकता हूं। मैं अन्य विकल्पों से अधिक आश्वस्त हूं।

0

DataMelt मुफ्त संख्यात्मक सॉफ्टवेयर में जावा लाइब्रेरी शामिल है जिसे JMinHep कहा जाता है। कृपया "डेटा क्लस्टरिंग" अनुभाग के तहत मैनुअल देखें। यह XY में बहुआयामी डेटा बिंदुओं की कल्पना करने के लिए एक GUI प्रदान करता है, और कई डेटा क्लस्टरिंग एल्गोरिदम चलाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.