नेत्रहीन बहु आयामी क्लस्टर डेटा की साजिश रचने


18

मेरे पास 16 चर के साथ एक डेटा सेट है, और kmeans द्वारा क्लस्टरिंग के बाद, मैं दो समूहों की साजिश करना चाहता हूं।

आप दो समूहों को नेत्रहीन रूप से दर्शाने के लिए किन भूखंडों का सुझाव देते हैं?

जवाबों:


23

कोई एकल सही दृश्य नहीं है। यह निर्भर करता है कि आप किस गुच्छे को देखना या ज़ोर देना चाहते हैं।

देखना चाहते हैं कि प्रत्येक चर कैसे योगदान देता है? एक समानांतर निर्देशांक भूखंड पर विचार करें।

दो समूहों और क्लस्टर साधनों के लिए समानांतर निर्देशांक

क्या आप देखना चाहते हैं कि प्रमुख घटकों के साथ क्लस्टर कैसे वितरित किए जाते हैं? एक द्विगुण पर विचार करें (2 डी या 3 डी में):

क्लस्टर बिप्लॉट

क्या आप सभी आयामों पर क्लस्टर आउटलेर की तलाश करना चाहते हैं। क्लस्टर 1 के केंद्र से दूरी 1 के केंद्र से दूरी के एक बिखराव पर विचार करें। (के मी की परिभाषा के अनुसार प्रत्येक क्लस्टर विकर्ण लाइन के एक तरफ गिर जाएगा।)

यहाँ छवि विवरण दर्ज करें

क्या आप क्लस्टरिंग की तुलना में जोड़ीदार संबंध देखना चाहते हैं। क्लस्टर द्वारा रंगीन स्कैप्लेट मैट्रिक्स पर विचार करें।

यहाँ छवि विवरण दर्ज करें

क्या आप क्लस्टर दूरियों का सारांश दृश्य देखना चाहते हैं? किसी भी वितरण दृश्य की तुलना पर विचार करें, जैसे हिस्टोग्राम, वायलिन प्लॉट या बॉक्स प्लॉट।

यहाँ छवि विवरण दर्ज करें


2

बहुभिन्नरूपी प्रदर्शन विशेष रूप से चर की संख्या के साथ, मुश्किल हैं। मेरे दो सुझाव हैं।

यदि कुछ निश्चित चर हैं जो विशेष रूप से क्लस्टरिंग या महत्वपूर्ण रूप से दिलचस्प हैं, तो आप स्कैप्लेटोट मैट्रिक्स का उपयोग कर सकते हैं और अपने दिलचस्प चर के बीच द्विभाजित संबंधों को प्रदर्शित कर सकते हैं। आप कुछ और आयामीता में जोड़ने के लिए बढ़ाया स्कैल्पलॉट्स का उपयोग भी कर सकते हैं (जैसे आकार का उपयोग तीसरे चर के समानुपातिक)

वैकल्पिक रूप से, आप एक स्प्रिंगप्लॉट का उपयोग कर सकते हैं जिसे उच्च आयामी डेटा प्रदर्शित करने के लिए विकसित किया गया था जो क्लस्टरिंग प्रदर्शित करता है। ध्यान दें, मैंने इसे कभी नहीं देखा है कि मैं जिस साहित्य से परिचित हूं, लेकिन मुझे लगता है कि यह बहुभिन्नरूपी डेटा प्रदर्शित करने का एक बहुत ही दिलचस्प तरीका है। निम्नलिखित उद्धरण वह है जहां मूल रूप से भूखंड प्रस्तावित किया गया था।

हॉफमैन, पीई एट अल। (1997) डीएनए विज़ुअल और एनालिटिक डेटा माइनिंग। IEEE विज़ुअलाइज़ेशन की कार्यवाही में। फीनिक्स, AZ, पीपी। 437-441।

और यहाँ है जहाँ मैं मूल रूप से इसका उल्लेख पाया।

अब, निष्पक्ष चेतावनी, मैं ऑरेंज के बाहर स्प्रिंगप्लेट्स के कार्यान्वयन को खोजने में सक्षम नहीं हूं। तो फिर, मैं उस कठिन खोज नहीं किया है!

मैं मान रहा हूं कि आपका डेटा वास्तविक मूल्य और निरंतर है, अगर यह असतत या गैर-अंतराल है, तो इसके आगे, मुझे नहीं लगता कि या तो भूखंड सहायक होंगे।


1
R के लिए एक Radviz कार्यान्वयन है: cran.r-project.org/web/packages/Radviz/vignettes/…
pmav99

1

आप R में factoextra pacakge से fviz_cluster फ़ंक्शन का उपयोग कर सकते हैं। यह आपके डेटा के स्कैटर प्लॉट को दिखाएगा और विभिन्न रंगों के क्लस्टर होंगे।

मेरी समझ में सबसे अच्छा करने के लिए, यह फ़ंक्शन पीसीए करता है और फिर शीर्ष दो पीसी को चुनता है और 2 डी पर प्लॉट करता है।

मेरे उत्तर में किसी भी सुझाव / सुधार का सबसे अधिक स्वागत है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.