मैं एक छोटा सा डेटा सेट (4 अंतराल अंतराल के 64 अवलोकनों और एक एकल तीन-कारक श्रेणीगत चर) देख रहा हूँ। अब, मैं क्लस्टर विश्लेषण के लिए काफी नया हूं, लेकिन मुझे पता है कि उन दिनों से काफी प्रगति हुई है जब पदानुक्रमित क्लस्टरिंग या के-साधन एकमात्र उपलब्ध विकल्प थे। विशेष रूप से, ऐसा लगता है कि मॉडल आधारित क्लस्टरिंग के नए तरीके उपलब्ध हैं, जैसा कि chl द्वारा बताया गया है , "अच्छाई-से-फिट सूचकांकों का उपयोग करके समूहों या वर्गों की संख्या के बारे में निर्णय लेने में सक्षम"।
हालांकि, मॉडल आधारित क्लस्टरिंग के लिए मानक आर पैकेज mclust
स्पष्ट रूप से मिश्रित डेटा प्रकारों के साथ मॉडल फिट नहीं होगा। fpc
मॉडल होगा, लेकिन मुसीबत एक मॉडल फिटिंग है, मैं सतत चर के गैर गाऊसी स्वभाव की वजह से संदेह है। क्या मुझे मॉडल-आधारित दृष्टिकोण के साथ जारी रखना चाहिए? यदि संभव हो तो R का उपयोग करना जारी रखना चाहूंगा। जैसा कि मैंने देखा, मेरे पास कुछ विकल्प हैं:
- तीन-स्तरीय श्रेणीगत चर को दो डमी चर में उपयोग करें और उपयोग करें
mclust
। मैं अनिश्चित हूँ कि यह परिणाम पूर्वाग्रह करेगा, लेकिन यदि यह मेरा पसंदीदा विकल्प नहीं है। - किसी भी तरह के निरंतर चर को बदलना और
fpc
पैकेज का उपयोग करना । - कुछ अन्य आर पैकेज का उपयोग करें जिनका मैंने अभी तक सामना नहीं किया है।
- गोवर के माप का उपयोग करके एक असमानता मैट्रिक्स बनाएं और पारंपरिक पदानुक्रमित या स्थानांतरण क्लस्टर तकनीकों का उपयोग करें।
क्या आँकड़े। Hivemind का यहाँ कोई सुझाव है?