आर में मिश्रित डेटा के लिए मजबूत क्लस्टर विधि


12

मैं एक छोटा सा डेटा सेट (4 अंतराल अंतराल के 64 अवलोकनों और एक एकल तीन-कारक श्रेणीगत चर) देख रहा हूँ। अब, मैं क्लस्टर विश्लेषण के लिए काफी नया हूं, लेकिन मुझे पता है कि उन दिनों से काफी प्रगति हुई है जब पदानुक्रमित क्लस्टरिंग या के-साधन एकमात्र उपलब्ध विकल्प थे। विशेष रूप से, ऐसा लगता है कि मॉडल आधारित क्लस्टरिंग के नए तरीके उपलब्ध हैं, जैसा कि chl द्वारा बताया गया है , "अच्छाई-से-फिट सूचकांकों का उपयोग करके समूहों या वर्गों की संख्या के बारे में निर्णय लेने में सक्षम"।

हालांकि, मॉडल आधारित क्लस्टरिंग के लिए मानक आर पैकेज mclustस्पष्ट रूप से मिश्रित डेटा प्रकारों के साथ मॉडल फिट नहीं होगा। fpcमॉडल होगा, लेकिन मुसीबत एक मॉडल फिटिंग है, मैं सतत चर के गैर गाऊसी स्वभाव की वजह से संदेह है। क्या मुझे मॉडल-आधारित दृष्टिकोण के साथ जारी रखना चाहिए? यदि संभव हो तो R का उपयोग करना जारी रखना चाहूंगा। जैसा कि मैंने देखा, मेरे पास कुछ विकल्प हैं:

  1. तीन-स्तरीय श्रेणीगत चर को दो डमी चर में उपयोग करें और उपयोग करें mclust। मैं अनिश्चित हूँ कि यह परिणाम पूर्वाग्रह करेगा, लेकिन यदि यह मेरा पसंदीदा विकल्प नहीं है।
  2. किसी भी तरह के निरंतर चर को बदलना और fpcपैकेज का उपयोग करना ।
  3. कुछ अन्य आर पैकेज का उपयोग करें जिनका मैंने अभी तक सामना नहीं किया है।
  4. गोवर के माप का उपयोग करके एक असमानता मैट्रिक्स बनाएं और पारंपरिक पदानुक्रमित या स्थानांतरण क्लस्टर तकनीकों का उपयोग करें।

क्या आँकड़े। Hivemind का यहाँ कोई सुझाव है?


अपने श्रेणीबद्ध डेटा को डमी कोडित (एक हॉट एन्कोडेड) में परिवर्तित करने के लिए आप dummy.data.frame फ़ंक्शन का उपयोग कर सकते हैं। इनपुट के रूप में, आप अपना मिश्रित डेटा दे सकते हैं और आउटपुट के रूप में यह केवल श्रेणीबद्ध लोगों को एन्कोड करता है।
नागमह

जवाबों:


7

मैं आपको बाद के पदानुक्रमित क्लस्टरिंग के साथ गोवर का उपयोग करने की सलाह दूंगा। छोटी संख्या की वस्तुओं (जैसे 64) के मामले में पदानुक्रमित क्लस्टरिंग सबसे लचीली और उपयुक्त विधि है। यदि आपका श्रेणीबद्ध चर नाममात्र है, तो गोवर आंतरिक रूप से इसे डमी चर और बेस डाइस समानता (गोवर के हिस्से के रूप में) में उन पर फिर से रखेगा। यदि आपका चर सामान्य है, तो आपको पता होना चाहिए कि गोवर गुणांक पर नवीनतम संस्करण इसे भी शामिल कर सकता है।

क्लस्टर के "सर्वश्रेष्ठ" संख्या निर्धारित करने के लिए कई सूचकांकों के लिए, उनमें से अधिकांश स्वतंत्र रूप से इस या उस क्लस्टरिंग एल्गोरिथ्म में मौजूद हैं। आपको संकुल संकुल की तलाश करने की आवश्यकता नहीं है जो आवश्यक रूप से ऐसे सूचकांकों को सम्मिलित करता है क्योंकि बाद में अलग-अलग संकुल के रूप में मौजूद हो सकते हैं। आप क्लस्टरिंग पैकेज के बाद क्लस्टर समाधानों की एक श्रृंखला छोड़ देते हैं और फिर एक इंडेक्स द्वारा उन लोगों की तुलना दूसरे पैकेज से करते हैं।


मैंने इस मार्ग को नीचे जाना समाप्त कर दिया, टिप के लिए धन्यवाद।
7
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.