जब क्लस्टर विश्लेषण की व्याख्या करने की कोशिश की जा रही है, तो लोगों के लिए इस प्रक्रिया को गलत समझना आम बात है कि क्या चर संबंधित हैं। लोगों को भ्रम में रखने का एक तरीका यह है कि यह एक साजिश है:
यह स्पष्ट रूप से इस सवाल के अंतर को प्रदर्शित करता है कि क्या क्लस्टर हैं और क्या यह सवाल है कि क्या चर संबंधित हैं। हालाँकि, यह केवल निरंतर डेटा के लिए भेद दिखाता है। मैं स्पष्ट डेटा के साथ एक एनालॉग के बारे में सोच रहा हूँ:
ID property.A property.B
1 yes yes
2 yes yes
3 yes yes
4 yes yes
5 no no
6 no no
7 no no
8 no no
हम देख सकते हैं कि दो स्पष्ट क्लस्टर हैं: संपत्ति ए और बी दोनों के साथ लोग, और न ही उन लोगों के साथ। हालाँकि, यदि हम चर को देखते हैं (जैसे, ची-स्क्वेर्ड टेस्ट के साथ), तो वे स्पष्ट रूप से संबंधित हैं:
tab
# B
# A yes no
# yes 4 0
# no 0 4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389
मुझे लगता है कि मैं एक नुकसान पर हूं कि कैसे स्पष्ट डेटा के साथ एक उदाहरण का निर्माण किया जाए जो ऊपर दिए गए निरंतर डेटा के अनुरूप है। क्या चर के बिना विशुद्ध रूप से श्रेणीबद्ध डेटा में क्लस्टर होना संभव है? क्या होगा यदि चर के दो से अधिक स्तर हैं, या आपके पास बड़ी संख्या में चर हैं? यदि टिप्पणियों का क्लस्टरिंग आवश्यक रूप से चर और इसके विपरीत के बीच संबंधों को उलझाता है, तो क्या इसका मतलब यह है कि क्लस्टरिंग वास्तव में करने के लायक नहीं है जब आपके पास केवल श्रेणीबद्ध डेटा होता है (यानी, आपको इसके बजाय केवल चर का विश्लेषण करना चाहिए)?
अपडेट: मैंने मूल प्रश्न से बहुत कुछ छोड़ दिया क्योंकि मैं सिर्फ इस विचार पर ध्यान केंद्रित करना चाहता था कि एक सरल उदाहरण बनाया जा सकता है जो किसी ऐसे व्यक्ति के लिए भी सहज रूप से सहज होगा जो क्लस्टर विश्लेषणों से काफी हद तक अपरिचित था। हालाँकि, मैं मानता हूँ कि बहुत सी क्लस्टरिंग दूरी और एल्गोरिदम आदि के विकल्पों पर निर्भर है, अगर मैं अधिक निर्दिष्ट करता हूँ तो यह मदद कर सकता है।
मैं मानता हूं कि पीयरसन का सहसंबंध वास्तव में निरंतर डेटा के लिए उपयुक्त है। श्रेणीबद्ध डेटा के लिए, हम चीर-वर्ग परीक्षण (दो-तरफ़ा आकस्मिक तालिका के लिए) या लॉग-लीनियर मॉडल (बहु-प्रकार आकस्मिक तालिकाओं के लिए) श्रेणीबद्ध चर की स्वतंत्रता का आकलन करने के तरीके के रूप में सोच सकते हैं।
एक एल्गोरिथ्म के लिए, हम k-medoids / PAM का उपयोग करके कल्पना कर सकते हैं, जिसे निरंतर स्थिति और श्रेणीबद्ध डेटा दोनों पर लागू किया जा सकता है। (ध्यान दें कि, निरंतर उदाहरण के पीछे के इरादे का हिस्सा यह है कि किसी भी उचित क्लस्टरिंग एल्गोरिथ्म को उन समूहों का पता लगाने में सक्षम होना चाहिए, और यदि नहीं, तो एक अधिक चरम उदाहरण का निर्माण संभव होना चाहिए।)
दूरी के गर्भाधान के संबंध में। मैंने यूक्लिडियन को निरंतर उदाहरण के लिए ग्रहण किया, क्योंकि यह एक भोले दर्शक के लिए सबसे बुनियादी होगा। मुझे लगता है कि श्रेणीबद्ध डेटा के लिए अनुरूप है कि दूरी (इसमें यह सबसे सहज होगा) सरल मिलान होगा। हालाँकि, मैं अन्य दूरियों की चर्चाओं के लिए खुला हूँ अगर इससे कोई समाधान निकलता है या सिर्फ एक दिलचस्प चर्चा होती है।
[data-association]
टैग जोड़ा गया है । मुझे यकीन नहीं है कि यह संकेत देने वाला क्या है और इसका कोई अंश / उपयोग मार्गदर्शन नहीं है। क्या हमें वास्तव में इस टैग की आवश्यकता है? विलोपन के लिए एक अच्छे उम्मीदवार की तरह लगता है। यदि हमें वास्तव में सीवी पर इसकी आवश्यकता है और आप जानते हैं कि यह क्या होना चाहिए, तो क्या आप कम से कम इसके लिए एक अंश जोड़ सकते हैं?