मिश्रित प्रकार के डेटा के साथ पदानुक्रमिक क्लस्टरिंग - किस दूरी / समानता का उपयोग करना है?


34

मेरे डेटासेट में हमारे पास निरंतर और स्वाभाविक रूप से दोनों प्रकार के असतत चर हैं। मैं जानना चाहता हूं कि क्या हम दोनों प्रकार के चर का उपयोग करके पदानुक्रमिक क्लस्टरिंग कर सकते हैं। और यदि हाँ, तो क्या दूरी नापना उचित है?


आप कौन से सॉफ़्टवेयर का उपयोग कर रहे हैं?
rolando2

@ rolando2: मैं आर (hclus पैकेज) का उपयोग कर रहा हूं।
बीटा

1
क्या पदानुक्रमित क्लस्टरिंग का उपयोग करने का कोई कारण है?
सनकूलू

ना। मैं सिर्फ अपने ज्ञान के लिए यह सवाल पूछ रहा हूं। क्या हम पदानुक्रमित कर सकते हैं जब हमारे पास मिश्रित डेटा प्रकार होता है। यदि हाँ, तो क्‍यों? यदि नहीं, तो क्यों?
बीटा

@ user4278 ठीक है, आपका लक्ष्य क्या है ? क्या आप समूहों (व्यक्तियों के) की पहचान करना चाहते हैं?
chl

जवाबों:


45

एक तरीका गोवर समानता गुणांक का उपयोग करना है जो एक समग्र उपाय 1 है ; यह मात्रात्मक (जैसे रेटिंग स्केल), बाइनरी (जैसे वर्तमान / अनुपस्थित) और नाममात्र (जैसे कार्यकर्ता / शिक्षक / क्लर्क) चर लेता है। बाद में पोडानी 2 ने ऑर्डिनल वैरिएबल लेने का विकल्प जोड़ा।12

गुणांक आसानी से एक सूत्र के बिना भी समझा जाता है; आप प्रत्येक चर द्वारा व्यक्तियों के बीच समानता मूल्य की गणना करते हैं, चर के प्रकार को ध्यान में रखते हैं, और फिर सभी चर में औसत होते हैं। आमतौर पर, गोवर की गणना करने वाला एक कार्यक्रम आपको समग्र सूत्र के लिए चर, अर्थात, उनके योगदान की अनुमति देगा। हालांकि, विभिन्न प्रकार के चर का उचित भार एक समस्या है , कोई स्पष्ट दिशा-निर्देश मौजूद नहीं है, जो निकटता खींचने वाले लोगों के चेहरे को गोवर या अन्य "समग्र" सूचक बनाता है।

गोवर समानता ( GS ) के पहलू :

  • जब सभी चर मात्रात्मक (अंतराल) होते हैं तो गुणांक रेंज-सामान्यीकृत मैनहट्टन दूरी समानता में परिवर्तित हो जाता है। सामान्यीकरण के कारण विभिन्न इकाइयों के चर का सुरक्षित रूप से उपयोग किया जा सकता है। हालाँकि, आपको आउटलेर्स के बारे में नहीं भूलना चाहिए। (आप सीमा की तुलना में प्रसार के एक अन्य उपाय के द्वारा सामान्य करने का निर्णय भी ले सकते हैं।) क्योंकि एक सांख्यिकीय द्वारा उक्त सामान्यीकरण, जैसे कि सीमा, जो डेटासेट में व्यक्तियों की संरचना के प्रति संवेदनशील है, कुछ दो व्यक्तियों के बीच की समानता की तुलना में इसके मूल्य में बदलाव हो सकता है। यदि आप डेटा में कुछ अन्य व्यक्तियों को हटाते हैं या जोड़ते हैं।
  • जब सभी चर क्रमबद्ध होते हैं, तो वे पहले स्थान पर होते हैं, और फिर मैनहट्टन की गणना की जाती है, जैसा कि मात्रात्मक चर के साथ, लेकिन संबंधों के लिए विशेष समायोजन के साथ।
  • जब सभी चर द्विआधारी होते हैं (श्रेणियों के एक असममित महत्व के साथ: "वर्तमान" बनाम "अनुपस्थित" विशेषता) तो गुणांक जैककार्ड मिलान गुणांक है (यह गुणांक तब व्यवहार करता है जब दोनों व्यक्तियों के पास न तो विशेषता का अभाव है और न ही बेमेल है)।
  • जब सभी चर नाममात्र होते हैं (सममित महत्व के साथ यहाँ द्विभाजित भी शामिल है: "यह" बनाम "वह") तो गुणांक डाइस मिलान गुणांक है जो आप अपने नाममात्र चर से प्राप्त करते हैं यदि उन्हें डमी चर में पुनः प्राप्त करते हैं ( अधिक के लिए यह उत्तर देखें ) ।

(प्रकारों की सूची का विस्तार करना आसान है। उदाहरण के लिए, कोई भी गणना चर के लिए एक सारांश जोड़ सकता है, सामान्यीकृत ची-चुकता दूरी का उपयोग करके समानता में परिवर्तित किया जा सकता है।)

गुणांक 0 से 1 के बीच होता है।

" गोवर दूरी "। बिना क्रमसूचक चर वर्तमान (यानी / ओ Podani के विकल्प का उपयोग डब्ल्यू) 1GS यूक्लिडियन दूरी के रूप में व्यवहार करता है, यह पूरी तरह से यूक्लिडियन स्थान का समर्थन करता है। लेकिन1GSकेवल मीट्रिक है (त्रिकोणीय असमानता का समर्थन करता है), यूक्लिडियन नहीं। क्रमसूचक चर वर्तमान के साथ (Podani के विकल्प का उपयोग)1-जीएस केवल मीट्रिक है, यूक्लिडियन नहीं; और1-जीएसमेट्रिक नहीं है। यह भी देखें

यूक्लिडियन दूरियों (यूक्लिडियन स्पेस का समर्थन करने वाली दूरियां) के साथ, वस्तुतः कोई भी क्लासिक क्लस्टरिंग तकनीक करेगी। जिसमें K- साधन शामिल हैं (यदि आपका K- साधन कार्यक्रम निश्चित रूप से दूरी मैट्रिसेस को संसाधित कर सकता है), और वार्ड के, केन्द्रक सहित, श्रेणीबद्ध क्लस्टरिंग के मध्य विधि । का उपयोग करते हुए कश्मीर साधन या अन्य उन तरीकों गैर यूक्लिडियन अभी भी मीट्रिक दूरी के साथ इयूक्लिडियन दूरी पर आधारित है heuristically शायद स्वीकार्य,। गैर-मीट्रिक दूरी के साथ, इस तरह के किसी भी तरीके का उपयोग नहीं किया जा सकता है।

पिछले पैराग्राफ के बारे में बात करता है कि क्या K- साधन या वार्ड या ऐसी क्लस्टरिंग कानूनी है या नहीं Gower दूरी के साथ गणितीय (ज्यामितीय रूप से)। से माप पैमाने पर ( "साइकोमेट्रिक") दृश्य एक की बात किसी भी स्पष्ट में इसे से मतलब या यूक्लिडियन दूरी विचलन (सांकेतिक, द्विआधारी, साथ ही क्रमसूचक) डेटा की गणना नहीं होनी चाहिए; इसलिए इस रुख से आप K- साधनों, वार्ड आदि द्वारा Gower गुणांक को संसाधित नहीं कर सकते। यह दृष्टिकोण चेतावनी देता है कि भले ही एक यूक्लिडियन स्थान मौजूद हो, यह दानेदार हो सकता है, चिकना नहीं ( संबंधित देखें )।


1

2


धन्यवाद ttnphns! क्या आप मुझे बता सकते हैं कि "Gower समानता गुणांक" R में hclus पैकेज में एकीकृत है? क्या आर में कोई पैकेज है जिसमें यह कार्यक्षमता है।
बीटा

मैं आर उपयोगकर्ता नहीं हूं इसलिए मुझे नहीं पता, और आपको नहीं लगता कि आप इसे hclus में पाएंगे। लेकिन अगर आप Google "Gower समानता R" के बारे में जानते हैं, तो आपको निश्चित है कि आपको क्या चाहिए!
ttnphns

user4278, यदि आप SPSS से दूर नहीं होते हैं, तो मेरे पास मेरे वेब पेज पर Gower समानता के लिए एक मैक्रो है। यह वेटिंग और मिसिंग डेटा को स्वीकार करता है।
ttnphns

@ user4278 R के बारे में विशेष रूप से, यहां से शुरू करें: cran.r-project.org/web/views/Environmetrics.html
chl

@ttnphns: धन्यवाद! मैंने आपकी वेबसाइट देखी है और यह SPSS के लिए एक बेहतरीन संसाधन है। लेकिन दुर्भाग्य से मैं SPSS का बहुत अधिक उपयोग नहीं करता। अगर मैं R. @ chl में कुछ हासिल नहीं करता तो मैं निश्चित रूप से इसका इस्तेमाल करूंगा: धन्यवाद! लेकिन यह बहुत बड़ी सूची है। मैंने कहीं पढ़ा कि डेज़ी, क्लस्टर पैकेज में, गोवर समानता की कार्यक्षमता है।
बीटा

15

यदि आप इस प्रश्न पर लड़खड़ा गए हैं और सोच रहे हैं कि R में Gower मीट्रिक का उपयोग करने के लिए कौन सा पैकेज डाउनलोड करना है , तो clusterपैकेज में daisy () नाम का एक फंक्शन है , जो डिफ़ॉल्ट रूप से जब भी मिश्रित प्रकार के वेरिएबल का उपयोग किया जाता है तो Gower की मीट्रिक का उपयोग करता है। या आप मैन्युअल रूप से इसे गोवर के मीट्रिक का उपयोग करने के लिए सेट कर सकते हैं।

daisy(x, metric = c("euclidean", "manhattan", "gower"),
      stand = FALSE, type = list(), weights = rep.int(1, p))

4
ज़ुर्ब के जवाब के आगे , यदि आप दो से सभी जोड़े के बीच गोवर दूरी चाहते हैं डेटा सेट , तो आर पैकेज देखें StatMatch
जेम्स हिर्सचोर्न
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.