मेरे डेटासेट में हमारे पास निरंतर और स्वाभाविक रूप से दोनों प्रकार के असतत चर हैं। मैं जानना चाहता हूं कि क्या हम दोनों प्रकार के चर का उपयोग करके पदानुक्रमिक क्लस्टरिंग कर सकते हैं। और यदि हाँ, तो क्या दूरी नापना उचित है?
मेरे डेटासेट में हमारे पास निरंतर और स्वाभाविक रूप से दोनों प्रकार के असतत चर हैं। मैं जानना चाहता हूं कि क्या हम दोनों प्रकार के चर का उपयोग करके पदानुक्रमिक क्लस्टरिंग कर सकते हैं। और यदि हाँ, तो क्या दूरी नापना उचित है?
जवाबों:
एक तरीका गोवर समानता गुणांक का उपयोग करना है जो एक समग्र उपाय 1 है ; यह मात्रात्मक (जैसे रेटिंग स्केल), बाइनरी (जैसे वर्तमान / अनुपस्थित) और नाममात्र (जैसे कार्यकर्ता / शिक्षक / क्लर्क) चर लेता है। बाद में पोडानी 2 ने ऑर्डिनल वैरिएबल लेने का विकल्प जोड़ा।
गुणांक आसानी से एक सूत्र के बिना भी समझा जाता है; आप प्रत्येक चर द्वारा व्यक्तियों के बीच समानता मूल्य की गणना करते हैं, चर के प्रकार को ध्यान में रखते हैं, और फिर सभी चर में औसत होते हैं। आमतौर पर, गोवर की गणना करने वाला एक कार्यक्रम आपको समग्र सूत्र के लिए चर, अर्थात, उनके योगदान की अनुमति देगा। हालांकि, विभिन्न प्रकार के चर का उचित भार एक समस्या है , कोई स्पष्ट दिशा-निर्देश मौजूद नहीं है, जो निकटता खींचने वाले लोगों के चेहरे को गोवर या अन्य "समग्र" सूचक बनाता है।
गोवर समानता ( ) के पहलू :
(प्रकारों की सूची का विस्तार करना आसान है। उदाहरण के लिए, कोई भी गणना चर के लिए एक सारांश जोड़ सकता है, सामान्यीकृत ची-चुकता दूरी का उपयोग करके समानता में परिवर्तित किया जा सकता है।)
गुणांक 0 से 1 के बीच होता है।
" गोवर दूरी "। बिना क्रमसूचक चर वर्तमान (यानी / ओ Podani के विकल्प का उपयोग डब्ल्यू) यूक्लिडियन दूरी के रूप में व्यवहार करता है, यह पूरी तरह से यूक्लिडियन स्थान का समर्थन करता है। लेकिनकेवल मीट्रिक है (त्रिकोणीय असमानता का समर्थन करता है), यूक्लिडियन नहीं। क्रमसूचक चर वर्तमान के साथ (Podani के विकल्प का उपयोग) केवल मीट्रिक है, यूक्लिडियन नहीं; औरमेट्रिक नहीं है। यह भी देखें।
यूक्लिडियन दूरियों (यूक्लिडियन स्पेस का समर्थन करने वाली दूरियां) के साथ, वस्तुतः कोई भी क्लासिक क्लस्टरिंग तकनीक करेगी। जिसमें K- साधन शामिल हैं (यदि आपका K- साधन कार्यक्रम निश्चित रूप से दूरी मैट्रिसेस को संसाधित कर सकता है), और वार्ड के, केन्द्रक सहित, श्रेणीबद्ध क्लस्टरिंग के मध्य विधि । का उपयोग करते हुए कश्मीर साधन या अन्य उन तरीकों गैर यूक्लिडियन अभी भी मीट्रिक दूरी के साथ इयूक्लिडियन दूरी पर आधारित है heuristically शायद स्वीकार्य,। गैर-मीट्रिक दूरी के साथ, इस तरह के किसी भी तरीके का उपयोग नहीं किया जा सकता है।
पिछले पैराग्राफ के बारे में बात करता है कि क्या K- साधन या वार्ड या ऐसी क्लस्टरिंग कानूनी है या नहीं Gower दूरी के साथ गणितीय (ज्यामितीय रूप से)। से माप पैमाने पर ( "साइकोमेट्रिक") दृश्य एक की बात किसी भी स्पष्ट में इसे से मतलब या यूक्लिडियन दूरी विचलन (सांकेतिक, द्विआधारी, साथ ही क्रमसूचक) डेटा की गणना नहीं होनी चाहिए; इसलिए इस रुख से आप K- साधनों, वार्ड आदि द्वारा Gower गुणांक को संसाधित नहीं कर सकते। यह दृष्टिकोण चेतावनी देता है कि भले ही एक यूक्लिडियन स्थान मौजूद हो, यह दानेदार हो सकता है, चिकना नहीं ( संबंधित देखें )।
यदि आप इस प्रश्न पर लड़खड़ा गए हैं और सोच रहे हैं कि R में Gower मीट्रिक का उपयोग करने के लिए कौन सा पैकेज डाउनलोड करना है , तो cluster
पैकेज में daisy () नाम का एक फंक्शन है , जो डिफ़ॉल्ट रूप से जब भी मिश्रित प्रकार के वेरिएबल का उपयोग किया जाता है तो Gower की मीट्रिक का उपयोग करता है। या आप मैन्युअल रूप से इसे गोवर के मीट्रिक का उपयोग करने के लिए सेट कर सकते हैं।
daisy(x, metric = c("euclidean", "manhattan", "gower"),
stand = FALSE, type = list(), weights = rep.int(1, p))
StatMatch
।