डेंड्रोग्राम क्लस्टरिंग के लिए सहसंबंधी सहसंबंध


10

डेंड्रोग्राम क्लस्टरिंग के संदर्भ पर विचार करें। आइए हम मूल भिन्नताओं को व्यक्तियों के बीच की दूरी कहते हैं । डेंड्रोग्राम के निर्माण के बाद, हम दो व्यक्तियों के बीच केपहेटिक असमानता को उन समूहों के बीच की दूरी के रूप में परिभाषित करते हैं, जिनसे ये व्यक्ति जुड़े हैं।

कुछ लोग मानते हैं कि मूल असमानताओं और कोपेनहेनेटिक असमानताओं ( कोपेनहेनेटिक सहसंबंध ) के बीच संबंध वर्गीकरण का एक "उपयुक्तता सूचकांक" है। यह मुझे पूरी तरह से हैरान करता है। मेरी आपत्ति पियर्सन सहसंबंध की विशेष पसंद पर निर्भर नहीं करती है, लेकिन सामान्य विचार पर कि मूल असहमति और कोपेनहेनेटिक असमानता के बीच कोई भी लिंक वर्गीकरण की उपयुक्तता से संबंधित हो सकता है।

क्या आप मेरे साथ सहमत हैं, या आप कुछ तर्क प्रस्तुत कर सकते हैं जो डेंड्रोग्राम वर्गीकरण के लिए उपयुक्तता सूचकांक के रूप में कोपेनेटिक सहसंबंध के उपयोग का समर्थन करते हैं?


आप (काफी सहज) को अपनी आपत्ति नहीं समझाते general idea that any link between the original dissimilarities and the cophenetic dissimilarities could be related to the suitability of the classification। वर्गीकरण में मूल असमानताओं को दर्शाया जाना चाहिए। ऐसा करने के लिए डेंड्रोग्रामिक वर्गीकरण की मूल विशेषता कोपेनहेनेटिक असमानता है। वहाँ एस.एम.टी. गलत?
ttnphns

1
वैसे, एक को श्रेणीबद्ध (डेंड्रोग्रामिक ) वर्गीकरण के साथ पदानुक्रमित ( एग्लोमेट्रिक) क्लस्टरिंग की अवधारणा को मिश्रण नहीं करना चाहिए । क्लस्टरिंग एक प्रक्रिया रिपोर्ट के रूप में अपने डेंड्रोग्राम का उत्पादन करती है ; यह पदानुक्रमित वर्गीकरण परिणाम होने का दावा नहीं करता है
ttnphns

1
कोपनैटिक सहसंबंध केवल "हठधर्मिता" वर्गीकरणों के लिए प्रस्तावित किया गया था - जहां वर्गीकरण को जोड़ीदार असमानताओं को प्रतिबिंबित करना चाहिए , (कोपनेटिक) सहसंबंध की उपयोगिता की धारणा का व्यापक रूप से अनुसरण करता है।
ttnphns

2
आप इस पत्र को सहसंबंधात्मक सहसंबंध पर पढ़ना चाहते हैं
ttnphns

3
@ StéphaneLaurent मेरे पास आपके प्रश्न के उत्तर के रूप में योगदान करने के लिए कुछ भी नहीं है लेकिन मैं संवाद पढ़ रहा हूं। आपने जो कुछ भी कहा वह मेरे लिए अपमानजनक लग रहा था। साथ ही आपने कहा कि आपको वर्गीकरण और क्लस्टरिंग के बीच का अंतर नहीं पता था और मैंने उस सरल प्रश्न का उत्तर नहीं देखा है। यह मशीन सीखने वालों को पर्यवेक्षित और अनुपयोगी सीखने के बीच क्या अंतर होता है। वर्गीकरण में आप अपने डेटा के लिए सभी क्लास लेबल जानते हैं और भविष्य में आने वाले मामलों के लिए वर्गीकरण नियम बनाने के लिए उस जानकारी का उपयोग करते हैं, जिसमें लेबल नहीं होते हैं। क्लस्टर में आपके पास कोई लेबलिंग नहीं है।
माइकल आर। चेरनिक

जवाबों:


2

... वर्गीकरण का "उपयुक्तता सूचकांक" है

मेरे लिए यह सही नहीं है कि इसका क्या मतलब है। जिस तरह से मुझे यह मिला है, वह है

मूल असमानताओं और कोपेनहेनेटिक असमानताओं के बीच सहसंबंध (जिसे सहसंबंधी सहसंबंध कहा जाता है)

टिप्पणियों के बीच पदानुक्रमित संरचना का एक उपाय है , अर्थात उनकी दूरियां। यह कहना कि भिन्न क्लस्टर में टिप्पणियों के लिए असमानताएं समान रूप से समान हैं। यूक्लिडियन दूरी और पूर्ण लिंकेज का उपयोग करके डेटा ए और बी क्लस्टर किए गए डेटासेट्स को ध्यान में रखते हुए यहां छवि विवरण दर्ज करें ... कोपेनहेनेटिक दूरी के नक्शे पर एक नज़र डाले बिना या कोपर्नेटिक सहसंबंध की गणना के बिना, कोई भी देख सकता है, कि ए का कोपनेटिक सहसंबंध बी की तुलना में अधिक है। । एक पदानुक्रम में स्तर होते हैं। तो CC इस बारे में बताता है कि क्या समान स्तर (क्लस्टर) पर टिप्पणियों की दूरी समान है।

पूर्णता के लिए: कोपर्नेटिक सहसंबंध CC (A) = 0.936 और CC (B) = 0.361 हैं


2
काश मैं इस पर अधिक विशेषज्ञ होता। मैं आपके उदाहरण w / हीटमैप का काफी अनुसरण नहीं करता। ऐसा क्या है जो आप देखते हैं कि यह स्पष्ट करता है CC (A)> CC (B)? उदाहरण के लिए, यदि ऊपरी त्रिकोण मैथुनिक दूरी थे और निचले त्रिकोण मूल दूरी थे, और दोनों समान पैटर्न प्रदर्शित करते हैं, तो मैं पहचानता हूं कि सीसी उच्च होगा, आदि डब्ल्यू / ये मुझे यकीन नहीं है कि इस तरह के एक अंतर्ग्रहण कैसे करें । क्या यह सिर्फ इतना है कि ए स्वाभाविक रूप से बेहतर क्लस्टरिंग को जन्म देगा और इसलिए परिणामस्वरूप सीसी को बस अच्छी तरह से मिलान करना होगा?
गंग - २३:४४ पर मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.