विभिन्न दूरी और विधियों द्वारा प्राप्त पदानुक्रमित क्लस्टरिंग डेंड्रोग्राम की तुलना करना


28

[प्रारंभिक शीर्षक "पदानुक्रमित पेड़ों के लिए समानता का मापन" बाद में इस विषय को बेहतर ढंग से प्रतिबिंबित करने के लिए @ttnphns द्वारा बदल दिया गया था]

मैं रोगी रिकॉर्ड्स (जैसे http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) के डेटाफ़्रेम पर कई श्रेणीबद्ध क्लस्टर विश्लेषण कर रहा हूं

मैं पेड़ के अंतिम समूहों / संरचना / दृश्य (डेंड्रोग्राम) पर उनके प्रभाव को समझने के लिए विभिन्न दूरी के उपायों, विभिन्न पैरामीटर वज़न और विभिन्न पदानुक्रमित तरीकों के साथ प्रयोग कर रहा हूं । मेरा सवाल है कि क्या अलग-अलग पदानुक्रमित पेड़ों के बीच अंतर की गणना करने के लिए एक मानक गणना / माप है, और इसे आर में कैसे लागू किया जाए (उदाहरण के लिए कि कुछ पेड़ लगभग समान हैं, और कुछ बेहद अलग हैं)।

जवाबों:


44

दो पदानुक्रमित (पेड़ जैसी) संरचनाओं की समानता की तुलना करने के लिए, कोपेनैटिक सहसंबंध विचार के आधार पर उपायों का उपयोग किया जाता है। लेकिन क्या पदानुक्रमित मंत्र में "सही" विधि या दूरी को चुनने के लिए डेंड्रोग्राम की तुलना करना सही है?

कुछ बिंदु हैं - छिपे हुए झंडे - पदानुक्रमित क्लस्टर विश्लेषण के बारे में कि मैं काफी महत्वपूर्ण होगा :

  • तुलनात्मक रूप से अलग-अलग ढेर तरीकों से प्राप्त डेंड्रोग्राम को मजबूत विभाजन देने वाली विधि का चयन करने के लिए कभी भी तुलना न करें । यह नहीं बताएगा कि कौन सी विधि उस पर "बेहतर" है। प्रत्येक विधि का अपना "प्रोटोटाइप" ट्री लुक होता है: जब डेटा में कोई क्लस्टर संरचना नहीं होती है या यादृच्छिक क्लस्टर संरचना होती है, तो भी पेड़ लगातार भिन्न होंगे। (और मुझे लगता है कि वहाँ एक मानकीकरण या उपाय मौजूद है जो इन आंतरिक मतभेदों को दूर करेगा।) हालाँकि, आप एक ही विधि लेकिन अलग-अलग डेटा द्वारा उत्पादित परिणामों के dendrogram लुक की तुलना कर सकते हैं। मैक्सिम: अलग-अलग तरीकों के बाद डेंड्रोग्राम की तुलना में प्रत्यक्ष, उपस्थिति अस्वीकार्य है
  • वार्ड विधि के डेंड्रोग्राम को देखते हुए क्लस्टर्स की संख्या (यानी पेड़ को काटने के लिए) पर निर्णय न लें । वार्ड में, पेड़ योगात्मक के विकास को दर्शाता है, न कि औसतन, मिलीभगत के गुणांक को; और परिणाम यह है कि चूँकि बाद के गुच्छे अंकों की संख्या से बड़े होते हैं, इसलिए बाद के गुच्छ पेड़ पर भ्रामक रूप से "बेहतर" दिखते हैं। वार्ड के डेंड्रोग्राम को उचित रूप से मानकीकृत करने के लिए, दो समूहों में समग्र अंकों के आधार पर प्रत्येक चरण में गुणांक वृद्धि को विभाजित करें (जैसे मानकीकृत वार्ड डेंड्रोग्राम, हालांकि, ग्राफिक रूप से लागू करने के लिए कठिन हो सकता है)। 1 मैक्सिम: संभव है, जबकि एक डेंड्रोग्राम उपस्थिति पर विचार करके कट स्तर चुनना, विभाजन का चयन करने के लिए सबसे अच्छा तरीका नहीं है, और कुछ तरीकों के लिए भ्रामक हो सकता है । इसके बजाय कुछ औपचारिक आंतरिक क्लस्टरिंग मानदंड पर भरोसा करने की सिफारिश की गई है ।
  • यद्यपि कोई भी आपको दूरी के उपायों या एग्लोमेरेटिव तरीकों के साथ "प्रयोग" करने से मना नहीं कर सकता है, यह बेहतर है कि दूरी और विधि का चयन सचेत रूप से किया जाए , न कि अंधा प्रयास। दूरी अंतर के पहलुओं को प्रतिबिंबित करना चाहिए, जिसमें आप रुचि रखते हैं, और विधि - एक को पता होना चाहिए - एक क्लस्टर के एक विशिष्ट श्लोक का अर्थ है (उदाहरण के लिए एक वार्ड क्लस्टर का रूपक है, मैं कहूंगा, टाइप करें ; पूर्ण संबंध के बाद क्लस्टर; हो वृत्त [शौक या साजिश से]; एकल लिंकेज के बाद क्लस्टर होगा स्पेक्ट्रम [श्रृंखला]; केन्द्रक विधि के बाद क्लस्टर होगा की प्लेटफार्मों निकटता [राजनीति]; औसत लिंकेज क्लस्टर धारणात्मक सबसे undifferentiated है और हो सकता है आम तौर पर संयुक्त वर्ग )।
  • कुछ तरीकों के लिए कॉल सही दूरी उपायों और / या डेटा का सही प्रकार। वार्ड और सेंट्रोइड, उदाहरण के लिए, तार्किक रूप से (स्क्वैयर) यूक्लिडियन दूरी की आवश्यकता होती है - क्योंकि ये तरीके यूक्लिडियन अंतरिक्ष में सेंट्रोइड्स की गणना में संलग्न हैं। और ज्यामितीय केन्द्रक की संगणना उदाहरण के लिए, द्विआधारी डेटा के साथ असंगत है; डेटा स्केल / निरंतर होना चाहिए। मैक्सिम: डेटा / दूरी / विधि मान्यताओं और पत्राचार बहुत महत्वपूर्ण है और इतना आसान सवाल नहीं है।
  • प्रीप्रोसेसिंग (जैसे केंद्रीकरण, स्केलिंग और चर / सुविधाओं के परिवर्तन के अन्य रूप) एक दूरी मैट्रिक्स की पूर्व गणना और क्लस्टरिंग करना बेहद महत्वपूर्ण सवाल है। यह नाटकीय रूप से परिणामों को प्रभावित कर सकता है। इस बात पर विचार करें कि प्रीप्रोसेसिंग आपकी क्या मदद कर सकता है और व्याख्या के दृष्टिकोण से समझ में आएगा। इसके अलावा, क्लस्टर विश्लेषण करने का प्रयास करने से पहले कभी भी सावधानीपूर्वक डेटा का निरीक्षण करने में संकोच न करें।
  • एग्लोमेरेटिव क्लस्टरिंग के सभी तरीकों को समान रूप से नहीं देखा जा सकता है क्योंकि आपको दार्शनिक आधारों पर पदानुक्रमित वर्गीकरण दिया गया है। उदाहरण के लिए, केन्द्रक विधि एक अर्थ में पदानुक्रम देती है, क्योंकि क्लस्टर केंद्र एक संपूर्ण के रूप में क्लस्टर का एक उद्भव और परिभाषित करने वाली विशेषता है , और विलय क्लस्टर उस सुविधा द्वारा संचालित होता है। पूर्ण लिंकेज, दूसरी ओर, दोनों उप-समूहों को "बर्खास्त" करता है जब यह उन्हें विलय कर देता है - दोनों की व्यक्तिगत वस्तुओं के बीच दूरी के आधार पर । इस प्रकार, पूर्ण लिंकेज डेंड्रोग्राम केवल संग्रह का एक इतिहास है , न कि एक जनक-बच्चे का वर्गीकरणमैक्सिम: श्रेणीबद्ध एग्लोमेरेटिव क्लस्टर विश्लेषण, आमतौर पर, अपेक्षा करता है कि आप इसके परिणाम के आधार पर एक विभाजन बनाते हैं, बजाय इसके कि परिणाम को पदानुक्रमित वर्गीकरण के रूप में देखें।
  • पदानुक्रमित क्लस्टरिंग विशिष्ट लालची एल्गोरिथ्म है जो अंत में इष्टतम समाधान के करीब पहुंचने की उम्मीद में प्रत्येक चरण पर दिखने वाले विकल्पों में से सबसे अच्छा विकल्प बनाता है। हालांकि, उच्च स्तर के कदम पर दिखने वाली "सर्वश्रेष्ठ" पसंद उस कदम पर सैद्धांतिक रूप से वैश्विक इष्टतम की तुलना में खराब होने की संभावना है । अधिक से अधिक कदम है, अधिक से अधिक एक नियम के रूप में, suboptimality है। यह देखते हुए कि हम आमतौर पर कुछ क्लस्टर्स चाहते हैं, अंतिम चरण महत्वपूर्ण हैं; और, जैसा कि अभी कहा गया है, यदि चरण की संख्या अधिक है (तो, हज़ारवां चरण) वे अपेक्षाकृत गरीब होने की उम्मीद करते हैं। यही कारण है कि पदानुक्रमित क्लस्टरिंग आमतौर पर वस्तुओं के बड़े नमूनों (हजारों वस्तुओं की संख्या) के लिए अनुशंसित नहीं है, भले ही कार्यक्रम इतनी बड़ी दूरी मैट्रिक्स को संभाल सके।

यदि उपरोक्त सावधानियों के बाद भी आपको लगता है कि आप पदानुक्रमित वर्गीकरणों के बीच समानता का एक उपाय चाहते हैं, तो आप 'dendrograms की तुलना' और 'hierarchical वर्गीकरणों की तुलना' कर सकते हैं। अपने आप में सबसे अधिक सुझाव देने वाला एक विचार सहसंबंधीय सहसंबंध पर आधारित हो सकता है: n वस्तुओं के समान डेटासेट के लिए दो dendrograms होने देना, गुणांक होना चाहिए (या शायद इसकी रैंक, वस्तुओं की प्रत्येक जोड़ी के बीच चरण संख्या ij ) एक , और इसी तरह दूसरे में एक ही होना चाहिए। सहसंबंध या कोसाइन।XijYij


1 बाद में वार्ड के विधि के dendrogram की समस्या पर अद्यतन । विभिन्न क्लस्टरिंग कार्यक्रम वार्ड की विधि के लिए अलग-अलग रूपांतरित गुणांक का उत्पादन कर सकते हैं। इसलिए उनके डेंड्रोग्राम कुछ अलग दिखाई देंगे, इसके बावजूद कि इतिहास और परिणाम समान हैं । उदाहरण के लिए, SPSS अल्ट्रामेट्रिक गुणांक से रूट नहीं लेता है, और यह उन्हें आउटपुट में संचयी करता है। एक और परंपरा (उदाहरण के लिए कुछ आर पैकेजों में पाई गई) को रूट लेना है (तथाकथित "वार्ड -2")कार्यान्वयन) और संचयी नहीं। फिर से दोहराने के लिए, ऐसे अंतर केवल डेंड्रोग्राम के सामान्य आकार / रूप को प्रभावित करते हैं, न कि क्लस्टरिंग परिणाम। लेकिन डेंड्रोग्राम की नज़र आपके निर्णय को क्लस्टर की संख्या के बारे में प्रभावित कर सकती है। नैतिक यह है कि वार्ड के तरीके पर डेंड्रोग्राम पर भरोसा करना सुरक्षित नहीं होगा, जब तक कि आपको यह पता न हो कि आपके कार्यक्रम से ये गुणांक क्या हैं और उनकी सही व्याख्या कैसे करें।


5
मैं इस सब के बहुत दूसरे कर सकते हैं। दो बिंदु जो मैं जोड़ना चाहता हूं: ए) जो आप करते हैं, वह किसी प्रकार का ओवरफिटिंग है । व्यवस्थित रूप से उपायों, भार और विधियों का मूल्यांकन करके, एक उच्च जोखिम है कि आपके द्वारा समाप्त किए गए पैरामीटर आपके वर्तमान डेटा के लिए अत्यधिक विशिष्ट हैं, और अन्य डेटा या बाद के डेटा पर भी बेकार हो सकते हैं। ख) डेंड्रोग्राम की समानता को जानना कितना अच्छा है। विचार करें कि आप बाद में उनके साथ क्या करना चाहते हैं, और फिर अंतिम परिणाम पर मूल्यांकन करने का प्रयास करें। अंतरिम परिणामों का मूल्यांकन भ्रामक हो सकता है।
एनी-मौस जूल

1
आप अभी भी विषय में रुचि रखते हैं, मैंने सोचा था कि आपको पता चल सकता डी एस एसई पर मेरी हाल ही में इस सवाल का जवाब उपयोगी है, खासकर के रूप में यह एक कवरेज, यद्यपि सीमित है, दोनों का आनंद ले सकते हैं frequentist और बायेसियन दृष्टिकोण श्रेणीबद्ध सामयिक मॉडल (एम्बेडेड कक्षा की जानकारी के साथ) और समानता के उपायों का चयन करना
बजकर

@ttnphns, क्या आप अधिक विवरणों में बता सकते हैं कि दो श्रेणीबद्ध वर्गीकरणों की तुलना करने के लिए "मिलीभगत के गुणांक" का उपयोग कैसे करें?
बसीर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.