दो पदानुक्रमित (पेड़ जैसी) संरचनाओं की समानता की तुलना करने के लिए, कोपेनैटिक सहसंबंध विचार के आधार पर उपायों का उपयोग किया जाता है। लेकिन क्या पदानुक्रमित मंत्र में "सही" विधि या दूरी को चुनने के लिए डेंड्रोग्राम की तुलना करना सही है?
कुछ बिंदु हैं - छिपे हुए झंडे - पदानुक्रमित क्लस्टर विश्लेषण के बारे में कि मैं काफी महत्वपूर्ण होगा :
- तुलनात्मक रूप से अलग-अलग ढेर तरीकों से प्राप्त डेंड्रोग्राम को मजबूत विभाजन देने वाली विधि का चयन करने के लिए कभी भी तुलना न करें । यह नहीं बताएगा कि कौन सी विधि उस पर "बेहतर" है। प्रत्येक विधि का अपना "प्रोटोटाइप" ट्री लुक होता है: जब डेटा में कोई क्लस्टर संरचना नहीं होती है या यादृच्छिक क्लस्टर संरचना होती है, तो भी पेड़ लगातार भिन्न होंगे। (और मुझे लगता है कि वहाँ एक मानकीकरण या उपाय मौजूद है जो इन आंतरिक मतभेदों को दूर करेगा।) हालाँकि, आप एक ही विधि लेकिन अलग-अलग डेटा द्वारा उत्पादित परिणामों के dendrogram लुक की तुलना कर सकते हैं। मैक्सिम: अलग-अलग तरीकों के बाद डेंड्रोग्राम की तुलना में प्रत्यक्ष, उपस्थिति अस्वीकार्य है ।
- वार्ड विधि के डेंड्रोग्राम को देखते हुए क्लस्टर्स की संख्या (यानी पेड़ को काटने के लिए) पर निर्णय न लें । वार्ड में, पेड़ योगात्मक के विकास को दर्शाता है, न कि औसतन, मिलीभगत के गुणांक को; और परिणाम यह है कि चूँकि बाद के गुच्छे अंकों की संख्या से बड़े होते हैं, इसलिए बाद के गुच्छ पेड़ पर भ्रामक रूप से "बेहतर" दिखते हैं। वार्ड के डेंड्रोग्राम को उचित रूप से मानकीकृत करने के लिए, दो समूहों में समग्र अंकों के आधार पर प्रत्येक चरण में गुणांक वृद्धि को विभाजित करें (जैसे मानकीकृत वार्ड डेंड्रोग्राम, हालांकि, ग्राफिक रूप से लागू करने के लिए कठिन हो सकता है)। 1 मैक्सिम: संभव है, जबकि एक डेंड्रोग्राम उपस्थिति पर विचार करके कट स्तर चुनना, विभाजन का चयन करने के लिए सबसे अच्छा तरीका नहीं है, और कुछ तरीकों के लिए भ्रामक हो सकता है । इसके बजाय कुछ औपचारिक आंतरिक क्लस्टरिंग मानदंड पर भरोसा करने की सिफारिश की गई है ।
- यद्यपि कोई भी आपको दूरी के उपायों या एग्लोमेरेटिव तरीकों के साथ "प्रयोग" करने से मना नहीं कर सकता है, यह बेहतर है कि दूरी और विधि का चयन सचेत रूप से किया जाए , न कि अंधा प्रयास। दूरी अंतर के पहलुओं को प्रतिबिंबित करना चाहिए, जिसमें आप रुचि रखते हैं, और विधि - एक को पता होना चाहिए - एक क्लस्टर के एक विशिष्ट श्लोक का अर्थ है (उदाहरण के लिए एक वार्ड क्लस्टर का रूपक है, मैं कहूंगा, टाइप करें ; पूर्ण संबंध के बाद क्लस्टर; हो वृत्त [शौक या साजिश से]; एकल लिंकेज के बाद क्लस्टर होगा स्पेक्ट्रम [श्रृंखला]; केन्द्रक विधि के बाद क्लस्टर होगा की प्लेटफार्मों निकटता [राजनीति]; औसत लिंकेज क्लस्टर धारणात्मक सबसे undifferentiated है और हो सकता है आम तौर पर संयुक्त वर्ग )।
- कुछ तरीकों के लिए कॉल सही दूरी उपायों और / या डेटा का सही प्रकार। वार्ड और सेंट्रोइड, उदाहरण के लिए, तार्किक रूप से (स्क्वैयर) यूक्लिडियन दूरी की आवश्यकता होती है - क्योंकि ये तरीके यूक्लिडियन अंतरिक्ष में सेंट्रोइड्स की गणना में संलग्न हैं। और ज्यामितीय केन्द्रक की संगणना उदाहरण के लिए, द्विआधारी डेटा के साथ असंगत है; डेटा स्केल / निरंतर होना चाहिए। मैक्सिम: डेटा / दूरी / विधि मान्यताओं और पत्राचार बहुत महत्वपूर्ण है और इतना आसान सवाल नहीं है।
- प्रीप्रोसेसिंग (जैसे केंद्रीकरण, स्केलिंग और चर / सुविधाओं के परिवर्तन के अन्य रूप) एक दूरी मैट्रिक्स की पूर्व गणना और क्लस्टरिंग करना बेहद महत्वपूर्ण सवाल है। यह नाटकीय रूप से परिणामों को प्रभावित कर सकता है। इस बात पर विचार करें कि प्रीप्रोसेसिंग आपकी क्या मदद कर सकता है और व्याख्या के दृष्टिकोण से समझ में आएगा। इसके अलावा, क्लस्टर विश्लेषण करने का प्रयास करने से पहले कभी भी सावधानीपूर्वक डेटा का निरीक्षण करने में संकोच न करें।
- एग्लोमेरेटिव क्लस्टरिंग के सभी तरीकों को समान रूप से नहीं देखा जा सकता है क्योंकि आपको दार्शनिक आधारों पर पदानुक्रमित वर्गीकरण दिया गया है। उदाहरण के लिए, केन्द्रक विधि एक अर्थ में पदानुक्रम देती है, क्योंकि क्लस्टर केंद्र एक संपूर्ण के रूप में क्लस्टर का एक उद्भव और परिभाषित करने वाली विशेषता है , और विलय क्लस्टर उस सुविधा द्वारा संचालित होता है। पूर्ण लिंकेज, दूसरी ओर, दोनों उप-समूहों को "बर्खास्त" करता है जब यह उन्हें विलय कर देता है - दोनों की व्यक्तिगत वस्तुओं के बीच दूरी के आधार पर । इस प्रकार, पूर्ण लिंकेज डेंड्रोग्राम केवल संग्रह का एक इतिहास है , न कि एक जनक-बच्चे का वर्गीकरण ।मैक्सिम: श्रेणीबद्ध एग्लोमेरेटिव क्लस्टर विश्लेषण, आमतौर पर, अपेक्षा करता है कि आप इसके परिणाम के आधार पर एक विभाजन बनाते हैं, बजाय इसके कि परिणाम को पदानुक्रमित वर्गीकरण के रूप में देखें।
- पदानुक्रमित क्लस्टरिंग विशिष्ट लालची एल्गोरिथ्म है जो अंत में इष्टतम समाधान के करीब पहुंचने की उम्मीद में प्रत्येक चरण पर दिखने वाले विकल्पों में से सबसे अच्छा विकल्प बनाता है। हालांकि, उच्च स्तर के कदम पर दिखने वाली "सर्वश्रेष्ठ" पसंद उस कदम पर सैद्धांतिक रूप से वैश्विक इष्टतम की तुलना में खराब होने की संभावना है । अधिक से अधिक कदम है, अधिक से अधिक एक नियम के रूप में, suboptimality है। यह देखते हुए कि हम आमतौर पर कुछ क्लस्टर्स चाहते हैं, अंतिम चरण महत्वपूर्ण हैं; और, जैसा कि अभी कहा गया है, यदि चरण की संख्या अधिक है (तो, हज़ारवां चरण) वे अपेक्षाकृत गरीब होने की उम्मीद करते हैं। यही कारण है कि पदानुक्रमित क्लस्टरिंग आमतौर पर वस्तुओं के बड़े नमूनों (हजारों वस्तुओं की संख्या) के लिए अनुशंसित नहीं है, भले ही कार्यक्रम इतनी बड़ी दूरी मैट्रिक्स को संभाल सके।
यदि उपरोक्त सावधानियों के बाद भी आपको लगता है कि आप पदानुक्रमित वर्गीकरणों के बीच समानता का एक उपाय चाहते हैं, तो आप 'dendrograms की तुलना' और 'hierarchical वर्गीकरणों की तुलना' कर सकते हैं। अपने आप में सबसे अधिक सुझाव देने वाला एक विचार सहसंबंधीय सहसंबंध पर आधारित हो सकता है: n वस्तुओं के समान डेटासेट के लिए दो dendrograms होने देना, गुणांक होना चाहिए (या शायद इसकी रैंक, वस्तुओं की प्रत्येक जोड़ी के बीच चरण संख्या ij ) एक , और इसी तरह दूसरे में एक ही होना चाहिए। सहसंबंध या कोसाइन।XijYij
1 बाद में वार्ड के विधि के dendrogram की समस्या पर अद्यतन । विभिन्न क्लस्टरिंग कार्यक्रम वार्ड की विधि के लिए अलग-अलग रूपांतरित गुणांक का उत्पादन कर सकते हैं। इसलिए उनके डेंड्रोग्राम कुछ अलग दिखाई देंगे, इसके बावजूद कि इतिहास और परिणाम समान हैं । उदाहरण के लिए, SPSS अल्ट्रामेट्रिक गुणांक से रूट नहीं लेता है, और यह उन्हें आउटपुट में संचयी करता है। एक और परंपरा (उदाहरण के लिए कुछ आर पैकेजों में पाई गई) को रूट लेना है (तथाकथित "वार्ड -2")कार्यान्वयन) और संचयी नहीं। फिर से दोहराने के लिए, ऐसे अंतर केवल डेंड्रोग्राम के सामान्य आकार / रूप को प्रभावित करते हैं, न कि क्लस्टरिंग परिणाम। लेकिन डेंड्रोग्राम की नज़र आपके निर्णय को क्लस्टर की संख्या के बारे में प्रभावित कर सकती है। नैतिक यह है कि वार्ड के तरीके पर डेंड्रोग्राम पर भरोसा करना सुरक्षित नहीं होगा, जब तक कि आपको यह पता न हो कि आपके कार्यक्रम से ये गुणांक क्या हैं और उनकी सही व्याख्या कैसे करें।