मैं सिर्फ दूसरे उत्तरों को थोड़ा जोड़ना चाहता हूं कि कैसे, कुछ अर्थों में, कुछ पदानुक्रमित क्लस्टरिंग विधियों को पसंद करने के लिए एक मजबूत सैद्धांतिक कारण है।
क्लस्टर विश्लेषण में एक आम धारणा यह है कि डेटा को कुछ अंतर्निहित प्रायिकता घनत्व से सैंपल किया गया है जिसकी हमारे पास पहुंच नहीं है। लेकिन मान लीजिए कि हमारे पास इसकी पहुंच थी। हम कैसे परिभाषित करेंगे समूहों की च ?ff
एक बहुत ही प्राकृतिक और सहज दृष्टिकोण यह कहना है कि के क्लस्टर उच्च घनत्व के क्षेत्र हैं। उदाहरण के लिए, नीचे दिए गए दो-शिखर घनत्व पर विचार करें:f
ग्राफ पर एक रेखा खींचकर हम समूहों का एक समूह तैयार करते हैं। उदाहरण के लिए, यदि हम पर एक रेखा खींचते हैं, तो हमें दिखाए गए दो क्लस्टर मिलते हैं। लेकिन अगर हम λ 3 पर लाइन खींचते हैं, तो हमें एक क्लस्टर मिलता है।λ1λ3
इसे और सटीक बनाने के लिए, मान लीजिए कि हमारे पास एक मनमाना । स्तर λ पर f के समूह क्या हैं ? वे की superlevel सेट जुड़ा घटक हैं { x : च ( एक्स ) ≥ λ } ।λ>0fλ{x:f(x)≥λ}
अब बजाय एक मनमाना उठा के हम सोच सकते हैं सभी λ , ऐसा है कि के "सही" समूहों के सेट च के किसी भी superlevel सेट के सभी कनेक्ट किए गए घटक हैं च । कुंजी यह है कि समूहों के इस संग्रह में पदानुक्रमित संरचना है।λ λff
मुझे और सटीक बनाते हैं। मान लीजिए कि X पर समर्थित है । आइए अब सी 1 के एक जुड़ा घटक हो { x : च ( एक्स ) ≥ λ 1 } , और सी 2 के एक जुड़ा घटक हो { x : च ( एक्स ) ≥ λ 2 } । दूसरे शब्दों में, C 1 स्तर λ 1 पर एक क्लस्टर है , और C 2 स्तर λ 2 स्तर पर एक क्लस्टर है । तो अगरfXC1{x:f(x)≥λ1}C2{x:f(x)≥λ2}C1λ1C2λ2 , तो या तो सी 1 ⊂ सी 2 , या सी 1 ∩ सी 2 = ∅ । हमारे घोंसले के किसी भी जोड़े के लिए यह घोंसला संबंध है, इसलिए हमारे पास जो है वह वास्तवमें समूहों काएकपदानुक्रमहै। इसे हमक्लस्टर ट्री कहते हैं।λ2<λ1C1⊂C2C1∩C2=∅
इसलिए अब मेरे पास एक घनत्व से कुछ डेटा का नमूना है। क्या मैं इस डेटा को क्लस्टर ट्री को ठीक करने के तरीके से क्लस्टर कर सकता हूं? विशेष रूप से, हम इस अर्थ में सुसंगत होना चाहते हैं कि जैसे-जैसे हम अधिक से अधिक डेटा एकत्र करते हैं, क्लस्टर ट्री का हमारा अनुभवजन्य अनुमान सही क्लस्टर ट्री के करीब और करीब बढ़ता जाता है।
हार्टिगन इस तरह के सवाल पूछने वाले पहले व्यक्ति थे और ऐसा करने में उन्होंने ठीक से परिभाषित किया कि क्लस्टर ट्री का लगातार अनुमान लगाने के लिए एक पदानुक्रमित क्लस्टरिंग विधि का क्या मतलब होगा। उनकी परिभाषा इस प्रकार थी: और B को ऊपर बताए अनुसार f का वास्तविक असंतुष्ट समूह है - अर्थात, वे कुछ सुपरलेवल सेट के जुड़े हुए घटक हैं। अब f से n नमूने iid का एक सेट बनाएं , और इस सेट को x n कहें । हम डेटा एक्स n पर एक पदानुक्रमित क्लस्टरिंग विधि लागू करते हैं , और हम अनुभवजन्य समूहों का एक संग्रह प्राप्त करते हैं। चलो एक n होना सबसे छोटाABfnfXnXnAnअनुभवजन्य क्लस्टर के सभी युक्त , और बी एन छोटी से छोटी के सभी युक्त होना बी ∩ एक्स एन । तो फिर हमारे क्लस्टरिंग विधि होना कहा जाता है हार्टिगन संगत अगर पीआर ( ए एन ∩ बी एन ) = ∅ → 1 के रूप में एन → ∞ के संबंध तोड़ना समूहों किसी भी जोड़ी के लिए एक और बी ।A∩XnBnB∩XnPr(An∩Bn)=∅→1n→∞AB
अनिवार्य रूप से, हार्टिगन स्थिरता कहती है कि हमारे क्लस्टरिंग विधि को पर्याप्त रूप से उच्च घनत्व वाले क्षेत्रों को अलग करना चाहिए। हार्टिगन ने जांच की कि क्या एकल लिंकेज क्लस्टरिंग सुसंगत हो सकती है, और पाया कि यह आयामों में सुसंगत नहीं है > 1. क्लस्टर ट्री का अनुमान लगाने के लिए एक सामान्य, सुसंगत विधि खोजने की समस्या कुछ साल पहले तक खुली थी, जब चौधुरी और दासगुप्ता ने परिचय दिया था मजबूत एकल लिंकेज , जो काफी संगत है। मैं उनकी विधि के बारे में पढ़ना चाहूंगा, क्योंकि यह मेरी राय में काफी सुरुचिपूर्ण है।
तो, आपके प्रश्नों को संबोधित करने के लिए, एक अर्थ है जिसमें पदानुक्रमित क्लस्टर एक घनत्व की संरचना को पुनर्प्राप्त करने का प्रयास करते समय "सही" बात है। हालाँकि, "सही" के चारों ओर डराने वाले उद्धरणों पर ध्यान दें ... अंततः घनत्व-आधारित क्लस्टरिंग विधियाँ आयामीता के अभिशाप के कारण उच्च आयामों में खराब प्रदर्शन करती हैं, और इसलिए भले ही क्लस्टर के आधार पर क्लस्टरिंग की एक परिभाषा उच्च संभावना वाले क्षेत्र हो। यह काफी साफ और सहज है, यह अक्सर उन तरीकों के पक्ष में नजरअंदाज कर दिया जाता है जो अभ्यास में बेहतर प्रदर्शन करते हैं। यह कहना है कि मजबूत एकल संबंध व्यावहारिक नहीं है - यह वास्तव में कम आयामों में समस्याओं पर काफी अच्छी तरह से काम करता है।
अंत में, मैं कहूंगा कि हार्टिगन की स्थिरता कुछ अर्थों में है जो हमारे अभिसरण के अंतर्ज्ञान के अनुसार नहीं है। समस्या यह है कि हार्टिगन संगतता एक क्लस्टरिंग विधि को बहुत अधिक खंड वाले समूहों में विभाजित करने की अनुमति देता है जैसे कि एक एल्गोरिथ्म हार्टिगन सुसंगत हो सकता है, फिर भी क्लस्टरिंग का उत्पादन कर सकता है जो कि सच्चे क्लस्टर ट्री से बहुत अलग हैं। हमने इस वर्ष अभिसरण की एक वैकल्पिक धारणा पर काम किया है जो इन मुद्दों को संबोधित करता है। यह कार्य COLT 2015 में "बियॉन्ड हार्टिगन कंसिस्टेंसी: मर्ज डिस्टॉर्शन मेट्रिक फॉर हियरार्चिकल क्लस्टीरिंग" में दिखाई दिया।