पदानुक्रमिक क्लस्टरिंग की कमियों को कैसे समझें?

19

क्या कोई व्यक्ति पदानुक्रमिक क्लस्टरिंग के पेशेवरों और विपक्षों की व्याख्या कर सकता है?

क्या Hierarchical Clustering में K का मतलब समान है?
K साधनों पर पदानुक्रमिक क्लस्टरिंग के क्या लाभ हैं?
कब हमें Hierarchical Clustering & विपरीत पर K का उपयोग करना चाहिए?

इस पोस्ट के उत्तर में कश्मीर की कमियों के बारे में बताया गया है। K- साधनों की कमियों को कैसे समझें

2

में इस सवाल का जवाब मैं श्रेणीबद्ध agglomerative क्लस्टर विश्लेषण के संभावित रूप से समस्या पहलुओं में से कुछ को छुआ। मुख्य "दोष" यह है कि यह नॉनटेरेटिव, सिंगल-पास लालची एल्गोरिथम है। लालची एल्गोरिथ्म के साथ, आप वर्तमान चरण के कार्य को अनुकूलित करते हैं, जो कि - अधिकांश HC विधियों के लिए - जरूरी नहीं कि दूर के भविष्य के कदम पर सर्वोत्तम विभाजन की गारंटी दे। एचसी का मुख्य लाभ यह है कि यह उपयोग करने के लिए निकटता उपाय की पसंद के संबंध में लचीला है। @ मिक ने पहले से ही नीचे एक अच्छा जवाब दिया है, इसलिए मैं सिर्फ गूंज रहा हूं।

— ttnphns

14

जबकि की कोशिश करता -means एक वैश्विक लक्ष्य (समूहों के विचरण) अनुकूलन करने के लिए और एक स्थानीय इष्टतम, प्रत्येक क्लस्टर संलयन (लालची एल्गोरिथ्म) जो वास्तव में किया जाता है पर सबसे अच्छा कदम खोजने लेकिन एक संभावित करने से इनकी समाधान में जिसके परिणामस्वरूप में agglomerative श्रेणीबद्ध क्लस्टरिंग उद्देश्य को प्राप्त होता है । $k$

जब अंतर्निहित डेटा में एक पदानुक्रमित संरचना होती है (जैसे कि वित्तीय बाजारों में सहसंबंध) और आप पदानुक्रम को पुनर्प्राप्त करना चाहते हैं तो पदानुक्रम क्लस्टरिंग का उपयोग करना चाहिए। आप अभी भी ऐसा करने के लिए -means लागू कर सकते हैं , लेकिन आप विभाजन के साथ (एक क्लस्टर में सभी डेटा बिंदुओं से) बेहतरीन (प्रत्येक डेटा बिंदु एक क्लस्टर है) को समाप्त कर सकते हैं जो कि नेस्टेड नहीं हैं और इस प्रकार उचित पदानुक्रम नहीं है। $k$

यदि आप क्लस्टरिंग के महीन गुणों को खोदना चाहते हैं, तो आप फ्लैट-क्लस्टरिंग जैसे -means से पदानुक्रमिक क्लस्टरिंग जैसे एकल, औसत, पूर्ण लिंकेज का विरोध नहीं करना चाह सकते हैं । उदाहरण के लिए, ये सभी क्लस्टरिंग स्पेस-कंजर्विंग होते हैं, यानी जब आप क्लस्टर बना रहे होते हैं तो आप स्पेस को डिस्टर्ब नहीं करते हैं, जबकि वार्ड जैसे पदानुक्रमिक क्लस्टरिंग स्पेस-कंजर्विंग नहीं होते हैं, यानी प्रत्येक मर्जिंग स्टेप पर यह मीट्रिक स्पेस को विकृत कर देगा। $k$

निष्कर्ष निकालने के लिए, पदानुक्रमित क्लस्टरिंग एल्गोरिदम की कमियां एक से दूसरे में बहुत भिन्न हो सकती हैं। कुछ इसी तरह की संपत्तियों के लिए साझा कर सकते हैं विचरण के अनुकूलन पर वार्ड उद्देश्य है, लेकिन एकल लिंकेज नहीं: -means। लेकिन वे भी अलग गुण होते हैं कर सकते हैं: वार्ड अंतरिक्ष विस्फारित है, एकल लिंकेज अंतरिक्ष के संरक्षण की तरह है, जबकि -means। $k$ $k$

- अंतरिक्ष-संरक्षण और अंतरिक्ष-फैलाने वाले गुणों को सटीक करने के लिए संपादित करें

अंतरिक्ष के संरक्षण: जहां दूरी है समूहों के बीच और आप अलग करना चाहते हैं, और

D_{i j} \in [min_{x \in C_{i}, y \in C_{j}} d (x, y), max_{x \in C_{i}, y \in C_{j}} d (x, y)]

$D_{ij} \in \left[ \min_{x \in C_i, y \in C_j} d(x,y), \max_{x \in C_i, y \in C_j} d(x,y) \right]$

D_{i j}

$D_{ij}$

C_{i}

$C_i$

C_{j}

$C_j$

d

$d$ डेटा पॉइंट्स के बीच की दूरी है।

अंतरिक्ष विस्फारित: यानी मर्ज करके और एल्गोरिथ्म और दूर क्लस्टर धक्का होगा ।

D (C_{i} \cup C_{j}, C_{k}) \geq max (D_{i k}, D_{j k}),

$D(C_i \cup C_j, C_k) \geq \max(D_{ik}, D_{jk}),$

C_{i}

$C_i$

C_{j}

$C_j$

C_{k}

$C_k$

— माइक
स्रोत

क्या आप पदानुक्रमित संरचना वाले डेटा के कुछ और उदाहरण दे सकते हैं? वित्तीय बाजार उदाहरण का पालन नहीं किया।

— जॉर्जऑफTheRF

ज़रूर। सीएफ arxiv.org/pdf/cond-mat/9802256.pdf या बस चित्र 7 में arxiv.org/pdf/1506.00976.pdf जो एक सहसंबंध मैट्रिक्स को दर्शाता है जिसमें एक (शोर) पदानुक्रमित सहसंबंध ब्लॉक संरचना है: आप मुख्य पर ब्लॉकों को नोटिस कर सकते हैं विकर्ण, जिन्हें अधिक ब्लॉकों में विभाजित किया जाता है, प्रत्येक को और भी अधिक ब्लॉकों में विभाजित किया जाता है। यह मोटे तौर पर क्षेत्रों (यूरोप, अमेरिका, एशिया पूर्व-जापान, जापान) के एक उपखंड से मेल खाती है, फिर प्रत्येक क्षेत्र को परिसंपत्ति गुणवत्ता (उच्च गुणवत्ता बनाम कबाड़) से विभाजित किया जाता है, फिर बड़े औद्योगिक क्षेत्रों (खुदरा, उद्योग) द्वारा विभाजित किया जाता है। मीडिया), आगे सबडिव (एयरोस्पेस, ऑटो ...)

— mic

3

+1। हालांकि,

should use hierarchical clustering when underlying data has a hierarchical structure... and you want to recover the hierarchy

जरूरी नहीं है। इसके विपरीत ज्यादातर मामलों में। एचसी की पदानुक्रम डेटा की संरचना की बजाय अहंकार की एक कहानी है । फिर भी, यह सवाल अंततः दार्शनिक / तार्किक है, इतना सांख्यिकीय नहीं।

— ttnphns

Ward is not space-conserving, i.e. at each merging step it will distort the metric space। क्या आप इसके बारे में अधिक लिख सकते हैं? यह बहुत स्पष्ट नहीं है।

— ttnphns

Ward is space-dilating, whereas Single Linkage is space-conserving like k-means। क्या आप सिंगल लिंकेज के लिए स्पेस-कॉन्ट्रैक्टिंग कहना चाहते थे?

— ttnphns

13

अनुमापकता

साधन यहाँ स्पष्ट विजेता है। बहुत बेहतर की तुलना में है (कुछ मामलों में ) श्रेणीबद्ध क्लस्टरिंग के scalability क्योंकि आमतौर पर दोनों और और छोटे हैं (दुर्भाग्य से, के साथ विकसित करने के लिए जाता है , इसलिए करतानहीं $k$ $O(n\cdot k\cdot d\cdot i)$ $O(n^3 d)$ $O(n^2 d)$ $k$ $i$ $d$ $i$ $n$ $O(n)$ आमतौर पर पकड़)। इसके अलावा, मेमोरी की खपत रैखिक है, जैसा कि द्विघात के विपरीत (आमतौर पर, रैखिक विशेष मामले मौजूद हैं)।

लचीलापन

-means प्रयोज्यता में बेहद सीमित है। यह अनिवार्य रूप इयूक्लिडियन दूरी तक ही सीमित है (कर्नेल स्थान में इयूक्लिडियन, और ब्रैगमैन भिन्नता सहित, लेकिन इन काफी विदेशी हैं और कोई भी वास्तव में के साथ उन्हें का उपयोग करता -means)। इससे भी बदतर, -means केवल संख्यात्मक डेटा पर काम करता है (जो वास्तव में निरंतर होना चाहिए और -means केलिए एक अच्छा फिट होने के लिए घना होना चाहिए)। $k$ $k$ $k$ $k$

यहां पदानुक्रम क्लस्टरिंग स्पष्ट विजेता है। इसके लिए एक दूरी की भी आवश्यकता नहीं होती है - किसी भी उपाय का उपयोग किया जा सकता है, जिसमें समानता वाले कार्यों को शामिल किया जाता है, जिसमें उच्च मूल्यों को कम मूल्यों पर प्राथमिकता दी जाती है। क्रमबद्ध डेटा? यकीन है कि बस का उपयोग करें। तार? Levenshtein दूरी का प्रयास करें। समय श्रृंखला? ज़रूर। मिश्रित प्रकार का डेटा? गोवर दूरी। ऐसे लाखों डेटा सेट हैं जहाँ आप पदानुक्रमित क्लस्टरिंग का उपयोग कर सकते हैं, लेकिन जहाँ आप -means का उपयोग नहीं कर सकते हैं । $k$

नमूना

यहां कोई विजेता नहीं। -means उच्च स्कोर करता है क्योंकि यह एक महान डेटा कटौती देता है। सेंट्रोइड्स को समझना और उपयोग करना आसान है। दूसरी ओर, पदानुक्रमित क्लस्टरिंग, एक डेंड्रोग्राम का उत्पादन करता है। आपके डेटा सेट को समझने में एक डेंड्रोग्राम भी बहुत उपयोगी हो सकता है। $k$

— QUIT है - एनीनी-मूस
स्रोत

क्या hierarchical k की तरह k का मतलब है जब समूहों 1) गैर गोलाकार 2) अलग है त्रिज्या 3) अलग घनत्व है?

— जॉर्जऑफTheRF

2

दोनों काम कर सकते हैं, और दोनों विफल हो सकते हैं। इसीलिए डेंड्रोग्राम जैसी चीजें उपयोगी होती हैं। कभी एक क्लस्टरिंग परिणाम पर विश्वास न करें "सही", कभी भी।

— है क्विट - Anony-Mousse

पदानुक्रमित क्लस्टरिंग स्थानीय रूप से अनुकूलित समूहों को दे सकती है क्योंकि यह लालची दृष्टिकोण पर आधारित है लेकिन K का अर्थ है वैश्विक रूप से अनुकूलित क्लस्टर। मैंने यह भी अनुभव किया है कि K साधनों की तुलना में व्यवसायिक लोगों के लिए श्रेणीबद्ध क्लस्टरिंग की व्याख्या अपेक्षाकृत आसान है।

— अर्पित सिसोदिया

7

मैं सिर्फ दूसरे उत्तरों को थोड़ा जोड़ना चाहता हूं कि कैसे, कुछ अर्थों में, कुछ पदानुक्रमित क्लस्टरिंग विधियों को पसंद करने के लिए एक मजबूत सैद्धांतिक कारण है।

क्लस्टर विश्लेषण में एक आम धारणा यह है कि डेटा को कुछ अंतर्निहित प्रायिकता घनत्व से सैंपल किया गया है जिसकी हमारे पास पहुंच नहीं है। लेकिन मान लीजिए कि हमारे पास इसकी पहुंच थी। हम कैसे परिभाषित करेंगे समूहों की ? $f$ $f$

एक बहुत ही प्राकृतिक और सहज दृष्टिकोण यह कहना है कि के क्लस्टर उच्च घनत्व के क्षेत्र हैं। उदाहरण के लिए, नीचे दिए गए दो-शिखर घनत्व पर विचार करें: $f$

ग्राफ पर एक रेखा खींचकर हम समूहों का एक समूह तैयार करते हैं। उदाहरण के लिए, यदि हम पर एक रेखा खींचते हैं, तो हमें दिखाए गए दो क्लस्टर मिलते हैं। लेकिन अगर हम पर लाइन खींचते हैं, तो हमें एक क्लस्टर मिलता है। $\lambda_1$ $\lambda_3$

इसे और सटीक बनाने के लिए, मान लीजिए कि हमारे पास एक मनमाना । स्तर पर के समूह क्या हैं ? वे की superlevel सेट जुड़ा घटक हैं । $\lambda > 0$ $f$ $\lambda$ $\{x : f(x) \geq \lambda \}$

अब बजाय एक मनमाना उठा के हम सोच सकते हैं सभी , ऐसा है कि के "सही" समूहों के सेट के किसी भी superlevel सेट के सभी कनेक्ट किए गए घटक हैं । कुंजी यह है कि समूहों के इस संग्रह में पदानुक्रमित संरचना है। $\lambda$ $\lambda$ $f$ $f$

मुझे और सटीक बनाते हैं। मान लीजिए कि पर समर्थित है । आइए अब के एक जुड़ा घटक हो , और के एक जुड़ा घटक हो । दूसरे शब्दों में, स्तर पर एक क्लस्टर है , और स्तर स्तर पर एक क्लस्टर है । तो अगर $f$ $\mathcal X$ $C_1$ $\{ x : f(x) \geq \lambda_1 \}$ $C_2$ $\{ x : f(x) \geq \lambda_2 \}$ $C_1$ $\lambda_1$ $C_2$ $\lambda_2$ , तो या तो , या । हमारे घोंसले के किसी भी जोड़े के लिए यह घोंसला संबंध है, इसलिए हमारे पास जो है वह वास्तवमें समूहों काएकपदानुक्रमहै। इसे हमक्लस्टर ट्री कहते हैं। $\lambda_2 < \lambda_1$ $C_1 \subset C_2$ $C_1 \cap C_2 = \emptyset$

इसलिए अब मेरे पास एक घनत्व से कुछ डेटा का नमूना है। क्या मैं इस डेटा को क्लस्टर ट्री को ठीक करने के तरीके से क्लस्टर कर सकता हूं? विशेष रूप से, हम इस अर्थ में सुसंगत होना चाहते हैं कि जैसे-जैसे हम अधिक से अधिक डेटा एकत्र करते हैं, क्लस्टर ट्री का हमारा अनुभवजन्य अनुमान सही क्लस्टर ट्री के करीब और करीब बढ़ता जाता है।

हार्टिगन इस तरह के सवाल पूछने वाले पहले व्यक्ति थे और ऐसा करने में उन्होंने ठीक से परिभाषित किया कि क्लस्टर ट्री का लगातार अनुमान लगाने के लिए एक पदानुक्रमित क्लस्टरिंग विधि का क्या मतलब होगा। उनकी परिभाषा इस प्रकार थी: और को ऊपर बताए अनुसार का वास्तविक असंतुष्ट समूह है - अर्थात, वे कुछ सुपरलेवल सेट के जुड़े हुए घटक हैं। अब से नमूने iid का एक सेट बनाएं , और इस सेट को कहें । हम डेटा पर एक पदानुक्रमित क्लस्टरिंग विधि लागू करते हैं , और हम अनुभवजन्य समूहों का एक संग्रह प्राप्त करते हैं। चलो होना सबसे छोटा $A$ $B$ $f$ $n$ $f$ $X_n$ $X_n$ $A_n$ अनुभवजन्य क्लस्टर के सभी युक्त , और छोटी से छोटी के सभी युक्त होना । तो फिर हमारे क्लस्टरिंग विधि होना कहा जाता है हार्टिगन संगत अगर के रूप में के संबंध तोड़ना समूहों किसी भी जोड़ी के लिए और । $A \cap X_n$ $B_n$ $B \cap X_n$ $\Pr(A_n \cap B_n) = \emptyset \to 1$ $n \to \infty$ $A$ $B$

अनिवार्य रूप से, हार्टिगन स्थिरता कहती है कि हमारे क्लस्टरिंग विधि को पर्याप्त रूप से उच्च घनत्व वाले क्षेत्रों को अलग करना चाहिए। हार्टिगन ने जांच की कि क्या एकल लिंकेज क्लस्टरिंग सुसंगत हो सकती है, और पाया कि यह आयामों में सुसंगत नहीं है > 1. क्लस्टर ट्री का अनुमान लगाने के लिए एक सामान्य, सुसंगत विधि खोजने की समस्या कुछ साल पहले तक खुली थी, जब चौधुरी और दासगुप्ता ने परिचय दिया था मजबूत एकल लिंकेज , जो काफी संगत है। मैं उनकी विधि के बारे में पढ़ना चाहूंगा, क्योंकि यह मेरी राय में काफी सुरुचिपूर्ण है।

तो, आपके प्रश्नों को संबोधित करने के लिए, एक अर्थ है जिसमें पदानुक्रमित क्लस्टर एक घनत्व की संरचना को पुनर्प्राप्त करने का प्रयास करते समय "सही" बात है। हालाँकि, "सही" के चारों ओर डराने वाले उद्धरणों पर ध्यान दें ... अंततः घनत्व-आधारित क्लस्टरिंग विधियाँ आयामीता के अभिशाप के कारण उच्च आयामों में खराब प्रदर्शन करती हैं, और इसलिए भले ही क्लस्टर के आधार पर क्लस्टरिंग की एक परिभाषा उच्च संभावना वाले क्षेत्र हो। यह काफी साफ और सहज है, यह अक्सर उन तरीकों के पक्ष में नजरअंदाज कर दिया जाता है जो अभ्यास में बेहतर प्रदर्शन करते हैं। यह कहना है कि मजबूत एकल संबंध व्यावहारिक नहीं है - यह वास्तव में कम आयामों में समस्याओं पर काफी अच्छी तरह से काम करता है।

अंत में, मैं कहूंगा कि हार्टिगन की स्थिरता कुछ अर्थों में है जो हमारे अभिसरण के अंतर्ज्ञान के अनुसार नहीं है। समस्या यह है कि हार्टिगन संगतता एक क्लस्टरिंग विधि को बहुत अधिक खंड वाले समूहों में विभाजित करने की अनुमति देता है जैसे कि एक एल्गोरिथ्म हार्टिगन सुसंगत हो सकता है, फिर भी क्लस्टरिंग का उत्पादन कर सकता है जो कि सच्चे क्लस्टर ट्री से बहुत अलग हैं। हमने इस वर्ष अभिसरण की एक वैकल्पिक धारणा पर काम किया है जो इन मुद्दों को संबोधित करता है। यह कार्य COLT 2015 में "बियॉन्ड हार्टिगन कंसिस्टेंसी: मर्ज डिस्टॉर्शन मेट्रिक फॉर हियरार्चिकल क्लस्टीरिंग" में दिखाई दिया।

— jme
स्रोत

यह पदानुक्रमित क्लस्टरिंग के बारे में सोचने का एक दिलचस्प तरीका है। मुझे लगता है कि यह दृढ़ता से nonparametric घनत्व अनुमान ( पीडीएफ ) द्वारा क्लस्टरिंग की याद दिलाता है , जो Rकि pdfClub पैकेज में लागू किया गया है । (मैं इस पर चर्चा यहाँ ।)

— को पुनः स्थापित मोनिका - गुंग

HDBSCAN * एक समान दृष्टिकोण का उपयोग करता है।

— हैव - 13

3

$k$

EDIT धन्यवाद ttnphns के लिए: एक विशेषता है कि कई अन्य एल्गोरिदम के साथ पदानुक्रमिक क्लस्टरिंग शेयर एक दूरी उपाय चुनने की आवश्यकता है। यह अक्सर विशेष एप्लिकेशन और लक्ष्यों पर अत्यधिक निर्भर होता है। इसे एक अतिरिक्त जटिलता (चयन करने के लिए एक और पैरामीटर ...) के रूप में देखा जा सकता है, लेकिन एक परिसंपत्ति के रूप में - अधिक संभावनाएं। इसके विपरीत, शास्त्रीय K- साधन एल्गोरिथ्म विशेष रूप से यूक्लिडियन दूरी का उपयोग करता है।

— जसेक पोड्लेव्स्की
स्रोत

3

मुझे लगता है कि आपके पिछले पैराग्राफ में "समस्या" को सकारात्मक रूप से संपत्ति के रूप में देखा जाएगा। K- साधन, हालांकि, केवल यूक्लिडियन दूरी पर आधारित है ।

— ttnphns 14

कई संभावित विकल्प एक समस्या के साथ-साथ एक परिसंपत्ति हो सकते हैं, वास्तव में :) k- साधनों पर टिप्पणी के लिए धन्यवाद, मैं उस पैराग्राफ में सुधार करूंगा।

— जसक पॉडलेव्स्की

k

$k$

k

$k$

मेरा मानना है कि मूल प्रश्न "शास्त्रीय 'के-साधनों के संबंध में किया गया था, न कि ब्रेगमैन डाइवर्जेंस में तल्लीन करने के लिए एक मामूली इरादे से। अच्छी टिप्पणी हालांकि, मैं इस पेपर को और अधिक अच्छी तरह से सुनिश्चित करने के लिए जांच करूंगा।

— जसेक पॉडलेव्स्की

@mic कोई भी यूक्लिडियन दूरी की विविधताओं से परे ब्रेगमैन डाइवर्जेंस का उपयोग नहीं करता है ... यह केवल एक छोटा वर्ग है। लेकिन लोग उदाहरण के लिए मैनहट्टन की दूरी, गोवर आदि का उपयोग करना पसंद करेंगे, जो कि मैं नहीं जानता कि सभी के लिए ब्रेगमैन डाइवर्जेंस नहीं हैं।

— हैव - 13