पदानुक्रमिक क्लस्टरिंग की कमियों को कैसे समझें?


19

क्या कोई व्यक्ति पदानुक्रमिक क्लस्टरिंग के पेशेवरों और विपक्षों की व्याख्या कर सकता है?

  1. क्या Hierarchical Clustering में K का मतलब समान है?
  2. K साधनों पर पदानुक्रमिक क्लस्टरिंग के क्या लाभ हैं?
  3. कब हमें Hierarchical Clustering & विपरीत पर K का उपयोग करना चाहिए?

इस पोस्ट के उत्तर में कश्मीर की कमियों के बारे में बताया गया है। K- साधनों की कमियों को कैसे समझें


2
में इस सवाल का जवाब मैं श्रेणीबद्ध agglomerative क्लस्टर विश्लेषण के संभावित रूप से समस्या पहलुओं में से कुछ को छुआ। मुख्य "दोष" यह है कि यह नॉनटेरेटिव, सिंगल-पास लालची एल्गोरिथम है। लालची एल्गोरिथ्म के साथ, आप वर्तमान चरण के कार्य को अनुकूलित करते हैं, जो कि - अधिकांश HC विधियों के लिए - जरूरी नहीं कि दूर के भविष्य के कदम पर सर्वोत्तम विभाजन की गारंटी दे। एचसी का मुख्य लाभ यह है कि यह उपयोग करने के लिए निकटता उपाय की पसंद के संबंध में लचीला है। @ मिक ने पहले से ही नीचे एक अच्छा जवाब दिया है, इसलिए मैं सिर्फ गूंज रहा हूं।
ttnphns

जवाबों:


14

जबकि की कोशिश करता -means एक वैश्विक लक्ष्य (समूहों के विचरण) अनुकूलन करने के लिए और एक स्थानीय इष्टतम, प्रत्येक क्लस्टर संलयन (लालची एल्गोरिथ्म) जो वास्तव में किया जाता है पर सबसे अच्छा कदम खोजने लेकिन एक संभावित करने से इनकी समाधान में जिसके परिणामस्वरूप में agglomerative श्रेणीबद्ध क्लस्टरिंग उद्देश्य को प्राप्त होता है ।k

जब अंतर्निहित डेटा में एक पदानुक्रमित संरचना होती है (जैसे कि वित्तीय बाजारों में सहसंबंध) और आप पदानुक्रम को पुनर्प्राप्त करना चाहते हैं तो पदानुक्रम क्लस्टरिंग का उपयोग करना चाहिए। आप अभी भी ऐसा करने के लिए -means लागू कर सकते हैं , लेकिन आप विभाजन के साथ (एक क्लस्टर में सभी डेटा बिंदुओं से) बेहतरीन (प्रत्येक डेटा बिंदु एक क्लस्टर है) को समाप्त कर सकते हैं जो कि नेस्टेड नहीं हैं और इस प्रकार उचित पदानुक्रम नहीं है।k

यदि आप क्लस्टरिंग के महीन गुणों को खोदना चाहते हैं, तो आप फ्लैट-क्लस्टरिंग जैसे -means से पदानुक्रमिक क्लस्टरिंग जैसे एकल, औसत, पूर्ण लिंकेज का विरोध नहीं करना चाह सकते हैं । उदाहरण के लिए, ये सभी क्लस्टरिंग स्पेस-कंजर्विंग होते हैं, यानी जब आप क्लस्टर बना रहे होते हैं तो आप स्पेस को डिस्टर्ब नहीं करते हैं, जबकि वार्ड जैसे पदानुक्रमिक क्लस्टरिंग स्पेस-कंजर्विंग नहीं होते हैं, यानी प्रत्येक मर्जिंग स्टेप पर यह मीट्रिक स्पेस को विकृत कर देगा।k

निष्कर्ष निकालने के लिए, पदानुक्रमित क्लस्टरिंग एल्गोरिदम की कमियां एक से दूसरे में बहुत भिन्न हो सकती हैं। कुछ इसी तरह की संपत्तियों के लिए साझा कर सकते हैं विचरण के अनुकूलन पर वार्ड उद्देश्य है, लेकिन एकल लिंकेज नहीं: -means। लेकिन वे भी अलग गुण होते हैं कर सकते हैं: वार्ड अंतरिक्ष विस्फारित है, एकल लिंकेज अंतरिक्ष के संरक्षण की तरह है, जबकि कश्मीर -means।kk

- अंतरिक्ष-संरक्षण और अंतरिक्ष-फैलाने वाले गुणों को सटीक करने के लिए संपादित करें

अंतरिक्ष के संरक्षण: जहां डी मैं j दूरी है समूहों के बीच सी मैं और सी जे आप अलग करना चाहते हैं, और

Dij[minxCi,yCjd(x,y),maxxCi,yCjd(x,y)]
DijCiCjd डेटा पॉइंट्स के बीच की दूरी है।

अंतरिक्ष विस्फारित: यानी मर्ज करके सी मैं और सी जे एल्गोरिथ्म और दूर क्लस्टर धक्का होगा ।

D(CiCj,Ck)max(Dik,Djk),
CiCjCk

क्या आप पदानुक्रमित संरचना वाले डेटा के कुछ और उदाहरण दे सकते हैं? वित्तीय बाजार उदाहरण का पालन नहीं किया।
जॉर्जऑफTheRF

ज़रूर। सीएफ arxiv.org/pdf/cond-mat/9802256.pdf या बस चित्र 7 में arxiv.org/pdf/1506.00976.pdf जो एक सहसंबंध मैट्रिक्स को दर्शाता है जिसमें एक (शोर) पदानुक्रमित सहसंबंध ब्लॉक संरचना है: आप मुख्य पर ब्लॉकों को नोटिस कर सकते हैं विकर्ण, जिन्हें अधिक ब्लॉकों में विभाजित किया जाता है, प्रत्येक को और भी अधिक ब्लॉकों में विभाजित किया जाता है। यह मोटे तौर पर क्षेत्रों (यूरोप, अमेरिका, एशिया पूर्व-जापान, जापान) के एक उपखंड से मेल खाती है, फिर प्रत्येक क्षेत्र को परिसंपत्ति गुणवत्ता (उच्च गुणवत्ता बनाम कबाड़) से विभाजित किया जाता है, फिर बड़े औद्योगिक क्षेत्रों (खुदरा, उद्योग) द्वारा विभाजित किया जाता है। मीडिया), आगे सबडिव (एयरोस्पेस, ऑटो ...)
mic

3
+1। हालांकि, should use hierarchical clustering when underlying data has a hierarchical structure... and you want to recover the hierarchyजरूरी नहीं है। इसके विपरीत ज्यादातर मामलों में। एचसी की पदानुक्रम डेटा की संरचना की बजाय अहंकार की एक कहानी है । फिर भी, यह सवाल अंततः दार्शनिक / तार्किक है, इतना सांख्यिकीय नहीं।
ttnphns

Ward is not space-conserving, i.e. at each merging step it will distort the metric space। क्या आप इसके बारे में अधिक लिख सकते हैं? यह बहुत स्पष्ट नहीं है।
ttnphns

Ward is space-dilating, whereas Single Linkage is space-conserving like k-means। क्या आप सिंगल लिंकेज के लिए स्पेस-कॉन्ट्रैक्टिंग कहना चाहते थे?
ttnphns

13

अनुमापकता

साधन यहाँ स्पष्ट विजेता है। हे ( एन कश्मीर मैं ) बहुत बेहतर की तुलना में है हे ( एन 3) (कुछ मामलों में हे ( एन 2 डी ) ) श्रेणीबद्ध क्लस्टरिंग के scalability क्योंकि आमतौर पर दोनों कश्मीर और मैं और छोटे हैं (दुर्भाग्य से, मैं के साथ विकसित करने के लिए जाता है n , इसलिए हे ( एन ) करतानहींkO(nkdi)O(n3d)O(n2d)kidinO(n)आमतौर पर पकड़)। इसके अलावा, मेमोरी की खपत रैखिक है, जैसा कि द्विघात के विपरीत (आमतौर पर, रैखिक विशेष मामले मौजूद हैं)।

लचीलापन

-means प्रयोज्यता में बेहद सीमित है। यह अनिवार्य रूप इयूक्लिडियन दूरी तक ही सीमित है (कर्नेल स्थान में इयूक्लिडियन, और ब्रैगमैन भिन्नता सहित, लेकिन इन काफी विदेशी हैं और कोई भी वास्तव में के साथ उन्हें का उपयोग करता कश्मीर -means)। इससे भी बदतर, k -means केवल संख्यात्मक डेटा पर काम करता है (जो वास्तव में निरंतर होना चाहिए और k -means केलिए एक अच्छा फिट होने के लिए घना होना चाहिए)।kkkk

यहां पदानुक्रम क्लस्टरिंग स्पष्ट विजेता है। इसके लिए एक दूरी की भी आवश्यकता नहीं होती है - किसी भी उपाय का उपयोग किया जा सकता है, जिसमें समानता वाले कार्यों को शामिल किया जाता है, जिसमें उच्च मूल्यों को कम मूल्यों पर प्राथमिकता दी जाती है। क्रमबद्ध डेटा? यकीन है कि बस का उपयोग करें। तार? Levenshtein दूरी का प्रयास करें। समय श्रृंखला? ज़रूर। मिश्रित प्रकार का डेटा? गोवर दूरी। ऐसे लाखों डेटा सेट हैं जहाँ आप पदानुक्रमित क्लस्टरिंग का उपयोग कर सकते हैं, लेकिन जहाँ आप -means का उपयोग नहीं कर सकते हैं ।k

नमूना

यहां कोई विजेता नहीं। -means उच्च स्कोर करता है क्योंकि यह एक महान डेटा कटौती देता है। सेंट्रोइड्स को समझना और उपयोग करना आसान है। दूसरी ओर, पदानुक्रमित क्लस्टरिंग, एक डेंड्रोग्राम का उत्पादन करता है। आपके डेटा सेट को समझने में एक डेंड्रोग्राम भी बहुत उपयोगी हो सकता है।k


क्या hierarchical k की तरह k का मतलब है जब समूहों 1) गैर गोलाकार 2) अलग है त्रिज्या 3) अलग घनत्व है?
जॉर्जऑफTheRF

2
दोनों काम कर सकते हैं, और दोनों विफल हो सकते हैं। इसीलिए डेंड्रोग्राम जैसी चीजें उपयोगी होती हैं। कभी एक क्लस्टरिंग परिणाम पर विश्वास न करें "सही", कभी भी।
है क्विट - Anony-Mousse

पदानुक्रमित क्लस्टरिंग स्थानीय रूप से अनुकूलित समूहों को दे सकती है क्योंकि यह लालची दृष्टिकोण पर आधारित है लेकिन K का अर्थ है वैश्विक रूप से अनुकूलित क्लस्टर। मैंने यह भी अनुभव किया है कि K साधनों की तुलना में व्यवसायिक लोगों के लिए श्रेणीबद्ध क्लस्टरिंग की व्याख्या अपेक्षाकृत आसान है।
अर्पित सिसोदिया

7

मैं सिर्फ दूसरे उत्तरों को थोड़ा जोड़ना चाहता हूं कि कैसे, कुछ अर्थों में, कुछ पदानुक्रमित क्लस्टरिंग विधियों को पसंद करने के लिए एक मजबूत सैद्धांतिक कारण है।

क्लस्टर विश्लेषण में एक आम धारणा यह है कि डेटा को कुछ अंतर्निहित प्रायिकता घनत्व से सैंपल किया गया है जिसकी हमारे पास पहुंच नहीं है। लेकिन मान लीजिए कि हमारे पास इसकी पहुंच थी। हम कैसे परिभाषित करेंगे समूहों की ?ff

एक बहुत ही प्राकृतिक और सहज दृष्टिकोण यह कहना है कि के क्लस्टर उच्च घनत्व के क्षेत्र हैं। उदाहरण के लिए, नीचे दिए गए दो-शिखर घनत्व पर विचार करें:f

यहाँ छवि विवरण दर्ज करें

ग्राफ पर एक रेखा खींचकर हम समूहों का एक समूह तैयार करते हैं। उदाहरण के लिए, यदि हम पर एक रेखा खींचते हैं, तो हमें दिखाए गए दो क्लस्टर मिलते हैं। लेकिन अगर हम λ 3 पर लाइन खींचते हैं, तो हमें एक क्लस्टर मिलता है।λ1λ3

इसे और सटीक बनाने के लिए, मान लीजिए कि हमारे पास एक मनमाना । स्तर λ पर f के समूह क्या हैं ? वे की superlevel सेट जुड़ा घटक हैं { x : ( एक्स ) λ }λ>0fλ{x:f(x)λ}

अब बजाय एक मनमाना उठा के हम सोच सकते हैं सभी λ , ऐसा है कि के "सही" समूहों के सेट के किसी भी superlevel सेट के सभी कनेक्ट किए गए घटक हैं । कुंजी यह है कि समूहों के इस संग्रह में पदानुक्रमित संरचना है।λ λff

मुझे और सटीक बनाते हैं। मान लीजिए कि X पर समर्थित है । आइए अब सी 1 के एक जुड़ा घटक हो { x : ( एक्स ) λ 1 } , और सी 2 के एक जुड़ा घटक हो { x : ( एक्स ) λ 2 } । दूसरे शब्दों में, C 1 स्तर λ 1 पर एक क्लस्टर है , और C 2 स्तर λ 2 स्तर पर एक क्लस्टर है । तो अगरfXC1{x:f(x)λ1}C2{x:f(x)λ2}C1λ1C2λ2 , तो या तो सी 1सी 2 , या सी 1सी 2 = । हमारे घोंसले के किसी भी जोड़े के लिए यह घोंसला संबंध है, इसलिए हमारे पास जो है वह वास्तवमें समूहों काएकपदानुक्रमहै। इसे हमक्लस्टर ट्री कहते हैंλ2<λ1C1C2C1C2=

इसलिए अब मेरे पास एक घनत्व से कुछ डेटा का नमूना है। क्या मैं इस डेटा को क्लस्टर ट्री को ठीक करने के तरीके से क्लस्टर कर सकता हूं? विशेष रूप से, हम इस अर्थ में सुसंगत होना चाहते हैं कि जैसे-जैसे हम अधिक से अधिक डेटा एकत्र करते हैं, क्लस्टर ट्री का हमारा अनुभवजन्य अनुमान सही क्लस्टर ट्री के करीब और करीब बढ़ता जाता है।

हार्टिगन इस तरह के सवाल पूछने वाले पहले व्यक्ति थे और ऐसा करने में उन्होंने ठीक से परिभाषित किया कि क्लस्टर ट्री का लगातार अनुमान लगाने के लिए एक पदानुक्रमित क्लस्टरिंग विधि का क्या मतलब होगा। उनकी परिभाषा इस प्रकार थी: और B को ऊपर बताए अनुसार f का वास्तविक असंतुष्ट समूह है - अर्थात, वे कुछ सुपरलेवल सेट के जुड़े हुए घटक हैं। अब f से n नमूने iid का एक सेट बनाएं , और इस सेट को x n कहें । हम डेटा एक्स n पर एक पदानुक्रमित क्लस्टरिंग विधि लागू करते हैं , और हम अनुभवजन्य समूहों का एक संग्रह प्राप्त करते हैं। चलो एक n होना सबसे छोटाABfnfXnXnAnअनुभवजन्य क्लस्टर के सभी युक्त , और बी एन छोटी से छोटी के सभी युक्त होना बी एक्स एन । तो फिर हमारे क्लस्टरिंग विधि होना कहा जाता है हार्टिगन संगत अगर पीआर ( एनबी एन ) = 1 के रूप में एन के संबंध तोड़ना समूहों किसी भी जोड़ी के लिए एक और बीAXnBnBXnPr(AnBn)=1nAB

अनिवार्य रूप से, हार्टिगन स्थिरता कहती है कि हमारे क्लस्टरिंग विधि को पर्याप्त रूप से उच्च घनत्व वाले क्षेत्रों को अलग करना चाहिए। हार्टिगन ने जांच की कि क्या एकल लिंकेज क्लस्टरिंग सुसंगत हो सकती है, और पाया कि यह आयामों में सुसंगत नहीं है > 1. क्लस्टर ट्री का अनुमान लगाने के लिए एक सामान्य, सुसंगत विधि खोजने की समस्या कुछ साल पहले तक खुली थी, जब चौधुरी और दासगुप्ता ने परिचय दिया था मजबूत एकल लिंकेज , जो काफी संगत है। मैं उनकी विधि के बारे में पढ़ना चाहूंगा, क्योंकि यह मेरी राय में काफी सुरुचिपूर्ण है।

तो, आपके प्रश्नों को संबोधित करने के लिए, एक अर्थ है जिसमें पदानुक्रमित क्लस्टर एक घनत्व की संरचना को पुनर्प्राप्त करने का प्रयास करते समय "सही" बात है। हालाँकि, "सही" के चारों ओर डराने वाले उद्धरणों पर ध्यान दें ... अंततः घनत्व-आधारित क्लस्टरिंग विधियाँ आयामीता के अभिशाप के कारण उच्च आयामों में खराब प्रदर्शन करती हैं, और इसलिए भले ही क्लस्टर के आधार पर क्लस्टरिंग की एक परिभाषा उच्च संभावना वाले क्षेत्र हो। यह काफी साफ और सहज है, यह अक्सर उन तरीकों के पक्ष में नजरअंदाज कर दिया जाता है जो अभ्यास में बेहतर प्रदर्शन करते हैं। यह कहना है कि मजबूत एकल संबंध व्यावहारिक नहीं है - यह वास्तव में कम आयामों में समस्याओं पर काफी अच्छी तरह से काम करता है।

अंत में, मैं कहूंगा कि हार्टिगन की स्थिरता कुछ अर्थों में है जो हमारे अभिसरण के अंतर्ज्ञान के अनुसार नहीं है। समस्या यह है कि हार्टिगन संगतता एक क्लस्टरिंग विधि को बहुत अधिक खंड वाले समूहों में विभाजित करने की अनुमति देता है जैसे कि एक एल्गोरिथ्म हार्टिगन सुसंगत हो सकता है, फिर भी क्लस्टरिंग का उत्पादन कर सकता है जो कि सच्चे क्लस्टर ट्री से बहुत अलग हैं। हमने इस वर्ष अभिसरण की एक वैकल्पिक धारणा पर काम किया है जो इन मुद्दों को संबोधित करता है। यह कार्य COLT 2015 में "बियॉन्ड हार्टिगन कंसिस्टेंसी: मर्ज डिस्टॉर्शन मेट्रिक फॉर हियरार्चिकल क्लस्टीरिंग" में दिखाई दिया।


यह पदानुक्रमित क्लस्टरिंग के बारे में सोचने का एक दिलचस्प तरीका है। मुझे लगता है कि यह दृढ़ता से nonparametric घनत्व अनुमान ( पीडीएफ ) द्वारा क्लस्टरिंग की याद दिलाता है , जो Rकि pdfClub पैकेज में लागू किया गया है । (मैं इस पर चर्चा यहाँ ।)
को पुनः स्थापित मोनिका - गुंग

HDBSCAN * एक समान दृष्टिकोण का उपयोग करता है।
हैव - 13

3

k

EDIT धन्यवाद ttnphns के लिए: एक विशेषता है कि कई अन्य एल्गोरिदम के साथ पदानुक्रमिक क्लस्टरिंग शेयर एक दूरी उपाय चुनने की आवश्यकता है। यह अक्सर विशेष एप्लिकेशन और लक्ष्यों पर अत्यधिक निर्भर होता है। इसे एक अतिरिक्त जटिलता (चयन करने के लिए एक और पैरामीटर ...) के रूप में देखा जा सकता है, लेकिन एक परिसंपत्ति के रूप में - अधिक संभावनाएं। इसके विपरीत, शास्त्रीय K- साधन एल्गोरिथ्म विशेष रूप से यूक्लिडियन दूरी का उपयोग करता है।


3
मुझे लगता है कि आपके पिछले पैराग्राफ में "समस्या" को सकारात्मक रूप से संपत्ति के रूप में देखा जाएगा। K- साधन, हालांकि, केवल यूक्लिडियन दूरी पर आधारित है
ttnphns 14

कई संभावित विकल्प एक समस्या के साथ-साथ एक परिसंपत्ति हो सकते हैं, वास्तव में :) k- साधनों पर टिप्पणी के लिए धन्यवाद, मैं उस पैराग्राफ में सुधार करूंगा।
जसक पॉडलेव्स्की

kk

मेरा मानना ​​है कि मूल प्रश्न "शास्त्रीय 'के-साधनों के संबंध में किया गया था, न कि ब्रेगमैन डाइवर्जेंस में तल्लीन करने के लिए एक मामूली इरादे से। अच्छी टिप्पणी हालांकि, मैं इस पेपर को और अधिक अच्छी तरह से सुनिश्चित करने के लिए जांच करूंगा।
जसेक पॉडलेव्स्की

@mic कोई भी यूक्लिडियन दूरी की विविधताओं से परे ब्रेगमैन डाइवर्जेंस का उपयोग नहीं करता है ... यह केवल एक छोटा वर्ग है। लेकिन लोग उदाहरण के लिए मैनहट्टन की दूरी, गोवर आदि का उपयोग करना पसंद करेंगे, जो कि मैं नहीं जानता कि सभी के लिए ब्रेगमैन डाइवर्जेंस नहीं हैं।
हैव - 13
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.