के-मीन्स और ईएम के साथ क्लस्टरिंग: वे कैसे संबंधित हैं?


50

मैंने क्लस्टरिंग डेटा (अप्राप्त शिक्षण) के लिए एल्गोरिदम का अध्ययन किया है: ईएम, और के-साधन। मैं निम्नलिखित पढ़ता हूं:

k- साधन EM का एक प्रकार है, इस धारणा के साथ कि क्लस्टर गोलाकार हैं।

क्या कोई उपरोक्त वाक्य की व्याख्या कर सकता है? मुझे समझ में नहीं आता है कि गोलाकार का क्या मतलब है, और किमी और ईएम कैसे संबंधित हैं, क्योंकि एक संभाव्य असाइनमेंट करता है और दूसरा इसे नियतात्मक तरीके से करता है।

इसके अलावा, किस स्थिति में k- साधन क्लस्टरिंग का उपयोग करना बेहतर है? या EM क्लस्टरिंग का उपयोग करें?


गोलाकार का अर्थ है प्रत्येक क्लस्टर के लिए समान विचरण-सहसंयोजक मैट्रिक्स (गॉसियन वितरण मानकर), जिसे मॉडल-आधारित क्लस्टरिंग के रूप में भी जाना जाता है। आप किस दृष्टिकोण को निर्धारक मानते हैं?
chl

2
अच्छा होगा यदि आप प्रशस्ति पत्र का स्रोत दें।
tnnphns

1
k- साधन "मानता है" कि गुच्छे अधिक या कम गोल और ठोस होते हैं (यूक्लिडियन अंतरिक्ष में भारी रूप से लम्बी या घुमावदार या सिर्फ बजते हुए) बादल नहीं होते हैं। उन्हें सामान्य वितरण से आने की आवश्यकता नहीं है । ईएम को इसकी आवश्यकता होती है (या ज्ञात होने के लिए कम से कम विशिष्ट प्रकार के वितरण)।
tnnphns

जवाबों:


38

K का अर्थ है

  1. अभिसरण पर एक विशेष क्लस्टर के लिए हार्ड डेटा बिंदु निर्दिष्ट करें।
  2. यह अनुकूलन करते समय L2 मानक का उपयोग करता है (Min {Theta} L2 मानक बिंदु और इसके केन्द्रक निर्देशांक)।

ईएम

  1. शीतल समूहों को एक बिंदु प्रदान करता है (इसलिए यह किसी भी केन्द्रक से संबंधित बिंदु की संभावना देता है)।
  2. यह L2 मानक पर निर्भर नहीं करता है, लेकिन उम्मीद पर आधारित है, यानी, एक विशेष क्लस्टर से संबंधित बिंदु की संभावना। यह K- साधन को गोलाकार समूहों के प्रति पक्षपाती बनाता है।

57

कोई "k- साधन एल्गोरिथ्म" नहीं है। K- साधनों के लिए MacQueens एल्गोरिथ्म, k- साधन के लिए लॉयड / फ़ॉर्गी एल्गोरिथ्म, हार्टिगन-वेलिंग विधि, ...

वहाँ भी "ईएम-एल्गोरिथ्म" नहीं है। यह संभावना की बार-बार उम्मीद करना और फिर मॉडल को अधिकतम करना एक सामान्य योजना है। EM का सबसे लोकप्रिय संस्करण "गाऊसी मिक्सचर मॉडलिंग" (GMM) के रूप में भी जाना जाता है, जहां मॉडल बहुभिन्नरूपी गाऊसी वितरण हैं।

दो चरणों से मिलकर लॉयड्स एल्गोरिथ्म पर विचार कर सकते हैं:

  • ई-चरण, जहां प्रत्येक वस्तु को सेंट्रोइड को सौंपा जाता है जैसे कि यह सबसे अधिक संभावित क्लस्टर को सौंपा गया है।
  • एम-स्टेप, जहां मॉडल (= सेंट्रोइड्स) पुनर्संयोजित होते हैं (= कम से कम वर्ग अनुकूलन)।

... इन दो चरणों को पुनरावृत्त करना, जैसा कि लॉयड द्वारा किया गया है, यह प्रभावी रूप से सामान्य ईएम योजना का एक उदाहरण है। यह GMM से अलग है:

  • यह हार्ड पार्टिशनिंग का उपयोग करता है, अर्थात प्रत्येक ऑब्जेक्ट को एक क्लस्टर के लिए असाइन किया गया है
  • मॉडल केवल केन्द्रक हैं, किसी भी सहसंयोजक या संस्करण को ध्यान में नहीं रखा जाता है

kk

10
लॉयड्स एल्गोरिथ्म के साथ कई किताबें बराबर-का मतलब है, लेकिन उन्होंने कभी भी इसे k- साधन नहीं कहा। MacQueen ने k-mean नाम की शुरुआत की। क्षमा करें: कई पुस्तकें यहां गलत नामकरण का उपयोग करती हैं । k- साधन समस्या है, लॉयड केवल एक लोकप्रिय समाधान है। वास्तव में, R किमी को हल करने के लिए डिफ़ॉल्ट रूप से हार्टिगन-वोंग चलाएगा।
ऐनी-मूस

4

यहाँ एक उदाहरण है, अगर मैं यह अधिशेष में कर रहा था, जो सहायक हो सकता है और अधिक व्यापक उत्तरों की प्रशंसा कर सकता है:

मान लें कि मेरे पास 3 निरंतर चर हैं और इन के आधार पर समूहों की पहचान करना चाहते हैं। मैं एक मिश्रण मॉडल (इस मामले में अधिक स्पष्ट रूप से, एक अव्यक्त प्रोफ़ाइल मॉडल) निर्दिष्ट करूंगा, सशर्त स्वतंत्रता (मान ली गई चर स्वतंत्र हैं, क्लस्टर सदस्यता दी गई) के रूप में:

Model: 
%Overall%
v1* v2* v3*;  ! Freely estimated variances
[v1 v2 v3];   ! Freely estimated means

मैं इस मॉडल को कई बार चलाऊंगा, हर बार अलग-अलग संख्या के समूहों को निर्दिष्ट करता हूं, और मुझे जो समाधान सबसे अधिक पसंद है (ऐसा करने के लिए यह अपने आप में एक विशाल विषय है) चुनें।

फिर k- साधन चलाने के लिए, मैं निम्नलिखित मॉडल निर्दिष्ट करूंगा:

Model: 
%Overall%
v1@0 v2@0 v3@0;  ! Variances constrained as zero
[v1 v2 v3];      ! Freely estimated means

इसलिए कक्षा सदस्यता केवल चर चर के साधनों से दूरी पर आधारित है। जैसा कि अन्य प्रतिक्रियाओं में कहा गया है, वैरिएन्स का इससे कोई लेना-देना नहीं है।

अधिशेष में ऐसा करने के बारे में अच्छी बात यह है कि ये नेस्टेड मॉडल हैं, और इसलिए आप सीधे परीक्षण कर सकते हैं कि क्या अड़चनों का परिणाम खराब है या नहीं, इसके अलावा दो तरीकों के बीच वर्गीकरण में भेदभाव की तुलना करने में सक्षम है। इन दोनों मॉडलों, वैसे, एक ईएम एल्गोरिथ्म का उपयोग करके अनुमान लगाया जा सकता है, इसलिए अंतर वास्तव में मॉडल के बारे में अधिक है।

यदि आप 3-डी स्पेस में सोचते हैं, तो 3 का मतलब एक बिंदु है ... और उस बिंदु के माध्यम से चलने वाले एक दीर्घवृत्त के तीन अक्षों को बदलता है। यदि सभी तीन संस्करण समान हैं, तो आपको एक क्षेत्र मिलेगा।


इस उदाहरण के लिए धन्यवाद। यह कुछ विचारों को ठीक करने में बहुत मदद करता है।
मैना
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.