मानक और गोलाकार k- साधन एल्गोरिदम के बीच अंतर


28

मैं यह समझना चाहता हूं कि मानक और गोलाकार k- साधन क्लस्टरिंग एल्गोरिदम के बीच प्रमुख कार्यान्वयन अंतर क्या है।

प्रत्येक चरण में, k- साधन तत्व वैक्टर और क्लस्टर सेंट्रोइड के बीच की दूरी की गणना करता है, और इस क्लस्टर में दस्तावेज़ को पुन: असाइन करता है, जिसका सेंट्रोइड निकटतम है। फिर, सभी सेंट्रोइड पुन: प्रतिष्ठित होते हैं।

गोलाकार के-साधनों में, सभी वैक्टर सामान्यीकृत होते हैं, और दूरी माप कोसाइन डिसिमिलरिटी होती है।

क्या वह सब है, या कुछ और है?

जवाबों:


23

प्रश्न है:

शास्त्रीय k- साधनों और गोलाकार k- साधनों में क्या अंतर है?

क्लासिक K- साधन:

क्लासिक k- साधनों में, हम क्लस्टर केंद्र और क्लस्टर के सदस्यों के बीच एक यूक्लिडियन दूरी को कम करना चाहते हैं। इसके पीछे अंतर्ज्ञान यह है कि क्लस्टर-केंद्र से तत्व स्थान तक की रेडियल दूरी उस क्लस्टर के सभी तत्वों के लिए "समरूपता" या "समान" होनी चाहिए।

एल्गोरिथ्म है:

  • समूहों की संख्या (उर्फ क्लस्टर गिनती)
  • क्लस्टर सूचकांकों के लिए अंतरिक्ष में बेतरतीब ढंग से असाइनमेंट द्वारा प्रारंभिक
  • एकाग्र होने तक दोहराएं
    • प्रत्येक बिंदु के लिए निकटतम क्लस्टर खोजें और क्लस्टर के लिए पॉइंट असाइन करें
    • प्रत्येक क्लस्टर के लिए, सदस्य बिंदुओं और अद्यतन केंद्र माध्य का मतलब ढूंढें
    • त्रुटि क्लस्टर की दूरी का मानदंड है

गोलाकार K- साधन:

गोलाकार k- साधनों में, विचार प्रत्येक क्लस्टर के केंद्र को सेट करने के लिए होता है जैसे कि यह दोनों घटकों के बीच एक समान और न्यूनतम कोण बनाता है। अंतर्ज्ञान सितारों को देखने जैसा है - अंक में एक दूसरे के बीच लगातार अंतर होना चाहिए। उस अंतर को "कोसाइन समानता" के रूप में निर्धारित करना सरल है, लेकिन इसका मतलब है कि डेटा के आकाश में बड़े उज्ज्वल स्वैथ बनाने वाली कोई "दूधिया-रास्ता" आकाशगंगाएं नहीं हैं। (हां, मैं विवरण के इस भाग में दादी से बात करने की कोशिश कर रहा हूं ।)

अधिक तकनीकी संस्करण:

वैक्टर के बारे में सोचें, जिन चीजों को आप अभिविन्यास वाले तीर के रूप में ग्राफ़ करते हैं, और निश्चित लंबाई। यह कहीं भी अनुवाद किया जा सकता है और एक ही वेक्टर हो सकता है। रेफरी

यहाँ छवि विवरण दर्ज करें

अंतरिक्ष में बिंदु का अभिविन्यास (एक संदर्भ रेखा से इसका कोण) रेखीय बीजगणित, विशेष रूप से डॉट उत्पाद का उपयोग करके गणना की जा सकती है।

यदि हम सभी डेटा को स्थानांतरित करते हैं ताकि उनकी पूंछ एक ही बिंदु पर हो, तो हम "वैक्टर" की तुलना उनके कोण से कर सकते हैं, और एक ही समूह में समान समूह बना सकते हैं।

यहाँ छवि विवरण दर्ज करें

स्पष्टता के लिए, वैक्टर की लंबाई को बढ़ाया जाता है, ताकि वे "नेत्रगोलक" की तुलना में आसान हो।

यहाँ छवि विवरण दर्ज करें

आप इसे एक नक्षत्र के रूप में सोच सकते हैं। एक ही समूह के तारे किसी न किसी अर्थ में एक दूसरे के करीब होते हैं। ये मेरे नेत्रगोलक माने गए नक्षत्र हैं।

यहाँ छवि विवरण दर्ज करें

सामान्य दृष्टिकोण का मूल्य यह है कि यह हमें वैक्टर को नियंत्रित करने की अनुमति देता है जो अन्यथा कोई ज्यामितीय आयाम नहीं है, जैसे कि tf-idf विधि, जहां वैक्टर दस्तावेजों में शब्द आवृत्तियां हैं। दो "और" शब्द जोड़े गए एक "" के बराबर नहीं है। शब्द गैर-निरंतर और गैर-संख्यात्मक हैं। वे एक ज्यामितीय अर्थ में गैर-भौतिक हैं, लेकिन हम उन्हें ज्यामितीय रूप से नियंत्रित कर सकते हैं, और फिर उन्हें संभालने के लिए ज्यामितीय तरीकों का उपयोग कर सकते हैं। गोलाकार के-साधनों का उपयोग शब्दों के आधार पर क्लस्टर के लिए किया जा सकता है।

तो (2d यादृच्छिक, निरंतर) डेटा यह था:

[x1y1x2y2group00.80.20130.7316B0.80.10.95240.3639A0.20.30.20610.1434C0.80.10.47870.153B0.70.20.72760.3825A0.90.90.7480.6793C]

कुछ बिंदु:

  • वे दस्तावेज़ की लंबाई में अंतर के लिए एक इकाई क्षेत्र के लिए प्रोजेक्ट करते हैं।

चलो एक वास्तविक प्रक्रिया के माध्यम से काम करते हैं, और देखते हैं कि कैसे (खराब) मेरी "नेत्रगोलक" थी।

प्रक्रिया है:

  1. (समस्या में निहित) मूल पर वैक्टर पूंछ कनेक्ट करें
  2. इकाई क्षेत्र पर परियोजना (दस्तावेज़ की लंबाई में अंतर के लिए खाते में)
  3. " कोसाइन डिसिमिलरिटी " को कम करने के लिए क्लस्टरिंग का उपयोग करें

J=id(xi,pc(i))
जहाँ
d(x,p)=1cos(x,p)=x,pxp

(अधिक संपादन जल्द ही आ रहे हैं)

लिंक:

  1. http://epub.wu.ac.at/4000/1/paper.pdf
  2. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.8125&rep=rep1&type=pdf
  3. http://www.cs.gsu.edu/~wkim/index_files/papers/refinehd.pdf
  4. https://www.jstatsoft.org/article/view/v050i10
  5. http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-algorithm
  6. https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/projects/MIT15_097S12_proj1.pdf

पाठ फ़ाइलों में, मुझे लगता है कि "भिन्न" फ़ंक्शन जो वर्णों को संरेखित करता है, या वजन के साथ परिवर्तनों को इंगित करता है, सार्थक क्लस्टरिंग को बेहतर बनाने के लिए "करीब-करीब" ग्रंथों का उपयोगी प्रीप्रोसेसिंग हो सकता है
EngrStudent - Reinst Monica

मुझे # 1 ( Sci.utah.edu/~weiliu/research/clustering_fmri/… ) के लिंक पर "प्रवेश वर्जित" मिलता है
डेविड डोरिया

@ दाविद - मुझे भी। हमेशा गति में है ... इंटरनेट? कृपया एक क्षण।
EngrStudent -

1
कुछ हिचकिचाहट के बाद मैंने वर्तमान में इस उत्तर को छोड़ना चुना। यह केवल "दादी" की व्याख्या नहीं है, यह अभेद्य है। radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that clusterसिर्फ गलत या कुंद लगता है। में both uniform and minimal the angle between components"घटक" परिभाषित नहीं है। मुझे आशा है कि यदि आप इसे थोड़ा और कठोर और विस्तारित करते हैं, तो आप संभावित महान उत्तर को बेहतर बना सकते हैं।
ttnphns
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.