प्रश्न है:
शास्त्रीय k- साधनों और गोलाकार k- साधनों में क्या अंतर है?
क्लासिक K- साधन:
क्लासिक k- साधनों में, हम क्लस्टर केंद्र और क्लस्टर के सदस्यों के बीच एक यूक्लिडियन दूरी को कम करना चाहते हैं। इसके पीछे अंतर्ज्ञान यह है कि क्लस्टर-केंद्र से तत्व स्थान तक की रेडियल दूरी उस क्लस्टर के सभी तत्वों के लिए "समरूपता" या "समान" होनी चाहिए।
एल्गोरिथ्म है:
- समूहों की संख्या (उर्फ क्लस्टर गिनती)
- क्लस्टर सूचकांकों के लिए अंतरिक्ष में बेतरतीब ढंग से असाइनमेंट द्वारा प्रारंभिक
- एकाग्र होने तक दोहराएं
- प्रत्येक बिंदु के लिए निकटतम क्लस्टर खोजें और क्लस्टर के लिए पॉइंट असाइन करें
- प्रत्येक क्लस्टर के लिए, सदस्य बिंदुओं और अद्यतन केंद्र माध्य का मतलब ढूंढें
- त्रुटि क्लस्टर की दूरी का मानदंड है
गोलाकार K- साधन:
गोलाकार k- साधनों में, विचार प्रत्येक क्लस्टर के केंद्र को सेट करने के लिए होता है जैसे कि यह दोनों घटकों के बीच एक समान और न्यूनतम कोण बनाता है। अंतर्ज्ञान सितारों को देखने जैसा है - अंक में एक दूसरे के बीच लगातार अंतर होना चाहिए। उस अंतर को "कोसाइन समानता" के रूप में निर्धारित करना सरल है, लेकिन इसका मतलब है कि डेटा के आकाश में बड़े उज्ज्वल स्वैथ बनाने वाली कोई "दूधिया-रास्ता" आकाशगंगाएं नहीं हैं। (हां, मैं विवरण के इस भाग में दादी से बात करने की कोशिश कर रहा हूं ।)
अधिक तकनीकी संस्करण:
वैक्टर के बारे में सोचें, जिन चीजों को आप अभिविन्यास वाले तीर के रूप में ग्राफ़ करते हैं, और निश्चित लंबाई। यह कहीं भी अनुवाद किया जा सकता है और एक ही वेक्टर हो सकता है। रेफरी
अंतरिक्ष में बिंदु का अभिविन्यास (एक संदर्भ रेखा से इसका कोण) रेखीय बीजगणित, विशेष रूप से डॉट उत्पाद का उपयोग करके गणना की जा सकती है।
यदि हम सभी डेटा को स्थानांतरित करते हैं ताकि उनकी पूंछ एक ही बिंदु पर हो, तो हम "वैक्टर" की तुलना उनके कोण से कर सकते हैं, और एक ही समूह में समान समूह बना सकते हैं।
स्पष्टता के लिए, वैक्टर की लंबाई को बढ़ाया जाता है, ताकि वे "नेत्रगोलक" की तुलना में आसान हो।
आप इसे एक नक्षत्र के रूप में सोच सकते हैं। एक ही समूह के तारे किसी न किसी अर्थ में एक दूसरे के करीब होते हैं। ये मेरे नेत्रगोलक माने गए नक्षत्र हैं।
सामान्य दृष्टिकोण का मूल्य यह है कि यह हमें वैक्टर को नियंत्रित करने की अनुमति देता है जो अन्यथा कोई ज्यामितीय आयाम नहीं है, जैसे कि tf-idf विधि, जहां वैक्टर दस्तावेजों में शब्द आवृत्तियां हैं। दो "और" शब्द जोड़े गए एक "" के बराबर नहीं है। शब्द गैर-निरंतर और गैर-संख्यात्मक हैं। वे एक ज्यामितीय अर्थ में गैर-भौतिक हैं, लेकिन हम उन्हें ज्यामितीय रूप से नियंत्रित कर सकते हैं, और फिर उन्हें संभालने के लिए ज्यामितीय तरीकों का उपयोग कर सकते हैं। गोलाकार के-साधनों का उपयोग शब्दों के आधार पर क्लस्टर के लिए किया जा सकता है।
तो (2d यादृच्छिक, निरंतर) डेटा यह था:
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢x10−0.80.20.8−0.70.9y1−0.80.10.30.10.20.9x2−0.2013−0.95240.20610.4787−0.72760.748y2−0.73160.3639−0.14340.1530.38250.6793groupBACBAC⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥
कुछ बिंदु:
- वे दस्तावेज़ की लंबाई में अंतर के लिए एक इकाई क्षेत्र के लिए प्रोजेक्ट करते हैं।
चलो एक वास्तविक प्रक्रिया के माध्यम से काम करते हैं, और देखते हैं कि कैसे (खराब) मेरी "नेत्रगोलक" थी।
प्रक्रिया है:
- (समस्या में निहित) मूल पर वैक्टर पूंछ कनेक्ट करें
- इकाई क्षेत्र पर परियोजना (दस्तावेज़ की लंबाई में अंतर के लिए खाते में)
- " कोसाइन डिसिमिलरिटी " को कम करने के लिए क्लस्टरिंग का उपयोग करें
J=∑id(xi,pc(i))
जहाँ
d(x,p)=1−cos(x,p)=⟨x,p⟩∥x∥∥p∥
(अधिक संपादन जल्द ही आ रहे हैं)
लिंक:
- http://epub.wu.ac.at/4000/1/paper.pdf
- http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.8125&rep=rep1&type=pdf
- http://www.cs.gsu.edu/~wkim/index_files/papers/refinehd.pdf
- https://www.jstatsoft.org/article/view/v050i10
- http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-algorithm
- https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/projects/MIT15_097S12_proj1.pdf