मैं निचले आयामी स्थान में दस्तावेजों के एक कोष का प्रतिनिधित्व करने के लिए अव्यक्त अर्थ विश्लेषण का उपयोग कर रहा हूं। मैं k- साधनों का उपयोग करके इन दस्तावेजों को दो समूहों में बांटना चाहता हूं।
कई साल पहले, मैंने पायथन के गेंसिम का उपयोग करके और अपने स्वयं के k- साधन एल्गोरिथ्म को लिखने के लिए ऐसा किया था। मैंने यूक्लिडियन दूरी का उपयोग करते हुए क्लस्टर सेंट्रोइड्स का निर्धारण किया, लेकिन फिर प्रत्येक दस्तावेज को कोसोनर समानता पर केन्द्रित किया। यह बहुत अच्छा काम करने के लिए लग रहा था।
अब मैं दस्तावेजों के बहुत बड़े कोष पर यह करने की कोशिश कर रहा हूं। K- साधन अभिसरण नहीं है, और मुझे आश्चर्य हो रहा है कि क्या यह मेरे कोड में बग है। मैंने हाल ही में पढ़ा कि आपको कॉशन समानता का उपयोग करके क्लस्टर नहीं करना चाहिए , क्योंकि k- का मतलब केवल यूक्लिडियन दूरी पर काम करता है। हालांकि, जैसा कि मैंने उल्लेख किया है, यह मेरे छोटे परीक्षण के मामले में ठीक काम करता दिखाई दिया।
अब मैं इसे लेसा विकिपीडिया पृष्ठ पर आता हूँ :
दस्तावेज़ और शब्द वेक्टर अभ्यावेदन को क्लस्टिन जैसे समानता उपायों का उपयोग करते हुए पारंपरिक क्लस्टरिंग एल्गोरिदम जैसे कि-मीन्स का उपयोग करके क्लस्टर किया जा सकता है।
तो कौन सा है? क्या मैं कॉशन समानता का उपयोग कर सकता हूं या नहीं?
I then assigned each document to a cluster based on cosine similarity
- एक डॉक्टर और एक केन्द्रक के बीच कोसाइन? और सभी डॉक्स असाइन किए जाने के बाद आप एक सामान्य (यूक्लिडियन) तरीके से सेंट्रोइड्स को अपडेट करते हैं, क्योंकि अंतरिक्ष में डॉक्स के निर्देशांक ज्ञात हैं। ऐसा क्या?