मैं दस्तावेजों के बीच समानताएं खोजने के लिए अव्यक्त अर्थ इंडेक्सिंग का उपयोग कर रहा हूं ( धन्यवाद, जेएमएस! )
आयाम में कमी के बाद, मैंने दस्तावेजों को समूह में क्लस्टर करने के लिए k-mean clustering की कोशिश की है, जो बहुत अच्छी तरह से काम करता है। लेकिन मैं थोड़ा और आगे जाना चाहता हूं, और दस्तावेजों को नोड्स के एक सेट के रूप में कल्पना करना चाहता हूं, जहां किसी भी दो नोड्स के बीच की दूरी उनकी समानता के विपरीत आनुपातिक है (नोड्स जो समान हैं एक साथ करीब हैं)।
यह मुझे बताता है कि मैं अपने डेटा> 2 आयामों के बाद से 2-आयामी ग्राफ़ में समानता मैट्रिक्स को ठीक से कम नहीं कर सकता। तो मेरा पहला सवाल: क्या ऐसा करने का कोई मानक तरीका है?
क्या मैं अपने डेटा को केवल दो आयामों तक कम कर सकता हूं और फिर उन्हें एक्स और वाई अक्ष के रूप में प्लॉट कर सकता हूं, और क्या यह ~ 200-200 दस्तावेजों के समूह के लिए पर्याप्त होगा? यदि यह समाधान है, तो क्या मेरे डेटा को शुरू से 2 आयामों तक कम करना बेहतर है, या क्या मेरे बहुआयामी डेटा से दो "सर्वश्रेष्ठ" आयाम चुनने का कोई तरीका है?
मैं अजगर और gensim पुस्तकालय का उपयोग कर रहा हूँ अगर यह एक फर्क पड़ता है।