मैं एक परियोजना के लिए अव्यक्त डिरिचलेट आवंटन का उपयोग करना चाहता हूं और मैं gensim पुस्तकालय के साथ पायथन का उपयोग कर रहा हूं। विषयों को खोजने के बाद, मैं एक एल्गोरिथ्म का उपयोग करके दस्तावेजों को क्लस्टर करना चाहूंगा जैसे कि के-मीन्स (आदर्श रूप से मैं क्लस्टर्स को ओवरलैप करने के लिए एक अच्छा उपयोग करना चाहूंगा ताकि किसी भी सिफारिश का स्वागत किया जाए)। मैं विषयों को प्राप्त करने में कामयाब रहा, लेकिन वे इस रूप में हैं:
0.041 * मंत्री + 0.041 * कुंजी + 0.041 * क्षण + 0.041 * विवादास्पद + 0.041 * प्रधान
एक क्लस्टरिंग एल्गोरिथ्म को लागू करने के लिए, और अगर मैं गलत हूं तो मुझे सही करें, मेरा मानना है कि मुझे प्रत्येक शब्द को एक संख्या के रूप में या तो tfidf या word2vec का उपयोग करके पता लगाना चाहिए।
क्या आपके पास कोई विचार है कि मैं उदाहरण के लिए एक सूची से पाठ्य सूचना को कैसे "स्ट्रिप" कर सकता हूं, ताकि ऐसा करने के लिए और फिर उन्हें उचित गुणा करने के लिए वापस जगह मिल सके?
उदाहरण के लिए, जिस तरह से मैं इसे देखता हूं, यदि शब्द मंत्री के पास 0.042 का वजनदार वजन है और इसी तरह किसी अन्य शब्द के लिए मुझे इस विषय में कुछ गणना करनी चाहिए:
०.०४१ * ०.४२ + ... + ०.०४१ * tfidf (प्राइम) और एक परिणाम प्राप्त करें जो बाद में परिणाम क्लस्टर करने के लिए उपयोग किया जाएगा।
आपके समय के लिए शुक्रिया।