चूँकि आप gensim का उपयोग कर रहे हैं, आपको संभवतः इसे doc2vec कार्यान्वयन का उपयोग करना चाहिए। doc2vec वाक्यांश-, वाक्य-, और दस्तावेज़-स्तर के लिए शब्द 2vec का विस्तार है। यह एक बहुत ही सरल विस्तार है, यहाँ वर्णित है
http://cs.stanford.edu/~quocle/paragraph_vector.pdf
Gensim अच्छा है क्योंकि यह सहज, तेज और लचीला है। क्या महान है कि आप आधिकारिक वर्ड 2vec पेज से प्रीट्रेन किए गए शब्द एम्बेडिंग को पकड़ सकते हैं और gensim के Doc2Vec मॉडल की syn0 परत को उजागर किया जाता है ताकि आप इन उच्च गुणवत्ता वाले वैक्टर के साथ शब्द एम्बेडिंग को बीज कर सकें!
GoogleNews-vectors-negative300.bin.gz ( Google कोड में लिंक किया गया )
मुझे लगता है कि gensim निश्चित रूप से सबसे आसान (और अब तक मेरे लिए, सबसे अच्छा) एक वेक्टर अंतरिक्ष में एक वाक्य एम्बेड करने के लिए उपकरण है।
ऊपर दिए गए Le & Mikolov के पेपर में प्रस्तावित की तुलना में अन्य वाक्य-से-वेक्टर तकनीक मौजूद हैं। स्टैनफोर्ड से सोचर और मैनिंग निश्चित रूप से इस क्षेत्र में काम करने वाले सबसे प्रसिद्ध शोधकर्ताओं में से दो हैं। उनका काम रचना के सिद्धांत पर आधारित है - वाक्य के शब्दार्थ से आते हैं:
1. semantics of the words
2. rules for how these words interact and combine into phrases
उन्होंने वाक्य-स्तर के निरूपण के निर्माण के लिए रचनाधर्मिता का उपयोग करने के लिए कुछ ऐसे मॉडल (तेजी से और अधिक जटिल होते हुए) प्रस्तावित किए हैं।
2011 - पुनरावर्ती ऑटोकेनोडर को खोलना (बहुत तुलनात्मक रूप से सरल। यदि रुचि हो तो यहां शुरू करें)
2012 - मैट्रिक्स-वेक्टर तंत्रिका नेटवर्क
2013 - तंत्रिका टेंसर नेटवर्क
2015 - ट्री एलएसटीएम
उसके कागजात socher.org पर उपलब्ध हैं। इन मॉडलों में से कुछ उपलब्ध हैं, लेकिन मैं अभी भी gensim के doc2vec की सिफारिश करूंगा। एक के लिए, 2011 URAE विशेष रूप से शक्तिशाली नहीं है। इसके अलावा, यह न्यूज़-वाई डेटा को पैराफ्रेसिंग के लिए उपयुक्त वेट के साथ ढाला जाता है। वह जो कोड प्रदान करता है, वह आपको नेटवर्क को वापस करने की अनुमति नहीं देता है। आप अलग-अलग शब्द वैक्टर में स्वैप भी नहीं कर सकते हैं, इसलिए आप ट्यूरियन से 2011 के पूर्व-वर्ड 2vec एम्बेडिंग के साथ फंस गए हैं। ये वैक्टर निश्चित रूप से शब्द 2vec या GloVe's के स्तर पर नहीं हैं।
ट्री LSTM के साथ अभी तक काम नहीं किया है, लेकिन यह बहुत आशाजनक लगता है!
tl; डॉ। हाँ, गेंसिम के doc2vec का उपयोग करें। लेकिन अन्य तरीके मौजूद हैं!