Word2Vec के लिए एक बेहतर इनपुट क्या है?

22

यह सामान्य एनएलपी प्रश्न की तरह अधिक है। Word2Vec नाम के शब्द एम्बेड करने के लिए उपयुक्त इनपुट क्या है? क्या लेख से संबंधित सभी वाक्य एक कॉर्पस में एक अलग दस्तावेज़ होना चाहिए? या कहा कि प्रत्येक लेख में एक दस्तावेज होना चाहिए? यह अजगर और जेनसिम का उपयोग करने के लिए सिर्फ एक उदाहरण है।

कॉर्पस वाक्य से विभाजित:

SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
                  ["second", "sentence", "of", "the", "first", "article."],
                  ["first", "sentence", "of", "the", "second", "article."],
                  ["second", "sentence", "of", "the", "second", "article."]]

कॉर्पस लेख द्वारा विभाजित:

ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
                  "second", "sentence", "of", "the", "first", "article."],
                 ["first", "sentence", "of", "the", "second", "article.",
                  "second", "sentence", "of", "the", "second", "article."]]

प्रशिक्षण वर्ड 2 वी पायथन में:

from gensim.models import Word2Vec

wikiWord2Vec = Word2Vec(ArticleCorpus)

nlp word-embeddings

— wacax
स्रोत

14

इस प्रश्न का उत्तर यह है कि यह निर्भर करता है । प्राथमिक दृष्टिकोण टोकन वाक्यों को पारित करने के लिए है (इसलिए SentenceCorpusआपके उदाहरण में), लेकिन यह इस बात पर निर्भर करता है कि आपका लक्ष्य क्या है और कॉर्पस आप क्या देख रहे हैं, आप इसके बजाय एम्बेडिंग सीखने के लिए पूरे लेख का उपयोग करना चाह सकते हैं। यह कुछ ऐसा है जिसे आप समय से पहले नहीं जान सकते - इसलिए आपको यह सोचना होगा कि आप एम्बेडिंग की गुणवत्ता का मूल्यांकन कैसे करना चाहते हैं, और यह देखने के लिए कुछ प्रयोग करें कि एम्बेडिंग का कौन सा प्रकार आपके कार्य के लिए अधिक उपयोगी है ( रों)।

— NBartley
स्रोत

सही मौके पर। मैंने एक मॉडल में एम्बेडिंग का उपयोग किया और, जैसा कि आपने उल्लेख किया है, जब मैंने पूरे लेख का उपयोग किया था तो मॉडल के पूर्वानुमान प्रदर्शन में एक बड़ा सुधार था। तो किस मामले में सजा से प्रशिक्षण बेहतर होगा।

— वैक्सैक्स

1

आपको देखना चाहिए और देखना चाहिए कि कैसे समान वैक्टर वाले शब्द एक दूसरे से संबंधित हैं। संदर्भ विंडो के आकार और संदर्भ के प्रकार पर कुछ काम किया गया है जो बताता है कि छोटी खिड़कियां (और शायद छोटे दस्तावेज़ आकार, जैसे वाक्य), ऐसे शब्द बना सकते हैं जो कार्यात्मक रूप से समान (यूएस राज्यों की तरह) शीर्ष पर समान रूप से समान हों ( अमेरिका के राज्यों और सरकार से संबंधित शब्दों की तरह) अधिक समान वैक्टर हैं। मैं ज्यादातर 2014 से ओमर लेवी और योव गोल्डबर्ग की डिपेंडेंसी-बेस्ड वर्ड एंबेडिंग का हवाला दे रहा हूं। हालांकि मुझसे गलती हो सकती है और अगर ऐसा है तो इसे ठीक किया जाएगा।

— NBartley

1

@ NBartley के उत्तर के पूरक के रूप में। किसी को भी इस सवाल का सामना करना पड़ता है। मैंने स्पार्क2.2 पर word2vec के इनपुट के रूप में लेख / वाक्य का उपयोग करने की कोशिश की है, परिणाम के रूप में।

इनपुट के रूप में वाक्य का उपयोग करें :

लेख को इनपुट के रूप में उपयोग करें :

— जाकारी
स्रोत

0

पूर्व के लिए, gensim में Word2Vec वर्ग है। बाद के लिए, Doc2Vec।

http://rare-technologies.com/doc2vec-tutorial/

3

doc2vec वाक्यों के बजाय लेखों के कोष पर word2vec करने से काफी भिन्न है। doc2vec केवल शब्दों के बजाय लेखों के अभ्यावेदन सीखेंगे।

— jamesmf