Word2Vec के लिए एक बेहतर इनपुट क्या है?


22

यह सामान्य एनएलपी प्रश्न की तरह अधिक है। Word2Vec नाम के शब्द एम्बेड करने के लिए उपयुक्त इनपुट क्या है? क्या लेख से संबंधित सभी वाक्य एक कॉर्पस में एक अलग दस्तावेज़ होना चाहिए? या कहा कि प्रत्येक लेख में एक दस्तावेज होना चाहिए? यह अजगर और जेनसिम का उपयोग करने के लिए सिर्फ एक उदाहरण है।

कॉर्पस वाक्य से विभाजित:

SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
                  ["second", "sentence", "of", "the", "first", "article."],
                  ["first", "sentence", "of", "the", "second", "article."],
                  ["second", "sentence", "of", "the", "second", "article."]]

कॉर्पस लेख द्वारा विभाजित:

ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
                  "second", "sentence", "of", "the", "first", "article."],
                 ["first", "sentence", "of", "the", "second", "article.",
                  "second", "sentence", "of", "the", "second", "article."]]

प्रशिक्षण वर्ड 2 वी पायथन में:

from gensim.models import Word2Vec

wikiWord2Vec = Word2Vec(ArticleCorpus)

जवाबों:


14

इस प्रश्न का उत्तर यह है कि यह निर्भर करता है । प्राथमिक दृष्टिकोण टोकन वाक्यों को पारित करने के लिए है (इसलिए SentenceCorpusआपके उदाहरण में), लेकिन यह इस बात पर निर्भर करता है कि आपका लक्ष्य क्या है और कॉर्पस आप क्या देख रहे हैं, आप इसके बजाय एम्बेडिंग सीखने के लिए पूरे लेख का उपयोग करना चाह सकते हैं। यह कुछ ऐसा है जिसे आप समय से पहले नहीं जान सकते - इसलिए आपको यह सोचना होगा कि आप एम्बेडिंग की गुणवत्ता का मूल्यांकन कैसे करना चाहते हैं, और यह देखने के लिए कुछ प्रयोग करें कि एम्बेडिंग का कौन सा प्रकार आपके कार्य के लिए अधिक उपयोगी है ( रों)।


सही मौके पर। मैंने एक मॉडल में एम्बेडिंग का उपयोग किया और, जैसा कि आपने उल्लेख किया है, जब मैंने पूरे लेख का उपयोग किया था तो मॉडल के पूर्वानुमान प्रदर्शन में एक बड़ा सुधार था। तो किस मामले में सजा से प्रशिक्षण बेहतर होगा।
वैक्सैक्स

1
आपको देखना चाहिए और देखना चाहिए कि कैसे समान वैक्टर वाले शब्द एक दूसरे से संबंधित हैं। संदर्भ विंडो के आकार और संदर्भ के प्रकार पर कुछ काम किया गया है जो बताता है कि छोटी खिड़कियां (और शायद छोटे दस्तावेज़ आकार, जैसे वाक्य), ऐसे शब्द बना सकते हैं जो कार्यात्मक रूप से समान (यूएस राज्यों की तरह) शीर्ष पर समान रूप से समान हों ( अमेरिका के राज्यों और सरकार से संबंधित शब्दों की तरह) अधिक समान वैक्टर हैं। मैं ज्यादातर 2014 से ओमर लेवी और योव गोल्डबर्ग की डिपेंडेंसी-बेस्ड वर्ड एंबेडिंग का हवाला दे रहा हूं। हालांकि मुझसे गलती हो सकती है और अगर ऐसा है तो इसे ठीक किया जाएगा।
NBartley

1

@ NBartley के उत्तर के पूरक के रूप में। किसी को भी इस सवाल का सामना करना पड़ता है। मैंने स्पार्क2.2 पर word2vec के इनपुट के रूप में लेख / वाक्य का उपयोग करने की कोशिश की है, परिणाम के रूप में।

इनपुट के रूप में वाक्य का उपयोग करें :

यहां छवि विवरण दर्ज करें

लेख को इनपुट के रूप में उपयोग करें :

यहां छवि विवरण दर्ज करें


0

पूर्व के लिए, gensim में Word2Vec वर्ग है। बाद के लिए, Doc2Vec।

http://rare-technologies.com/doc2vec-tutorial/


3
doc2vec वाक्यों के बजाय लेखों के कोष पर word2vec करने से काफी भिन्न है। doc2vec केवल शब्दों के बजाय लेखों के अभ्यावेदन सीखेंगे।
jamesmf
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.