Word2vec दो मॉडल CBOW और स्किप-ग्राम में काम करता है। चलो सीबीओओ मॉडल लेते हैं, क्योंकि आपका प्रश्न उसी तरह से जाता है जो लक्ष्य शब्द की भविष्यवाणी करता है, आसपास के शब्दों को देखते हुए।
मूल रूप से, मॉडल इनपुट और आउटपुट वेट मैट्रिसेस विकसित करता है, जो एक छिपी हुई परत की मदद से इनपुट संदर्भ शब्द और आउटपुट लक्ष्य शब्द पर निर्भर करता है। इस प्रकार बैक-प्रोपेगेशन का उपयोग वज़न को अपडेट करने के लिए किया जाता है जब अनुमानित आउटपुट वेक्टर और वर्तमान आउटपुट मैट्रिक्स के बीच त्रुटि अंतर होता है।
मूल रूप से, दिए गए डेटा के लिए इष्टतम भार मैट्रिक्स प्राप्त करने के लिए दिए गए संदर्भ शब्दों से लक्ष्य शब्द की भविष्यवाणी करना समीकरण के रूप में उपयोग किया जाता है।
दूसरे भाग का उत्तर देने के लिए, यह एक रैखिक योग की तुलना में थोड़ा जटिल लगता है।
- संदर्भ शब्दों के सभी शब्द वैक्टर प्राप्त करें
h
आकार की छिपी हुई परत वेक्टर का पता लगाने के लिए उनका औसतNx1
- आउटपुट मैट्रिक्स
syn1
( word2vec.c
या gensim
) प्राप्त करें जो आकार का होVxN
- गुणा
syn1
करके h
, परिणामी वेक्टर z
आकार के साथ होगाVx1
y = softmax(z)
आकार के साथ संभाव्यता वेक्टर की गणना करें Vx1
, जहां उच्चतम संभावना शब्दावली में लक्ष्य शब्द के एक-गर्म प्रतिनिधित्व को दर्शाती है।
V
शब्दावली के आकार को N
दर्शाता है और एम्बेडिंग वेक्टर के आकार को दर्शाता है।
स्रोत: http://cs224d.stanford.edu/lecture_notes/LectureNotes1.pdf
अपडेट: दीर्घकालिक अल्पकालिक स्मृति मॉडल वर्तमान में अगले शब्दों की भविष्यवाणी करने में एक महान काम कर रहे हैं। seq2seq मॉडल को टेंसोफ़्लो ट्यूटोरियल में समझाया गया है । टेक्स्ट जनरेशन के बारे में एक ब्लॉग पोस्ट भी है ।