Word2Vec का स्किप-ग्राम मॉडल आउटपुट वैक्टर कैसे उत्पन्न करता है?


11

मुझे Word2Vec एल्गोरिथ्म के स्किप-ग्राम मॉडल को समझने में समस्या हो रही है।

निरंतर बैग में शब्दों को देखना आसान है कि संदर्भ शब्द तंत्रिका नेटवर्क में "फिट" कैसे हो सकते हैं, क्योंकि आप मूल रूप से इनपुट मैट्रिक्स डब्ल्यू के साथ एक-गर्म एन्कोडिंग अभ्यावेदन के प्रत्येक को गुणा करने के बाद उन्हें औसत करते हैं।

हालाँकि, स्किप-ग्राम के मामले में, आप केवल इनपुट शब्द वेक्टर को इनपुट मैट्रिक्स के साथ एक-गर्म एन्कोडिंग को गुणा करके प्राप्त करते हैं और फिर आपको सी (= विंडो आकार) वैक्टर का प्रतिनिधित्व करने के लिए संदर्भ शब्दों को गुणा करके मान लिया जाता है। आउटपुट वेक्टर W 'के साथ इनपुट वेक्टर प्रतिनिधित्व।

आकार की शब्दावली है, क्या मेरा मतलब है और आकार के एनकोडिंग एन , डब्ल्यू आर वी × एन इनपुट मैट्रिक्स और डब्ल्यू 'आर एन × वी उत्पादन मैट्रिक्स के रूप में। शब्द को देखते हुए डब्ल्यू मैं एक गर्म एन्कोडिंग के साथ x मैं संदर्भ शब्दों के साथ डब्ल्यू जे और डब्ल्यू एच (एक गर्म प्रतिनिधि के साथ एक्स जे और एक्स एच ), यदि आप गुणा x मैं इनपुट मैट्रिक्स द्वारा डब्ल्यू आपको मिल :VNWRV×NWRN×VwixiwjwhxjxhxiW , अब तुम कैसे बनाऊँ सी इस से स्कोर वैक्टर?h:=xiTW=W(i,)RNC

जवाबों:


7

मुझे इसे समझने में समान समस्या थी। ऐसा लगता है कि आउटपुट स्कोर वेक्टर सभी सी शब्दों के लिए समान होगा। लेकिन प्रत्येक एक-गर्म प्रतिनिधित्व वाले वैक्टर के साथ त्रुटि का अंतर अलग होगा। इस प्रकार वेट को अपडेट करने के लिए एरर वेक्टर्स को बैक-प्रोपोगेशन में उपयोग किया जाता है।

मुझे सही जवाब दो अगर मैं गलत हूँ।

स्रोत: https://iksinc.wordpress.com/tag/skip-gram-model/


WRN×(VC)

0

दोनों मॉडलों में आउटपुट स्कोर आपके द्वारा उपयोग किए जाने वाले स्कोर फ़ंक्शन पर निर्भर करता है। सॉफ्टमैक्स या निगेटिव सैंपलिंग के दो स्कोर फंक्शन हो सकते हैं। इसलिए आप सॉफ्टमैक्स स्कोर फंक्शन का उपयोग करें। आपको एन * डी का स्कोर फ़ंक्शन आकार मिलेगा। यहाँ D एक शब्द वेक्टर का आयाम है। एन उदाहरणों की संख्या है। प्रत्येक शब्द तंत्रिका जाल वास्तुकला में एक वर्ग की तरह है।


0

kthkth

प्रत्येक शब्द के अंकों की गणना निम्नलिखित समीकरण द्वारा की जाती है।

u=WTh

Wu CC

p(wc,j=wO,c|wI)=expuc,jj=1Vexpuj

C

uC

References:

  • जिन रोंग, Word2Vec पैरामीटर लर्निंग समझाया

तो डब्ल्यू मैट्रिक्स अनिवार्य रूप से शब्द वैक्टर (एल्गोरिदम का आउटपुट) है, और डब्ल्यू 'एक पूरी तरह से अलग मैट्रिक्स है जिसे हम फेंक देते हैं?
नादव बी

डब्ल्यू 'भी शब्द वेक्टर हैं जो समान रूप से अच्छे हैं।
user3108764

1
p(wc,j=wO,c|wI)=expuc,jj=1Vexpuj=expujj=1Vexpuj
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.