Word2Vec और Doc2Vec दोनों वितरणात्मक प्रतिनिधित्व या वितरित प्रतिनिधित्व हैं?


10

मैंने पढ़ा है कि वितरणात्मक प्रतिनिधित्व वितरण संबंधी परिकल्पना पर आधारित है जो समान संदर्भ में होने वाले शब्दों के समान अर्थ रखता है।

Word2Vec और Doc2Vec दोनों इसी परिकल्पना के अनुसार बनाए गए हैं। लेकिन, मूल पेपर में, यहां तक ​​कि उन्हें शीर्षक के रूप में Distributed representation of words and phrasesऔर Distributed representation of sentences and documents। तो, क्या ये एल्गोरिदम वितरणात्मक प्रतिनिधित्व या वितरित प्रतिनिधित्व पर आधारित हैं।

कैसे अन्य मॉडल जैसे कि एलडीए और एलएसए।

जवाबों:


5

प्रभावी रूप से, Word2Vec / Doc2Vec इस बात पर आधारित है distributional hypothesisकि प्रत्येक शब्द के लिए संदर्भ उसके पास के शब्द कहां हैं। इसी तरह, एलएसए पूरे दस्तावेज को संदर्भ के रूप में लेता है। दोनों तकनीकें word embeddingसमस्या को हल करती हैं - शब्द को निरंतर वेक्टर स्थान में एम्बेड करती हैं जबकि शब्द से संबंधित शब्दों को एक साथ पास रखती हैं।

दूसरी ओर, LDA समान समस्या को हल करने के लिए नहीं बना है। वे नामक एक अलग समस्या से निपटते हैं topic modeling, जो दस्तावेजों के एक सेट में अव्यक्त विषयों को ढूंढ रहा है।


मुझे यह कहते हुए Google समूहों से जवाब मिला कि इसके दोनों अलग-अलग दृष्टिकोणों में वितरित और वितरित हैं। वेक्टर अंतरिक्ष में वितरित सुविधाओं के संदर्भ में उपयोग और वितरित की गई परिकल्पना के संदर्भ में वितरण।
यज़ीह

हाँ, प्रतिनिधित्व इस अर्थ में वितरित किया जाता है कि एक शब्द वेक्टर कई अवधारणाओं को कैप्चर कर रहा है, प्रत्येक अवधारणा स्वयं एक वेक्टर है। उदाहरण के लिए: लिंग में दो अवधारणाओं को पकड़ सकता है और , v q u e e n लिंग में पकड़ लेता है और । इसलिए v कश्मीर मैं एन जी - वी क्यू यू एन ~ वी मीटर एक एन - वी डब्ल्यू मीटर एक एनvkingmaleroyalvqueenfemaleroyalvkingvqueenvmanvwoman
Tu एन

2

ट्यूरियन, जोसेफ, लेव रतिनोव और योशुआ बेंगियो। " शब्द निरूपण: अर्द्ध-पर्यवेक्षित सीखने के लिए एक सरल और सामान्य विधि ।" कम्प्यूटेशनल भाषा विज्ञान के लिए एसोसिएशन की 48 वीं वार्षिक बैठक की कार्यवाही। कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन, 2010. वितरणात्मक अभ्यावेदन और वितरित अभ्यावेदन निम्नानुसार परिभाषित करते हैं:

  • एक वितरण शब्द प्रतिनिधित्व एक cooccurrence मैट्रिक्स एफ पर आधारित हैFW×CWFwwFcFFwWFwFd<<CFwwdgF

  • एक वितरित प्रतिनिधित्व घने, कम-आयामी और वास्तविक-मूल्यवान है। वितरित शब्द निरूपण को शब्द एम्बेडिंग कहा जाता है। एम्बेडिंग का प्रत्येक आयाम शब्द की एक अव्यक्त विशेषता का प्रतिनिधित्व करता है, उम्मीद है कि उपयोगी वाक्य रचना और अर्थ गुणों को कैप्चर कर रहा है। एक वितरित प्रतिनिधित्व कॉम्पैक्ट है, इस अर्थ में कि यह आयामों की संख्या में समूहों की एक घातीय संख्या का प्रतिनिधित्व कर सकता है।

FYI करें: शब्द वैक्टर, शब्द अभ्यावेदन और वेक्टर एम्बेडिंग में क्या अंतर है?


2
जवाब में भी वही भ्रम बना हुआ है। इसमें दोनों प्रतिनिधित्व से गुण हैं। आइए देखें कि इसमें क्या है। Distributional: इसका आकार WxC का एक मैट्रिक्स है और फिर इसका Wxd कम हो जाता है, जहाँ d एम्बेडिंग वेक्टर आकार है। यह संदर्भ निर्धारित करने के लिए विंडो आकार का उपयोग करता है। Distributed: घने, कम आयामी वैक्टर। यह उन आयामों में अव्यक्त सुविधाओं (अर्थ गुण) को संरक्षित करता है।
यज़ीह

2

गूगल समूहों के माध्यम से एंड्री कुतुज़ोव का जवाब संतोषजनक लगा

मैं कहूंगा कि word2vec एल्गोरिदम दोनों पर आधारित हैं।

जब लोग कहते हैं distributional representation, वे आमतौर पर भाषाई पहलू का अर्थ करते हैं: अर्थ संदर्भ है, शब्द को इसकी कंपनी और अन्य प्रसिद्ध उद्धरणों से जानते हैं।

लेकिन जब लोग कहते हैं distributed representation, इसका ज्यादातर भाषाविज्ञान से कोई लेना-देना नहीं है। यह कंप्यूटर विज्ञान के पहलू के बारे में अधिक है। यदि मैं मिकोलोव और अन्य को सही ढंग से समझता हूं, तो distributedउनके पत्रों में शब्द का अर्थ है कि वेक्टर प्रतिनिधित्व के प्रत्येक एकल घटक का अपना कोई मतलब नहीं है। व्याख्या करने योग्य विशेषताएं (उदाहरण के लिए, word2vec के मामले में शब्द संदर्भ) छिपे हुए हैं और निर्विवाद distributedवेक्टर घटकों में से हैं: प्रत्येक घटक कई व्याख्यात्मक सुविधाओं के लिए जिम्मेदार है, और प्रत्येक व्याख्यात्मक विशेषता कई घटकों के लिए बाध्य है।

तो, शब्द 2vec (और doc2vec) लेक्सिकल शब्दार्थ का प्रतिनिधित्व करने के तरीके के रूप में तकनीकी रूप से वितरित प्रतिनिधित्व का उपयोग करता है। और साथ ही यह वैचारिक रूप से वितरण संबंधी परिकल्पना पर आधारित है: यह केवल इसलिए काम करता है क्योंकि वितरण की परिकल्पना सत्य है (शब्द का अर्थ अपने विशिष्ट संदर्भों के साथ सहसंबंधी है)।

लेकिन निश्चित रूप से अक्सर शब्दों का उपयोग किया जाता है distributedऔर distributionalपरस्पर उपयोग किया जाता है, गलतफहमी बढ़ जाती है :)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.