Word2Vec बनाम सेंटेंस 2Vec बनाम Doc2Vec


18

मैं हाल ही में मामले में आए Word2Vec , Sentence2Vec और Doc2Vec और उलझन के रूप में मैं वेक्टर शब्दों के नया हूँ की तरह। क्या कोई सरल शब्दों में इन विधियों में अंतर को विस्तृत कर सकता है। प्रत्येक विधि के लिए सबसे उपयुक्त कार्य क्या हैं?

जवाबों:


22

वैसे नाम बहुत सीधे हैं और आपको सदिश अभ्यावेदन का स्पष्ट विचार देना चाहिए।

Word2Vec एल्गोरिथ्म शब्दों के शब्दार्थ प्रतिनिधित्व का निर्माण करता है। प्रशिक्षण के लिए दो मुख्य दृष्टिकोण हैं, डिस्ट्रीब्यूटेड बैग ऑफ़ वर्ड्स और द स्किप ग्राम मॉडल। एक में केंद्र शब्द का उपयोग करके संदर्भ शब्दों की भविष्यवाणी करना शामिल है, जबकि दूसरे में संदर्भ शब्दों का उपयोग करते हुए शब्द की भविष्यवाणी करना शामिल है। आप इसके बारे में मिकोलोव के पेपर में बहुत विस्तार से पढ़ सकते हैं ।

एक ही विचार को वाक्यों और पूर्ण दस्तावेज़ों के लिए बढ़ाया जा सकता है, जहाँ शब्दों के लिए फीचर अभ्यावेदन सीखने के बजाय, आप इसे वाक्यों या दस्तावेज़ों के लिए सीखते हैं। हालाँकि, एक SentenceToVec का एक सामान्य विचार प्राप्त करने के लिए, इसे वाक्य में सभी शब्दों के सदिश निरूपण के गणितीय औसत के रूप में सोचें। आप सिर्फ औसत से और बिना किसी सेंटेंसटॉवी के प्रशिक्षण के बिना एक बहुत अच्छा अनुमान प्राप्त कर सकते हैं लेकिन निश्चित रूप से, इसकी सीमाएं हैं।

Doc2Vec SentenceToVec या Word2Vec के विचार का विस्तार करता है क्योंकि वाक्यों को दस्तावेजों के रूप में भी माना जा सकता है। प्रशिक्षण का विचार समान है। आप अधिक जानकारी के लिए मिकोलोव के डॉक 2 वी पेपर को पढ़ सकते हैं ।

अनुप्रयोगों के लिए आ रहा है, यह कार्य पर निर्भर करेगा। एक Word2Vec प्रभावी रूप से शब्दों के बीच शब्दार्थ संबंधों को पकड़ता है इसलिए शब्द समानता की गणना करने के लिए इस्तेमाल किया जा सकता है या विभिन्न एनएलपी कार्यों जैसे कि भावना विश्लेषण आदि को खिलाया जा सकता है। हालांकि शब्द केवल इतना ही कब्जा कर सकते हैं, ऐसे समय होते हैं जब आपको वाक्यों और दस्तावेजों के बीच संबंधों की आवश्यकता होती है। सिर्फ शब्द नहीं। उदाहरण के लिए, यदि आप यह पता लगाने की कोशिश कर रहे हैं कि क्या दो स्टैक ओवरफ्लो प्रश्न एक दूसरे के डुप्लिकेट हैं।

एक साधारण Google खोज आपको इन एल्गोरिदम के कई अनुप्रयोगों तक ले जाएगी।


औसत शब्द वैक्टर और doc2vec के उपयोग के बीच क्या अंतर है, फिर? वेक्टर का निर्माण करते समय वाक्य में एक शब्द के परिवेश के लिए doc2vec खाता है (जबकि शब्द 2vec नहीं है)?
जॉन स्ट्रॉड

1
Doc2Vec शब्दों के साथ दस्तावेज़ के लिए यादृच्छिक रूप से प्रारंभिक वेक्टर सीखता है, (दस्तावेज़ एक वाक्य हो सकता है)। मैन्युअल रूप से औसत शब्द वैक्टर एक ही क्षमता के लिए प्रदर्शन नहीं करते हैं क्योंकि यह पूरे दस्तावेज़ से सीखने में विफल रहता है। दस्तावेज़ समानता आदि के साथ काम करते समय हाल ही में पैराग्राम वैक्टर का बहुत उपयोग किया गया है
हिमांशु राय
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.