सीबीओडब्ल्यू की तुलना में असंगत शब्दों के लिए स्किप-ग्राम बेहतर क्यों है?


19

मुझे आश्चर्य है कि शब्द 2vec में CBOW की तुलना में असंगत शब्दों के लिए स्किप-ग्राम बेहतर क्यों है। मैंने https://code.google.com/p/word2vec/ पर दावा पढ़ा है ।

जवाबों:


14

CBOW में केंद्र शब्द की भविष्यवाणी करने से पहले संदर्भ शब्दों से वैक्टर को औसत किया जाता है। स्किप-ग्राम में एम्बेडिंग वैक्टर का कोई औसत नहीं है। ऐसा लगता है कि मॉडल दुर्लभ शब्दों के लिए बेहतर अभ्यावेदन सीख सकता है जब उनके वैक्टर भविष्यवाणियों को बनाने की प्रक्रिया में अन्य संदर्भ शब्दों के साथ औसतन नहीं होते हैं।


13

यहाँ मेरे अंतर की देखरेख और बल्कि भोली समझ है:

जैसा कि हम जानते हैं, सीबीओडब्ल्यू संदर्भ के द्वारा शब्द की भविष्यवाणी करना सीख रहा है। या संदर्भ को देखकर लक्ष्य शब्द की संभावना को अधिकतम करें। और यह दुर्लभ शब्दों के लिए एक समस्या है। उदाहरण के लिए, संदर्भ दिए गए yesterday was really [...] dayसीबीओडब्ल्यू मॉडल आपको बताएगा कि सबसे शायद शब्द है beautifulया nice। जैसे शब्दों delightfulको मॉडल का बहुत कम ध्यान मिलेगा, क्योंकि यह सबसे संभावित शब्द की भविष्यवाणी करने के लिए डिज़ाइन किया गया है। अधिक शब्दों के साथ बहुत सारे उदाहरणों पर दुर्लभ शब्दों को सुचारू किया जाएगा।

दूसरी ओर, स्किप-ग्राम को संदर्भ की भविष्यवाणी करने के लिए डिज़ाइन किया गया है। शब्द को देखते हुए delightfulइसे समझना चाहिए और हमें यह बताना चाहिए, कि इसमें बड़ी संभावना है, संदर्भ yesterday was really [...] dayया कुछ अन्य प्रासंगिक संदर्भ हैं। साथ छोड़ ग्राम शब्द delightfulशब्द के साथ प्रतिस्पर्धा करने के लिए कोशिश नहीं करेंगे beautiful, लेकिन इसके बजाय, delightful+contextजोड़े नई टिप्पणियों के रूप में माना जाएगा। इस वजह से, स्किप-ग्राम को अधिक डेटा की आवश्यकता होगी इसलिए यह दुर्लभ शब्दों को भी समझना सीखेगा।


0

मैं अभी एक कागज भर में आया हूं, जो इसके विपरीत दिखाता है: यह कि सीबीओडब्ल्यू, अनारकली शब्दों के लिए स्किप-ग्राम https://arxiv.org/abs/1609.08293 से बेहतर है । मुझे आश्चर्य है कि https://code.google.com/p/word2vec/ पर उल्लिखित दावे के स्रोत क्या हैं ।


मेरा मानना ​​है कि मिकोलोव ने उस टूलकिट को खुद लिखा था। दिलचस्प बात यह है कि उनके पेपर में: पेपर। nips.cc/paper/… वह बताता है कि "हम दिखाते हैं कि प्रशिक्षण के दौरान लगातार शब्दों के एक महत्वपूर्ण स्पीडअप (2x - 10x के आसपास) के परिणामों को कम करना, और कम लगातार शब्दों के प्रतिनिधित्व की सटीकता में सुधार करता है। " इसलिए इसके स्किप-ग्राम को सबसामलिंग एक्सटेंशन के साथ।
केविन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.