सीबीओडब्ल्यू की तुलना में असंगत शब्दों के लिए स्किप-ग्राम बेहतर क्यों है?

19

मुझे आश्चर्य है कि शब्द 2vec में CBOW की तुलना में असंगत शब्दों के लिए स्किप-ग्राम बेहतर क्यों है। मैंने https://code.google.com/p/word2vec/ पर दावा पढ़ा है ।

natural-language word2vec word-embeddings

— फ्रेंक डर्नोनकोर्ट
स्रोत

14

CBOW में केंद्र शब्द की भविष्यवाणी करने से पहले संदर्भ शब्दों से वैक्टर को औसत किया जाता है। स्किप-ग्राम में एम्बेडिंग वैक्टर का कोई औसत नहीं है। ऐसा लगता है कि मॉडल दुर्लभ शब्दों के लिए बेहतर अभ्यावेदन सीख सकता है जब उनके वैक्टर भविष्यवाणियों को बनाने की प्रक्रिया में अन्य संदर्भ शब्दों के साथ औसतन नहीं होते हैं।

— हारून
स्रोत

13

यहाँ मेरे अंतर की देखरेख और बल्कि भोली समझ है:

जैसा कि हम जानते हैं, सीबीओडब्ल्यू संदर्भ के द्वारा शब्द की भविष्यवाणी करना सीख रहा है। या संदर्भ को देखकर लक्ष्य शब्द की संभावना को अधिकतम करें। और यह दुर्लभ शब्दों के लिए एक समस्या है। उदाहरण के लिए, संदर्भ दिए गए yesterday was really [...] dayसीबीओडब्ल्यू मॉडल आपको बताएगा कि सबसे शायद शब्द है beautifulया nice। जैसे शब्दों delightfulको मॉडल का बहुत कम ध्यान मिलेगा, क्योंकि यह सबसे संभावित शब्द की भविष्यवाणी करने के लिए डिज़ाइन किया गया है। अधिक शब्दों के साथ बहुत सारे उदाहरणों पर दुर्लभ शब्दों को सुचारू किया जाएगा।

दूसरी ओर, स्किप-ग्राम को संदर्भ की भविष्यवाणी करने के लिए डिज़ाइन किया गया है। शब्द को देखते हुए delightfulइसे समझना चाहिए और हमें यह बताना चाहिए, कि इसमें बड़ी संभावना है, संदर्भ yesterday was really [...] dayया कुछ अन्य प्रासंगिक संदर्भ हैं। साथ छोड़ ग्राम शब्द delightfulशब्द के साथ प्रतिस्पर्धा करने के लिए कोशिश नहीं करेंगे beautiful, लेकिन इसके बजाय, delightful+contextजोड़े नई टिप्पणियों के रूप में माना जाएगा। इस वजह से, स्किप-ग्राम को अधिक डेटा की आवश्यकता होगी इसलिए यह दुर्लभ शब्दों को भी समझना सीखेगा।

— सेर्ही
स्रोत

0

मैं अभी एक कागज भर में आया हूं, जो इसके विपरीत दिखाता है: यह कि सीबीओडब्ल्यू, अनारकली शब्दों के लिए स्किप-ग्राम https://arxiv.org/abs/1609.08293 से बेहतर है । मुझे आश्चर्य है कि https://code.google.com/p/word2vec/ पर उल्लिखित दावे के स्रोत क्या हैं ।

— xsway
स्रोत

मेरा मानना है कि मिकोलोव ने उस टूलकिट को खुद लिखा था। दिलचस्प बात यह है कि उनके पेपर में: पेपर। nips.cc/paper/… वह बताता है कि "हम दिखाते हैं कि प्रशिक्षण के दौरान लगातार शब्दों के एक महत्वपूर्ण स्पीडअप (2x - 10x के आसपास) के परिणामों को कम करना, और कम लगातार शब्दों के प्रतिनिधित्व की सटीकता में सुधार करता है। " इसलिए इसके स्किप-ग्राम को सबसामलिंग एक्सटेंशन के साथ।

— केविन