मुझे आश्चर्य है कि शब्द 2vec में CBOW की तुलना में असंगत शब्दों के लिए स्किप-ग्राम बेहतर क्यों है। मैंने https://code.google.com/p/word2vec/ पर दावा पढ़ा है ।
मुझे आश्चर्य है कि शब्द 2vec में CBOW की तुलना में असंगत शब्दों के लिए स्किप-ग्राम बेहतर क्यों है। मैंने https://code.google.com/p/word2vec/ पर दावा पढ़ा है ।
जवाबों:
CBOW में केंद्र शब्द की भविष्यवाणी करने से पहले संदर्भ शब्दों से वैक्टर को औसत किया जाता है। स्किप-ग्राम में एम्बेडिंग वैक्टर का कोई औसत नहीं है। ऐसा लगता है कि मॉडल दुर्लभ शब्दों के लिए बेहतर अभ्यावेदन सीख सकता है जब उनके वैक्टर भविष्यवाणियों को बनाने की प्रक्रिया में अन्य संदर्भ शब्दों के साथ औसतन नहीं होते हैं।
यहाँ मेरे अंतर की देखरेख और बल्कि भोली समझ है:
जैसा कि हम जानते हैं, सीबीओडब्ल्यू संदर्भ के द्वारा शब्द की भविष्यवाणी करना सीख रहा है। या संदर्भ को देखकर लक्ष्य शब्द की संभावना को अधिकतम करें। और यह दुर्लभ शब्दों के लिए एक समस्या है। उदाहरण के लिए, संदर्भ दिए गए yesterday was really [...] day
सीबीओडब्ल्यू मॉडल आपको बताएगा कि सबसे शायद शब्द है beautiful
या nice
। जैसे शब्दों delightful
को मॉडल का बहुत कम ध्यान मिलेगा, क्योंकि यह सबसे संभावित शब्द की भविष्यवाणी करने के लिए डिज़ाइन किया गया है। अधिक शब्दों के साथ बहुत सारे उदाहरणों पर दुर्लभ शब्दों को सुचारू किया जाएगा।
दूसरी ओर, स्किप-ग्राम को संदर्भ की भविष्यवाणी करने के लिए डिज़ाइन किया गया है। शब्द को देखते हुए delightful
इसे समझना चाहिए और हमें यह बताना चाहिए, कि इसमें बड़ी संभावना है, संदर्भ yesterday was really [...] day
या कुछ अन्य प्रासंगिक संदर्भ हैं। साथ छोड़ ग्राम शब्द delightful
शब्द के साथ प्रतिस्पर्धा करने के लिए कोशिश नहीं करेंगे beautiful
, लेकिन इसके बजाय, delightful+context
जोड़े नई टिप्पणियों के रूप में माना जाएगा। इस वजह से, स्किप-ग्राम को अधिक डेटा की आवश्यकता होगी इसलिए यह दुर्लभ शब्दों को भी समझना सीखेगा।
मैं अभी एक कागज भर में आया हूं, जो इसके विपरीत दिखाता है: यह कि सीबीओडब्ल्यू, अनारकली शब्दों के लिए स्किप-ग्राम https://arxiv.org/abs/1609.08293 से बेहतर है । मुझे आश्चर्य है कि https://code.google.com/p/word2vec/ पर उल्लिखित दावे के स्रोत क्या हैं ।