मुझे आश्चर्य है कि शब्द 2vec में CBOW की तुलना में असंगत शब्दों के लिए स्किप-ग्राम बेहतर क्यों है। मैंने https://code.google.com/p/word2vec/ पर दावा पढ़ा है ।
मुझे आश्चर्य है कि शब्द 2vec में CBOW की तुलना में असंगत शब्दों के लिए स्किप-ग्राम बेहतर क्यों है। मैंने https://code.google.com/p/word2vec/ पर दावा पढ़ा है ।
जवाबों:
CBOW में केंद्र शब्द की भविष्यवाणी करने से पहले संदर्भ शब्दों से वैक्टर को औसत किया जाता है। स्किप-ग्राम में एम्बेडिंग वैक्टर का कोई औसत नहीं है। ऐसा लगता है कि मॉडल दुर्लभ शब्दों के लिए बेहतर अभ्यावेदन सीख सकता है जब उनके वैक्टर भविष्यवाणियों को बनाने की प्रक्रिया में अन्य संदर्भ शब्दों के साथ औसतन नहीं होते हैं।
यहाँ मेरे अंतर की देखरेख और बल्कि भोली समझ है:
जैसा कि हम जानते हैं, सीबीओडब्ल्यू संदर्भ के द्वारा शब्द की भविष्यवाणी करना सीख रहा है। या संदर्भ को देखकर लक्ष्य शब्द की संभावना को अधिकतम करें। और यह दुर्लभ शब्दों के लिए एक समस्या है। उदाहरण के लिए, संदर्भ दिए गए yesterday was really [...] dayसीबीओडब्ल्यू मॉडल आपको बताएगा कि सबसे शायद शब्द है beautifulया nice। जैसे शब्दों delightfulको मॉडल का बहुत कम ध्यान मिलेगा, क्योंकि यह सबसे संभावित शब्द की भविष्यवाणी करने के लिए डिज़ाइन किया गया है। अधिक शब्दों के साथ बहुत सारे उदाहरणों पर दुर्लभ शब्दों को सुचारू किया जाएगा।
दूसरी ओर, स्किप-ग्राम को संदर्भ की भविष्यवाणी करने के लिए डिज़ाइन किया गया है। शब्द को देखते हुए delightfulइसे समझना चाहिए और हमें यह बताना चाहिए, कि इसमें बड़ी संभावना है, संदर्भ yesterday was really [...] dayया कुछ अन्य प्रासंगिक संदर्भ हैं। साथ छोड़ ग्राम शब्द delightfulशब्द के साथ प्रतिस्पर्धा करने के लिए कोशिश नहीं करेंगे beautiful, लेकिन इसके बजाय, delightful+contextजोड़े नई टिप्पणियों के रूप में माना जाएगा। इस वजह से, स्किप-ग्राम को अधिक डेटा की आवश्यकता होगी इसलिए यह दुर्लभ शब्दों को भी समझना सीखेगा।
मैं अभी एक कागज भर में आया हूं, जो इसके विपरीत दिखाता है: यह कि सीबीओडब्ल्यू, अनारकली शब्दों के लिए स्किप-ग्राम https://arxiv.org/abs/1609.08293 से बेहतर है । मुझे आश्चर्य है कि https://code.google.com/p/word2vec/ पर उल्लिखित दावे के स्रोत क्या हैं ।