हर एल्गोरिथ्म जो पाठ डेटा से संबंधित है, में एक शब्दावली है। शब्द 2vec के मामले में, शब्दावली इनपुट कॉर्पस में सभी शब्दों से मिलकर बनती है, या कम-से-कम न्यूनतम-आवृत्ति सीमा से ऊपर के लोग।
एल्गोरिदम उन शब्दों को अनदेखा करते हैं जो उनकी शब्दावली के बाहर हैं। हालाँकि, आपकी समस्या को वापस करने के ऐसे तरीके हैं, जिनमें अनिवार्य रूप से कोई आउट-शब्द शब्दावली नहीं है।
याद रखें कि शब्द word2vec में केवल "टोकन" हैं। वे शून्य हो सकते हैं या वे पत्र हो सकते हैं। अपनी शब्दावली को परिभाषित करने का एक तरीका यह है कि कम से कम एक्स बार होने वाला प्रत्येक शब्द आपकी शब्दावली में हो। तब आपकी शब्दावली में सबसे आम "शब्दांश" (अक्षरों के नाम) जोड़े जाते हैं। फिर आप अपनी शब्दावली में अलग-अलग अक्षर जोड़ते हैं।
इस तरह आप किसी भी शब्द को परिभाषित कर सकते हैं
- आपकी शब्दावली में एक शब्द
- आपकी शब्दावली में शब्दांशों का एक समूह
- आपकी शब्दावली में अक्षरों और अक्षरों का एक संयुक्त सेट