एक प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कार्य के लिए अक्सर शब्दों के लिए एक एम्बेडिंग के रूप में शब्द 2vec वैक्टर का उपयोग किया जाता है। हालाँकि, ऐसे कई अज्ञात शब्द हो सकते हैं, जो शब्द 2vec vectors द्वारा कैप्चर नहीं किए गए हैं, क्योंकि ये शब्द अक्सर प्रशिक्षण डेटा में पर्याप्त नहीं देखे जाते हैं (कई कार्यान्वयन शब्दावली में शब्द जोड़ने से पहले एक न्यूनतम गणना का उपयोग करते हैं)। यह विशेष रूप से उदाहरण के लिए ट्विटर से पाठ के साथ मामला हो सकता है, जहां शब्द अक्सर गलत वर्तनी वाले होते हैं।
एनएलपी टास्क को मॉडलिंग करते समय इस तरह के अज्ञात शब्दों को कैसे संभाला जाना चाहिए जैसे कि लॉन्ग शॉर्ट-टर्म (LSTM) नेटवर्क का उपयोग करके भावुक भविष्यवाणी? मुझे दो विकल्प दिखाई देते हैं:
- शब्द 2vec शब्दकोश में एक 'अज्ञात शब्द' टोकन जोड़ना।
- इन अज्ञात शब्दों को ऐसे हटाना कि LSTM को यह पता भी न चले कि वाक्य में कौन सा शब्द है।
इन शब्दों को संभालने का पसंदीदा तरीका क्या है?