शब्द 2vec का उपयोग अनदेखी शब्दों की पहचान करने और उन्हें पहले से प्रशिक्षित डेटा से संबंधित करने के लिए कैसे किया जा सकता है


11

मैं word2vec gensim मॉडल पर काम कर रहा था और इसे वास्तव में दिलचस्प पाया। मैं यह पता लगाने में इंटरस्टेड हूं कि मॉडल के साथ जाँच करने पर एक अज्ञात / अनदेखी शब्द कैसे प्रशिक्षित मॉडल से समान शब्द प्राप्त करने में सक्षम होगा।

क्या यह संभव है? क्या इसके लिए word2vec को ट्वीक किया जा सकता है? या प्रशिक्षण कॉर्पस में उन सभी शब्दों को रखने की जरूरत है, जिनमें से मैं समानता खोजना चाहता हूं।

जवाबों:


9

हर एल्गोरिथ्म जो पाठ डेटा से संबंधित है, में एक शब्दावली है। शब्द 2vec के मामले में, शब्दावली इनपुट कॉर्पस में सभी शब्दों से मिलकर बनती है, या कम-से-कम न्यूनतम-आवृत्ति सीमा से ऊपर के लोग।

एल्गोरिदम उन शब्दों को अनदेखा करते हैं जो उनकी शब्दावली के बाहर हैं। हालाँकि, आपकी समस्या को वापस करने के ऐसे तरीके हैं, जिनमें अनिवार्य रूप से कोई आउट-शब्द शब्दावली नहीं है।

याद रखें कि शब्द word2vec में केवल "टोकन" हैं। वे शून्य हो सकते हैं या वे पत्र हो सकते हैं। अपनी शब्दावली को परिभाषित करने का एक तरीका यह है कि कम से कम एक्स बार होने वाला प्रत्येक शब्द आपकी शब्दावली में हो। तब आपकी शब्दावली में सबसे आम "शब्दांश" (अक्षरों के नाम) जोड़े जाते हैं। फिर आप अपनी शब्दावली में अलग-अलग अक्षर जोड़ते हैं।

इस तरह आप किसी भी शब्द को परिभाषित कर सकते हैं

  1. आपकी शब्दावली में एक शब्द
  2. आपकी शब्दावली में शब्दांशों का एक समूह
  3. आपकी शब्दावली में अक्षरों और अक्षरों का एक संयुक्त सेट

3

word2vec शब्दों को परमाणुओं की तरह मानता है। अज्ञात शब्दों के लिए सार्थक वैक्टर प्राप्त करने के लिए, आपको या तो

  • इन परमाणुओं में क्या परिवर्तन होता है, उदाहरण के लिए j-nmmf के उत्तर के रूप में अक्षर n- ग्राम पर स्विच करें, या
  • एक अलग मॉडल का उपयोग करें जो आपके शब्दों के अंदर स्पष्ट रूप से देखता है, उदाहरण के लिए https://github.com/Leonard-Xu/CWE पर CWE मॉडल का उपयोग करना आसान है।

1
github.com/facebookresearch/fastText अच्छा काम करने लगता है
जोकिम वैगनर

हाँ, मैंने कोशिश की है कि लेकिन रूपात्मक विभाजन जैसे कार्यों के साथ अच्छी तरह से काम नहीं करता है।
गुरू


0

यदि शब्द शब्दावली में नहीं है तो शब्द 2 वीईसी और फास्टटेक्स्ट विफल हो जाते हैं। एक त्रुटि फेंकता है। यह संबंधित शब्दों के लिए स्कोर की एक सूची देता है लेकिन एक अनदेखी शब्द शब्दावली में नहीं होगा? तो, यह अनदेखी शब्द समस्या को कैसे हल करता है?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.