मैं विभिन्न स्रोतों में वर्णित एक ही शब्द के बीच अंतर की तुलना करना चाहता हूं। यह है कि, लेखक "लोकतंत्र" जैसे गैर-परिभाषित शब्दों के उपयोग में कैसे भिन्न होते हैं।
एक संक्षिप्त योजना थी
- "लोकतंत्र" शब्द का उल्लेख करने वाली पुस्तकों को सादे पाठ के रूप में लें
- प्रत्येक पुस्तक में, के
democracy
साथ बदलेंdemocracy_%AuthorName%
word2vec
इन पुस्तकों पर एक मॉडल को प्रशिक्षित करें- "लोकतंत्र" के बीच
democracy_AuthorA
,democracy_AuthorB
और अन्य रिलेबेल्ड उल्लेखों के बीच की दूरी की गणना करें
इसलिए प्रत्येक लेखक के "लोकतंत्र" को उसका अपना वेक्टर मिलता है, जिसका उपयोग तुलना के लिए किया जाता है।
लेकिन ऐसा लगता है कि word2vec
विश्वसनीय वैक्टरों को प्रशिक्षित करने के लिए कई पुस्तकों की तुलना में बहुत अधिक पुस्तकों की आवश्यकता होती है (प्रत्येक रीलेबेल्ड शब्द केवल पुस्तकों के सबसेट में होता है)। आधिकारिक पृष्ठ शब्द के अरबों सहित डेटासेट सिफारिश की।
मैं सिर्फ यह पूछना चाहता था कि एक लेखक की पुस्तकों का उपसमुच्चय कितना word2vec
उपलब्ध हो या वैकल्पिक साधनों के साथ ऐसा हो , यदि उपलब्ध हो तो?
window
पैरामीटर सेट कैसे संदर्भ में कई शब्दों के अपने शब्द के लिए मॉडल को प्रशिक्षित करने के लिए उपयोग किया जाता डब्ल्यू