मैं विभिन्न स्रोतों में वर्णित एक ही शब्द के बीच अंतर की तुलना करना चाहता हूं। यह है कि, लेखक "लोकतंत्र" जैसे गैर-परिभाषित शब्दों के उपयोग में कैसे भिन्न होते हैं।
एक संक्षिप्त योजना थी
- "लोकतंत्र" शब्द का उल्लेख करने वाली पुस्तकों को सादे पाठ के रूप में लें
- प्रत्येक पुस्तक में, के
democracyसाथ बदलेंdemocracy_%AuthorName% word2vecइन पुस्तकों पर एक मॉडल को प्रशिक्षित करें- "लोकतंत्र" के बीच
democracy_AuthorA,democracy_AuthorBऔर अन्य रिलेबेल्ड उल्लेखों के बीच की दूरी की गणना करें
इसलिए प्रत्येक लेखक के "लोकतंत्र" को उसका अपना वेक्टर मिलता है, जिसका उपयोग तुलना के लिए किया जाता है।
लेकिन ऐसा लगता है कि word2vecविश्वसनीय वैक्टरों को प्रशिक्षित करने के लिए कई पुस्तकों की तुलना में बहुत अधिक पुस्तकों की आवश्यकता होती है (प्रत्येक रीलेबेल्ड शब्द केवल पुस्तकों के सबसेट में होता है)। आधिकारिक पृष्ठ शब्द के अरबों सहित डेटासेट सिफारिश की।
मैं सिर्फ यह पूछना चाहता था कि एक लेखक की पुस्तकों का उपसमुच्चय कितना word2vecउपलब्ध हो या वैकल्पिक साधनों के साथ ऐसा हो , यदि उपलब्ध हो तो?
windowपैरामीटर सेट कैसे संदर्भ में कई शब्दों के अपने शब्द के लिए मॉडल को प्रशिक्षित करने के लिए उपयोग किया जाता डब्ल्यू