Word2vec को कितने प्रशिक्षण डेटा की आवश्यकता है?


10

मैं विभिन्न स्रोतों में वर्णित एक ही शब्द के बीच अंतर की तुलना करना चाहता हूं। यह है कि, लेखक "लोकतंत्र" जैसे गैर-परिभाषित शब्दों के उपयोग में कैसे भिन्न होते हैं।

एक संक्षिप्त योजना थी

  1. "लोकतंत्र" शब्द का उल्लेख करने वाली पुस्तकों को सादे पाठ के रूप में लें
  2. प्रत्येक पुस्तक में, के democracyसाथ बदलेंdemocracy_%AuthorName%
  3. word2vecइन पुस्तकों पर एक मॉडल को प्रशिक्षित करें
  4. "लोकतंत्र" के बीच democracy_AuthorA, democracy_AuthorBऔर अन्य रिलेबेल्ड उल्लेखों के बीच की दूरी की गणना करें

इसलिए प्रत्येक लेखक के "लोकतंत्र" को उसका अपना वेक्टर मिलता है, जिसका उपयोग तुलना के लिए किया जाता है।

लेकिन ऐसा लगता है कि word2vecविश्वसनीय वैक्टरों को प्रशिक्षित करने के लिए कई पुस्तकों की तुलना में बहुत अधिक पुस्तकों की आवश्यकता होती है (प्रत्येक रीलेबेल्ड शब्द केवल पुस्तकों के सबसेट में होता है)। आधिकारिक पृष्ठ शब्द के अरबों सहित डेटासेट सिफारिश की।

मैं सिर्फ यह पूछना चाहता था कि एक लेखक की पुस्तकों का उपसमुच्चय कितना word2vecउपलब्ध हो या वैकल्पिक साधनों के साथ ऐसा हो , यदि उपलब्ध हो तो?


1
क्या आप जिन पुस्तकों का उपयोग पूरी तरह से लोकतंत्र के विषय पर कर रहे हैं, यदि नहीं, तो क्या आपकी दूरी की मीट्रिक को किताबों की सामग्री के बीच बड़े अंतर से प्राप्त नहीं किया जा सकता है? यह आपकी समस्या का एक बहुत ही उच्च आयामी स्थान में होने और आयामीता के अभिशाप के हाथ से छुआ जाने का एक दुष्प्रभाव है। शायद ब्याज शब्द के चारों ओर पाठ का केवल एक छोटा क्षेत्र लेने से मदद मिलेगी, लेकिन यह अभी भी महत्वपूर्ण आयाम के साथ एक समस्या है।
image_doctor

1
हाँ, यही उस का सार है। यहाँ एक शायद बीमार विचार रूपक के साथ चला जाता है। रंगों द्वारा प्रतिनिधित्व की जा रही पुस्तकों के अध्यायों की कल्पना करें। और एक पुस्तक आ पूरी तरह से अध्यायों के सभी रंगों के मिश्रण के रूप में प्रस्तुत की गई है। पश्चिमी यूरोप में लोकतंत्र पर एक किताब संभवतः कुल मिलाकर लाल रंग के साथ समाप्त होती है क्योंकि यह अध्याय है। यदि हम क्यूबा द्वारा पर्यटन का प्रतिनिधित्व करते हैं, तो क्यूबा में पर्यटन पर एक पुस्तक, लोकतंत्र पर एकमात्र अध्याय है और यह आर्थिक विकास पर प्रभाव डालती है, एक मजबूत नीली रंग होगा। इसलिए जब दोनों पुस्तकें पूरी तरह से अलग-अलग दिखाई देंगी।
image_doctor

1
यह कहने का और अधिक सुलभ तरीका है कि दो पुस्तकों के लिए वैक्टर के रूप में एक डेटा वैज्ञानिक क्या वाक्यांश देगा, जो फ़ीचर स्पेस के अलावा एक लंबा रास्ता होगा और इसलिए यह काफी भिन्न दिखाई देगा। डेटा के साथ खेले बिना आपको कितने उदाहरणों की आवश्यकता होगी, यह पहले से ही निर्धारित करना बहुत मुश्किल है, लेकिन भाषा सूक्ष्म और स्तरित है इसलिए आप शायद उतना ही चाहेंगे जितना आप प्राप्त कर सकते हैं .... और शायद। अंततः आप तब तक नहीं जान पाएंगे जब तक आप कोशिश नहीं करेंगे। यह कोई ठोस जवाब नहीं है, लेकिन जब तक कोई एक समान काम करने का प्रत्यक्ष अनुभव नहीं करता है, तब तक शायद यह सबसे अच्छा है जो आपको मिलेगा।
image_doctor

1
word2vec पहले से ही "रुचि के शब्द के चारों ओर पाठ का एक छोटा क्षेत्र" का उपयोग करता है। windowपैरामीटर सेट कैसे संदर्भ में कई शब्दों के अपने शब्द के लिए मॉडल को प्रशिक्षित करने के लिए उपयोग किया जाता डब्ल्यू
jamesmf

1
@ पॉलिटिकल साइंटिस्ट मैंने इस प्रोजेक्ट को खत्म नहीं किया था।
एंटोन तारासेंको

जवाबों:


1

ऐसा लगता है कि doc2vec (या पैराग्राफ / संदर्भ वैक्टर) इस समस्या के लिए एक सही फिट हो सकता है।

संक्षेप में, शब्द वैक्टर के अलावा, आप एक "संदर्भ वेक्टर" (आपके मामले में, लेखक के लिए एक एम्बेडिंग) जोड़ते हैं जो केंद्र या संदर्भ शब्दों की भविष्यवाणी करने के लिए उपयोग किया जाता है।

इसका मतलब है कि आप "लोकतंत्र" के बारे में सभी डेटा से लाभान्वित होंगे, लेकिन उस लेखक के लिए एक एम्बेडिंग भी निकालेंगे, जिसे संयुक्त आपको प्रत्येक लेखक के बारे में सीमित डेटा के साथ प्रत्येक लेखक के पूर्वाग्रह का विश्लेषण करने की अनुमति देनी चाहिए।

आप gensim के कार्यान्वयन का उपयोग कर सकते हैं । डॉक में स्रोत पत्रों के लिंक शामिल हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.