पाठ-वर्गीकरण-समस्या: क्या Word2Vec / NN सबसे अच्छा तरीका है?


10

मैं एक ऐसी प्रणाली डिजाइन करना चाह रहा हूं, जिसमें पाठ का एक पैराग्राफ दिया गया है, जो इसे वर्गीकृत करने और संदर्भ की पहचान करने में सक्षम होगा:

  1. उपयोगकर्ता द्वारा उत्पन्न पाठ पैराग्राफ (जैसे टिप्पणी / प्रश्न / उत्तर) के साथ प्रशिक्षित किया जाता है
  2. प्रशिक्षण सेट में प्रत्येक आइटम के साथ टैग किया जाएगा। तो उदाहरण के लिए ("श्रेणी 1", "पाठ पैराग्राफ")
  3. सैकड़ों श्रेणियां होंगी

ऐसी प्रणाली बनाने के लिए सबसे अच्छा तरीका क्या होगा? मैं कुछ अलग विकल्पों को देख रहा हूं और निम्नलिखित संभावित समाधानों की एक सूची है। क्या Word2Vec / NN इस समय सबसे अच्छा समाधान है?

  1. Recursive Neural Tensor Network ने Word2Vec के औसत डेटा के साथ फीड किया
  2. RNTN और द पैराग्राफ वेक्टर ( https://cs.stanford.edu/~quocle/paragraph_vector.ndf )?
  3. TF-IDF का उपयोग डीप विश्वास नेटवर्क में किया जाता है
  4. TF-IDF और लॉजिस्टिक रिग्रेशन
  5. शब्दों का बैग और Naive Bayes का वर्गीकरण

क्या आप स्पष्ट कर सकते हैं कि किस प्रकार की श्रेणियां हैं? क्या इसे नई श्रेणियों और / या अनदेखी शब्दों को संभालने में सक्षम होने की आवश्यकता होगी? असीम शर्तों और अनदेखी श्रेणियों के बारे में आवश्यकताओं को सिस्टम के डिजाइन में मदद मिलेगी।
एनबार्टली

धन्यवाद @NBartley अनदेखी शब्द भी एक उच्च संभावना होगी। इनपुट पैरा उपयोगकर्ता जनित सामग्री होगी, इसलिए नए अनदेखे शब्दों की संभावना बहुत अधिक होगी। श्रेणियों को परिभाषित किया जाएगा, लेकिन हमें समय के साथ श्रेणी सूची का विस्तार करना होगा। साभार
शंकर

तुम भी sense2vec की जांच करनी चाहिए arxiv.org/abs/1511.06388 । संक्षेप में, यह शब्द एम्बेडिंग भाग-के-भाषण टैगिंग के साथ संयुक्त है। यह बताया गया है कि यह शब्द एम्बेडिंग समलैंगिकों को अधिक स्पष्ट करके सटीक बनाता है। यह देखना दिलचस्प होगा कि क्या यह वर्गीकरण कार्यों में प्रदर्शन को भी बेहतर बनाता है।
वैक्सैक्स

जवाबों:


5

1) टीएफआईडीएफ वैक्टर पर मैक्स-एन्ट्रॉपी (लॉजिस्टिक रिग्रेशन) कई एनएलपी वर्गीकरण कार्य के लिए एक अच्छा प्रारंभिक बिंदु है।

2) Word2vec निश्चित रूप से कोशिश कर रहा है और मॉडल 1 की तुलना करने के लायक है। मैं वाक्यों / पैराग्राफ को देखने के लिए Doc2Vec स्वाद का उपयोग करने का सुझाव दूंगा।

क्वोक ले और टॉमस मिकोलोव। वाक्यों और दस्तावेजों के वितरित प्रतिनिधि। http://arxiv.org/pdf/1405.4053v2.pdf

Gensim (python) में एक अच्छा Doc2vec मॉडल है।


धन्यवाद @rushimg यदि श्रेणियां निकट से संबंधित हैं, अर्थात इनपुट के रूप में उपयोग किए जाने वाले पाठ के पैरा में बड़ी मात्रा में सामान्य शब्द हैं, तो दोनों में से कौन सा दृष्टिकोण संदर्भ को समझने और दोनों के बीच अंतर करने में बेहतर होगा?
शंकर

मैं इस तथ्य के कारण Doc2Vec मॉडल का उपयोग करूंगा कि यह अधिकतम-प्रवेश मॉडल के बैग-ऑफ-शब्द अनुमान को हटा देता है। यदि tf-idf का उपयोग अधिकतम-प्रवेश मॉडल में सुविधाओं के रूप में किया जाता है, तो यह सामान्य शब्दों के प्रभाव को भी कम करेगा। मुझे लगता है कि दोनों तरीकों की कोशिश करना और उन्हें ट्विक करना कार्रवाई का सबसे अच्छा कोर्स होगा।
रश
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.