मैं एक ऐसी प्रणाली डिजाइन करना चाह रहा हूं, जिसमें पाठ का एक पैराग्राफ दिया गया है, जो इसे वर्गीकृत करने और संदर्भ की पहचान करने में सक्षम होगा:
- उपयोगकर्ता द्वारा उत्पन्न पाठ पैराग्राफ (जैसे टिप्पणी / प्रश्न / उत्तर) के साथ प्रशिक्षित किया जाता है
- प्रशिक्षण सेट में प्रत्येक आइटम के साथ टैग किया जाएगा। तो उदाहरण के लिए ("श्रेणी 1", "पाठ पैराग्राफ")
- सैकड़ों श्रेणियां होंगी
ऐसी प्रणाली बनाने के लिए सबसे अच्छा तरीका क्या होगा? मैं कुछ अलग विकल्पों को देख रहा हूं और निम्नलिखित संभावित समाधानों की एक सूची है। क्या Word2Vec / NN इस समय सबसे अच्छा समाधान है?
- Recursive Neural Tensor Network ने Word2Vec के औसत डेटा के साथ फीड किया
- RNTN और द पैराग्राफ वेक्टर ( https://cs.stanford.edu/~quocle/paragraph_vector.ndf )?
- TF-IDF का उपयोग डीप विश्वास नेटवर्क में किया जाता है
- TF-IDF और लॉजिस्टिक रिग्रेशन
- शब्दों का बैग और Naive Bayes का वर्गीकरण