मैं एक एप्लिकेशन का प्रोटोटाइप बना रहा हूं और मुझे कुछ उत्पन्न वाक्यों के प्रति एकरूपता की गणना करने के लिए एक भाषा मॉडल की आवश्यकता है।
क्या अजगर में कोई प्रशिक्षित भाषा मॉडल है जिसका मैं आसानी से उपयोग कर सकता हूं? जैसे कुछ सरल
model = LanguageModel('en')
p1 = model.perplexity('This is a well constructed sentence')
p2 = model.perplexity('Bunny lamp robert junior pancake')
assert p1 < p2
मैंने कुछ चौखटों पर ध्यान दिया है लेकिन मैं जो चाहता हूं वह नहीं मिला। मुझे पता है कि मैं कुछ का उपयोग कर सकते हैं:
from nltk.model.ngram import NgramModel
lm = NgramModel(3, brown.words(categories='news'))
यह ब्राउन कॉर्पस पर एक अच्छी ट्यूरिंग संभावना वितरण का उपयोग करता है, लेकिन मैं कुछ बड़े डेटासेट पर अच्छी तरह से तैयार किए गए मॉडल की तलाश कर रहा था, जैसे 1 बी शब्द डेटासेट। कुछ ऐसा जो मैं वास्तव में एक सामान्य डोमेन के लिए परिणामों पर भरोसा कर सकता हूं (केवल समाचार नहीं)