मैं सिर्फ एनएलटीके का उपयोग करना शुरू कर रहा हूं और मुझे यह समझ में नहीं आया कि पाठ से शब्दों की सूची कैसे प्राप्त की जाए। यदि मैं उपयोग करता हूं nltk.word_tokenize()
, तो मुझे शब्दों और विराम चिह्नों की एक सूची मिलती है। मुझे इसके बजाय केवल शब्दों की आवश्यकता है। मैं विराम चिह्न से कैसे छुटकारा पा सकता हूं? word_tokenize
कई वाक्यों के साथ भी काम नहीं करता है: अंतिम शब्द में डॉट्स जोड़े जाते हैं।
word_tokenize()
कई वाक्यों के साथ काम नहीं करता है। विराम चिह्न से छुटकारा पाने के लिए, आप एक नियमित अभिव्यक्ति या अजगर के isalnum()
कार्य का उपयोग कर सकते हैं ।
>>> 'with dot.'.translate(None, string.punctuation) 'with dot'
(परिणाम के अंत में नोट नहीं डॉट) यह समस्या हो सकती है यदि आपके पास चीजें हैं 'end of sentence.No space'
, तो इस मामले में इसके बजाय ऐसा करें: the_text.translate(string.maketrans(string.punctuation, ' '*len(string.punctuation)))
जो सभी रिक्त स्थान को सफेद स्थानों के साथ बदल देता है।
nltk.word_tokenize(the_text.translate(None, string.punctuation))
python2 में काम करना चाहिए जबकि python3 में आप कर सकते हैंnltk.work_tokenize(the_text.translate(dict.fromkeys(string.punctuation)))
।