मैं सिर्फ एनएलटीके का उपयोग करना शुरू कर रहा हूं और मुझे यह समझ में नहीं आया कि पाठ से शब्दों की सूची कैसे प्राप्त की जाए। यदि मैं उपयोग करता हूं nltk.word_tokenize(), तो मुझे शब्दों और विराम चिह्नों की एक सूची मिलती है। मुझे इसके बजाय केवल शब्दों की आवश्यकता है। मैं विराम चिह्न से कैसे छुटकारा पा सकता हूं? word_tokenizeकई वाक्यों के साथ भी काम नहीं करता है: अंतिम शब्द में डॉट्स जोड़े जाते हैं।
word_tokenize()कई वाक्यों के साथ काम नहीं करता है। विराम चिह्न से छुटकारा पाने के लिए, आप एक नियमित अभिव्यक्ति या अजगर के isalnum()कार्य का उपयोग कर सकते हैं ।
>>> 'with dot.'.translate(None, string.punctuation) 'with dot'(परिणाम के अंत में नोट नहीं डॉट) यह समस्या हो सकती है यदि आपके पास चीजें हैं 'end of sentence.No space', तो इस मामले में इसके बजाय ऐसा करें: the_text.translate(string.maketrans(string.punctuation, ' '*len(string.punctuation)))जो सभी रिक्त स्थान को सफेद स्थानों के साथ बदल देता है।
nltk.word_tokenize(the_text.translate(None, string.punctuation))python2 में काम करना चाहिए जबकि python3 में आप कर सकते हैंnltk.work_tokenize(the_text.translate(dict.fromkeys(string.punctuation)))।