मैंने हाल ही में इस क्षेत्र में चार पुस्तकें पढ़ी हैं:
फेल्डमैन, आर। और जेम्स सेंगर, जे। (2006)। द टेक्स्ट माइनिंग हैंडबुक: अनस्ट्रक्चर्ड डेटा के विश्लेषण में उन्नत दृष्टिकोण। कैम्ब्रिज यूनिवर्सिटी प्रेस।
यह एक व्यावहारिक उदाहरण, सॉफ्टवेयर और एप्लाइड टेक्स्ट माइनिंग पर केंद्रित है। यह पाठ-खनन के व्यावहारिक उपयोग के कई उदाहरण देता है। यदि आप टेक्स्ट-माइनिंग टूल्स के व्यावसायिक अनुप्रयोगों के बारे में पढ़ना चाहते हैं तो यह दिलचस्पी का विषय हो सकता है।
श्रीवास्तव, एएन और सहमी, एम। (2009)। पाठ खनन: वर्गीकरण, क्लस्टरिंग और अनुप्रयोग। चैपमैन एंड हॉल / सीआरसी।
यह शोध पत्रों की श्रृंखला है जो विभिन्न पाठ-खनन उपकरणों के उपयोग के उदाहरण के रूप में उपयोग किए जाते हैं। यह बल्कि परिचयात्मक परीक्षण के लिए भी केंद्रित है।
वीस, एसएम, इंदुरख्या, एन।, झांग, टी। और दमरेउ, एफ (2005)। पाठ खनन: असंरचित सूचना का विश्लेषण करने के लिए भविष्य कहनेवाला तरीके।
स्प्रिंगर।
बहुत परिचयात्मक पाठ जो कुछ सामान्य मुद्दों का वर्णन करता है।
मैनिंग, सी। (1999)। सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण की नींव। एमआईटी प्रेस।
यह सबसे अच्छी पुस्तक है जिसे मैंने पहले ही इस विषय पर पढ़ा है। यह अच्छी तरह से लिखा गया है, स्पष्ट है, सिद्धांत में गहरा है लेकिन व्यवहार के अनुकूल तरीके से। सामान्य परिचय के साथ शुरू होता है, लेकिन सबसे अधिक इस्तेमाल किए जाने वाले तरीकों और एल्गोरिदम में से कुछ की समीक्षा करता है। यदि आपको केवल एक ही पुस्तक का चयन करना है, तो मैं इसे सुझाऊंगा।
आप आसानी से प्राकृतिक भाषा प्रसंस्करण और पाठ खनन पर कई किताबें पा सकते हैं जो आर ( टीएम लाइब्रेरी) या पायथन ( एनएलटीके लाइब्रेरी) का उपयोग करने पर ध्यान केंद्रित करते हैं ।