टेक्स्ट माइनिंग पर अच्छी किताबें?


11

नमस्ते मैं जानना चाहता था कि क्या कुछ मामलों के अध्ययन के साथ पाठ खनन और वर्गीकरण पर कुछ अच्छी किताबें हैं? अगर नहीं जनता के लिए सुलभ कुछ पत्र / पत्रिकाएँ करते। यदि वे अपने उदाहरणों को आर के साथ और भी बेहतर बताते हैं। मैं कदम से कदम मैनुअल की तलाश नहीं कर रहा हूं, लेकिन कुछ जो विभिन्न पाठ खनन दृष्टिकोणों के पेशेवरों और विपक्षों को विभिन्न वर्गों की समस्याओं के बारे में बताता है।

जवाबों:


5

की जाँच करें http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf MapReduce साथ डेटा-गहन पाठ प्रसंस्करण - इस पुस्तक काफी शैक्षिक है, लेकिन कवर आमतौर पर इस्तेमाल किया पाठ प्रसंस्करण तकनीकों का और कैसे वे parrallised किया जा सकता है मानचित्र को कम करने वाले बड़े डेटासेट का उपयोग करें।

www.rtexttools.com यह एक उत्कृष्ट आर पैकेज है जो आपको पाठ विश्लेषिकी के लिए वर्गीकरण एल्गोरिदम (कुछ कलाकारों की टुकड़ी विधियों सहित) की एक विस्तृत श्रृंखला को स्पष्ट करने में मदद करता है। तथा


4
इस उत्तर को स्व-निहित बनाने के लिए, क्या आप प्रत्येक लिंक का एक संक्षिप्त सारांश प्रदान करना चाहेंगे?
chl

4

मैंने हाल ही में इस क्षेत्र में चार पुस्तकें पढ़ी हैं:

फेल्डमैन, आर। और जेम्स सेंगर, जे। (2006)। द टेक्स्ट माइनिंग हैंडबुक: अनस्ट्रक्चर्ड डेटा के विश्लेषण में उन्नत दृष्टिकोण। कैम्ब्रिज यूनिवर्सिटी प्रेस।

यह एक व्यावहारिक उदाहरण, सॉफ्टवेयर और एप्लाइड टेक्स्ट माइनिंग पर केंद्रित है। यह पाठ-खनन के व्यावहारिक उपयोग के कई उदाहरण देता है। यदि आप टेक्स्ट-माइनिंग टूल्स के व्यावसायिक अनुप्रयोगों के बारे में पढ़ना चाहते हैं तो यह दिलचस्पी का विषय हो सकता है।

श्रीवास्तव, एएन और सहमी, एम। (2009)। पाठ खनन: वर्गीकरण, क्लस्टरिंग और अनुप्रयोग। चैपमैन एंड हॉल / सीआरसी।

यह शोध पत्रों की श्रृंखला है जो विभिन्न पाठ-खनन उपकरणों के उपयोग के उदाहरण के रूप में उपयोग किए जाते हैं। यह बल्कि परिचयात्मक परीक्षण के लिए भी केंद्रित है।

वीस, एसएम, इंदुरख्या, एन।, झांग, टी। और दमरेउ, एफ (2005)। पाठ खनन: असंरचित सूचना का विश्लेषण करने के लिए भविष्य कहनेवाला तरीके। स्प्रिंगर।

बहुत परिचयात्मक पाठ जो कुछ सामान्य मुद्दों का वर्णन करता है।

मैनिंग, सी। (1999)। सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण की नींव। एमआईटी प्रेस।

यह सबसे अच्छी पुस्तक है जिसे मैंने पहले ही इस विषय पर पढ़ा है। यह अच्छी तरह से लिखा गया है, स्पष्ट है, सिद्धांत में गहरा है लेकिन व्यवहार के अनुकूल तरीके से। सामान्य परिचय के साथ शुरू होता है, लेकिन सबसे अधिक इस्तेमाल किए जाने वाले तरीकों और एल्गोरिदम में से कुछ की समीक्षा करता है। यदि आपको केवल एक ही पुस्तक का चयन करना है, तो मैं इसे सुझाऊंगा।

आप आसानी से प्राकृतिक भाषा प्रसंस्करण और पाठ खनन पर कई किताबें पा सकते हैं जो आर ( टीएम लाइब्रेरी) या पायथन ( एनएलटीके लाइब्रेरी) का उपयोग करने पर ध्यान केंद्रित करते हैं ।


2

यह उस बिंदु पर बिल्कुल नहीं हो सकता है जो आप खोज रहे हैं, लेकिन जेफरी फ्रिडल द्वारा मास्टरींग रेगुलर एक्सप्रेशंस टेक्स्ट को पार्स करने के लिए नियमित अभिव्यक्ति का उपयोग करने का तरीका सीखने के लिए एक शानदार स्रोत है। वह मॉडलिंग तकनीकों पर चर्चा नहीं करता है, लेकिन, नियमित अभिव्यक्तियों को लागू करने के लिए मायने रखता है, आप कई प्रकार के मानक मॉडलिंग दृष्टिकोण लागू कर सकते हैं।


2

एक पुस्तक जिसे मैं बार-बार जाता हूं और फिर से विचारों के लिए पाठ माइनिंग: प्रेडिक्टिव मेथड्स ... शोलोम वीस द्वारा। यह उन समस्याओं के करीब पहुंचने के लिए बहुत सारे विचार हैं जो मुझे उपयोगी लगते हैं क्योंकि कभी-कभी पाठ खनन विभिन्न चीजों की कोशिश करने के बारे में है - ग्लोबल बनाम स्थानीय शब्दकोश, रखने के लिए सुविधाओं की संख्या, आदि। मुझे लगता है कि यह पुस्तक एक अच्छा विचार जनरेटर है। इसमें केस स्टडी भी है।


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.