पाठ का सांख्यिकीय वर्गीकरण


32

मैं सांख्यिकीय पृष्ठभूमि के बिना एक प्रोग्रामर हूं, और मैं वर्तमान में बड़ी संख्या में विभिन्न दस्तावेजों के लिए विभिन्न वर्गीकरण विधियों को देख रहा हूं जिन्हें मैं पूर्व-परिभाषित श्रेणियों में वर्गीकृत करना चाहता हूं। मैं केएनएन, एसवीएम और एनएन के बारे में पढ़ रहा हूं। हालाँकि, मुझे कुछ परेशानी होने लगी है। आप किन संसाधनों की सलाह देते हैं? मैं एकल चर और बहु ​​चर गणनाओं को अच्छी तरह से जानता हूं, इसलिए मेरा गणित काफी मजबूत होना चाहिए। मैं न्यूरल नेटवर्क्स पर बिशप की पुस्तक का मालिक हूं, लेकिन यह एक परिचय के रूप में थोड़ा घना साबित हुआ है।

जवाबों:


19

मैं इन पुस्तकों की सलाह देता हूं - वे अमेज़न पर भी उच्च श्रेणी के हैं:

Weiss द्वारा "टेक्स्ट माइनिंग"

"टेक्स्ट माइनिंग एप्लीकेशन प्रोग्रामिंग", कोंचडी द्वारा

सॉफ्टवेयर के लिए, मैं RapidMiner (पाठ प्लगइन के साथ), मुफ्त और ओपन-सोर्स की सलाह देता हूं।

यह मेरी "पाठ खनन प्रक्रिया" है:

  • दस्तावेज़ एकत्र करें (आमतौर पर एक वेब क्रॉल)
    • [नमूना अगर बहुत बड़ा है]
    • टाइमस्टैम्प
    • स्ट्रिप आउट मार्कअप
  • tokenize: वर्ण, शब्द, n- ग्राम, या स्लाइडिंग विंडो में विराम
  • उपजी (उर्फ लेम्मेटाइजेशन)
    • [समानार्थी शामिल करें]
    • कुली या स्नोफ्लेक एल्गोरिथ्म सर्वनाम और लेख देखें आमतौर पर बुरे भविष्यवक्ता होते हैं
  • स्टॉपवार्ड हटा दें
  • वैश्वीकरण की सुविधा
    • बाइनरी (प्रकट या नहीं)
    • शब्द गणना
    • सापेक्ष आवृत्ति: tf-idf
    • जानकारी का लाभ, ची वर्ग
    • [समावेश के लिए एक न्यूनतम मूल्य है]
  • भार
    • दस्तावेज़ के शीर्ष पर भार शब्द?

फिर आप उन्हें वर्गीकृत करने का काम शुरू कर सकते हैं। केएनएन, एसवीएम, या उपयुक्त के रूप में नैवे बे।

आप यहां टेक्स्ट माइनिंग वीडियो की मेरी श्रृंखला देख सकते हैं


यह एक महान जवाब है! मैं आपके पुस्तक सुझावों पर गौर करूँगा, और आपकी प्रक्रिया का विवरण भी बढ़िया होगा। मैं विशेष रूप से फीचर वेक्टराइज़ेशन के लिए सुझाव पसंद करता हूं।
एमिल एच।

(यदि कोई वैश्वीकरण के हिस्से पर और भी विस्तार करना चाहे, तो यह बहुत अच्छा होगा।)
एमिल एच।

11

आपके द्वारा उल्लिखित विषयों को कवर करने वाला एक महान परिचयात्मक पाठ सूचना पुनर्प्राप्ति का परिचय है , जो मुफ्त में पूर्ण पाठ में ऑनलाइन उपलब्ध है।

सूचना पुनर्प्राप्ति का परिचय


मैंने वास्तव में कल काम पर स्कैन किया था। यह एक दिलचस्प पढ़ा है - काश मेरे पास उस सामग्री को अवशोषित करने के लिए अधिक समय होता, लेकिन मुझे जो चाहिए था, वह प्राप्त करना था और आगे बढ़ना था।
थॉमस ओवेन्स

सहमत, यह एक उत्कृष्ट पुस्तक है। यह बहुत स्पष्ट करता है कि Google कैसे काम करता है :)
नील मैकग्यूगन

5

बड़ी संख्या में दस्तावेजों के लिए तंत्रिका नेटवर्क धीमा हो सकता है (यह भी अब बहुत अप्रचलित है)।
और आप क्लासिफायर के बीच रैंडम फ़ॉरेस्ट की भी जांच कर सकते हैं; यह काफी तेज है, अच्छा है और जटिल ट्यूनिंग की जरूरत नहीं है।


रैंडम वन के लिए +1। निश्चित रूप से 1 का प्रयास करने के लिए एक अच्छा क्लासिफायर, क्योंकि वे ओवरफिट नहीं करते हैं।
ज़च

4

यदि आप प्रोग्रामिंग पक्ष से आ रहे हैं, तो एक विकल्प पायथन के लिए प्राकृतिक भाषा टूलकिट (NLTK) का उपयोग करना है। एक ओ'रिली किताब है, जो स्वतंत्र रूप से उपलब्ध है , जो अन्य चीजों के बीच दस्तावेजों के लिए क्लासिफायर बनाने के लिए कम घना और अधिक व्यावहारिक परिचय हो सकता है।

यदि आप सांख्यिकीय पक्ष, रॉजर लेवी की पुस्तक प्रगति पर, रूबेबिलिस्टिक मॉडल इन स्टडी ऑफ लैंग्वेज में गोमांस रखने के इच्छुक हैं , तो शायद बुरा न माने। यह सांख्यिकीय एनएलपी तकनीकों के साथ शुरू करने वाले कोगसी / कॉम्पिसि ग्रेड के छात्रों के लिए लिखा गया है।


3

सबसे पहले मैं आपको मैनिंग और शूज़ द्वारा सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण की पुस्तक नींव की सिफारिश कर सकता हूं ।

मेरे द्वारा उपयोग की जाने वाली विधियाँ शब्द-आवृत्ति वितरण और एनग्राम भाषा मॉडल हैं। जब आप विषय पर वर्गीकरण करना चाहते हैं तो पहले बहुत अच्छी तरह से काम करता है और आपके विषय विशिष्ट और विशेषज्ञ (कीवर्ड वाले) होते हैं। जब आप लेखन शैली आदि को वर्गीकृत करना चाहते हैं तो Ngram मॉडलिंग सबसे अच्छा तरीका है।


0

Naive Bayes आमतौर पर पाठ वर्गीकरण के लिए शुरुआती बिंदु है, यहां डॉ डोब्स का एक आलेख है कि किसी को कैसे लागू किया जाए। यह अक्सर पाठ वर्गीकरण के लिए अंतिम बिंदु भी होता है क्योंकि यह बहुत कुशल है और अच्छी तरह से समानांतरित होता है, SpamAssassin और POPFile इसका उपयोग करते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.