दस्तावेजों से पाठ के अधिकांश जानकारीपूर्ण भागों को निकालें


16

क्या पाठ के उस हिस्से को निकालने के बारे में कोई लेख या चर्चा है जो वर्तमान दस्तावेज़ के बारे में सबसे अधिक जानकारी रखता है।

उदाहरण के लिए, मेरे पास एक ही डोमेन से दस्तावेजों का एक बड़ा कोष है। पाठ के कुछ हिस्से हैं जो महत्वपूर्ण जानकारी रखते हैं कि एकल दस्तावेज़ किस बारे में बात करता है। मैं उनमें से कुछ हिस्सों को निकालना चाहता हूं और उन्हें पाठ के सारांश के रूप में उपयोग करना चाहता हूं। क्या इस तरह से कुछ हासिल करने के बारे में कोई उपयोगी दस्तावेज है।

यह वास्तव में मददगार होगा अगर कोई मुझे सही दिशा में इंगित कर सकता है कि मुझे क्या खोज करनी चाहिए या काम में कुछ अंतर्दृष्टि प्राप्त करने के लिए पढ़ना चाहिए जो कि प्राकृतिक भाषा प्रसंस्करण के इस क्षेत्र में पहले से ही हो सकता है।

जवाबों:


23

आप जो वर्णन कर रहे हैं, वह अक्सर TF-IDF और एक्स्ट्रेक्टिव सारांश के सरल संयोजन का उपयोग करके हासिल किया जाता है ।

संक्षेप में, टीएफ-आईडीएफ आपको प्रत्येक दस्तावेज़ में प्रत्येक शब्द के सापेक्ष महत्व को बताता है, जो कि आपके शेष कोष की तुलना में है। इस बिंदु पर, आपके पास प्रत्येक दस्तावेज़ में प्रत्येक शब्द के लिए एक अंक होता है जो इसके "महत्व" का अनुमान लगाता है। फिर आप प्रत्येक वाक्य में प्रत्येक शब्द के अंकों को जोड़कर प्रत्येक वाक्य के लिए एक समग्र स्कोर की गणना करने के लिए इन व्यक्तिगत शब्द स्कोर का उपयोग कर सकते हैं। अंत में, बस प्रत्येक दस्तावेज से उसके सारांश के रूप में टॉप-एन स्कोरिंग वाक्य लें।

इस साल की शुरुआत में, मैंने एक iPython नोटबुक को एक साथ रखा, जो NLTK और स्किकिट-लर्निंग का उपयोग करते हुए पायथन में इसे लागू करने के साथ-साथ सीखता है: Python में NLP का एक चापलूसी


2
हाँ, शायद यही होगा। मैं कुछ शब्दों में अतिरिक्त भार भी जोड़ सकता हूं, जो मुझे पहले से ही पता है कि जानकारीपूर्ण हैं। आपकी मदद और उपयोगी लिंक के लिए धन्यवाद।
मतीदिबा

तो क्या मैं इसे एक पीडीएफ पर उपयोग कर सकता हूं? :)
एडम

हां, आप पीडीएफ में पाठ पर इसका उपयोग कर सकते हैं, यह मानते हुए कि आपने पीडीएफ़टैक्स जैसे कुछ का उपयोग करके पीडीएफ से सादे पाठ को पहले ही निकाल दिया है।
चार्ली ग्रीनबैकर

1

कीवर्ड निष्कर्षण तकनीकों के बहुत सारे कारण जैसे कारकों पर निर्भर करते हैं:

  1. पाठ की व्याकरणिक गुणवत्ता
  2. पाठ की लंबाई
  3. चाहे आप किसी एक कीवर्ड या किसी कीवर्ड कीवर्ड आदि की तलाश कर रहे हों

लेकिन सामान्य तौर पर, यदि आपके पास एक लंबा पाठ है और आप उसमें से स्वचालित रूप से कीवर्ड निकालना चाहते हैं, तो मैं आपको निम्नलिखित लेखों से गुजरने की सलाह दूंगा:

  1. TextRank

  2. RAKE [रैपिड स्वचालित कीवर्ड निष्कर्षण]

  3. Topica

कस्टम (विशेष) कीवर्ड निकालने के लिए जो उपरोक्त तकनीकों के माध्यम से नहीं आ रहे हैं, नीचे दी गई पोस्ट पर एक नज़र डालें:

अजगर में एनएलटीके पीओएस टैगर का उपयोग करके कस्टम कीवर्ड निकालें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.