दस्तावेजों से पाठ के अधिकांश जानकारीपूर्ण भागों को निकालें

16

क्या पाठ के उस हिस्से को निकालने के बारे में कोई लेख या चर्चा है जो वर्तमान दस्तावेज़ के बारे में सबसे अधिक जानकारी रखता है।

उदाहरण के लिए, मेरे पास एक ही डोमेन से दस्तावेजों का एक बड़ा कोष है। पाठ के कुछ हिस्से हैं जो महत्वपूर्ण जानकारी रखते हैं कि एकल दस्तावेज़ किस बारे में बात करता है। मैं उनमें से कुछ हिस्सों को निकालना चाहता हूं और उन्हें पाठ के सारांश के रूप में उपयोग करना चाहता हूं। क्या इस तरह से कुछ हासिल करने के बारे में कोई उपयोगी दस्तावेज है।

यह वास्तव में मददगार होगा अगर कोई मुझे सही दिशा में इंगित कर सकता है कि मुझे क्या खोज करनी चाहिए या काम में कुछ अंतर्दृष्टि प्राप्त करने के लिए पढ़ना चाहिए जो कि प्राकृतिक भाषा प्रसंस्करण के इस क्षेत्र में पहले से ही हो सकता है।

nlp text-mining

— MaticDiba
स्रोत

23

आप जो वर्णन कर रहे हैं, वह अक्सर TF-IDF और एक्स्ट्रेक्टिव सारांश के सरल संयोजन का उपयोग करके हासिल किया जाता है ।

संक्षेप में, टीएफ-आईडीएफ आपको प्रत्येक दस्तावेज़ में प्रत्येक शब्द के सापेक्ष महत्व को बताता है, जो कि आपके शेष कोष की तुलना में है। इस बिंदु पर, आपके पास प्रत्येक दस्तावेज़ में प्रत्येक शब्द के लिए एक अंक होता है जो इसके "महत्व" का अनुमान लगाता है। फिर आप प्रत्येक वाक्य में प्रत्येक शब्द के अंकों को जोड़कर प्रत्येक वाक्य के लिए एक समग्र स्कोर की गणना करने के लिए इन व्यक्तिगत शब्द स्कोर का उपयोग कर सकते हैं। अंत में, बस प्रत्येक दस्तावेज से उसके सारांश के रूप में टॉप-एन स्कोरिंग वाक्य लें।

इस साल की शुरुआत में, मैंने एक iPython नोटबुक को एक साथ रखा, जो NLTK और स्किकिट-लर्निंग का उपयोग करते हुए पायथन में इसे लागू करने के साथ-साथ सीखता है: Python में NLP का एक चापलूसी ।

— चार्ली ग्रीनबैकर
स्रोत

2

हाँ, शायद यही होगा। मैं कुछ शब्दों में अतिरिक्त भार भी जोड़ सकता हूं, जो मुझे पहले से ही पता है कि जानकारीपूर्ण हैं। आपकी मदद और उपयोगी लिंक के लिए धन्यवाद।

— मतीदिबा

तो क्या मैं इसे एक पीडीएफ पर उपयोग कर सकता हूं? :)

— एडम

हां, आप पीडीएफ में पाठ पर इसका उपयोग कर सकते हैं, यह मानते हुए कि आपने पीडीएफ़टैक्स जैसे कुछ का उपयोग करके पीडीएफ से सादे पाठ को पहले ही निकाल दिया है।

— चार्ली ग्रीनबैकर

1

कीवर्ड निष्कर्षण तकनीकों के बहुत सारे कारण जैसे कारकों पर निर्भर करते हैं:

पाठ की व्याकरणिक गुणवत्ता
पाठ की लंबाई
चाहे आप किसी एक कीवर्ड या किसी कीवर्ड कीवर्ड आदि की तलाश कर रहे हों

लेकिन सामान्य तौर पर, यदि आपके पास एक लंबा पाठ है और आप उसमें से स्वचालित रूप से कीवर्ड निकालना चाहते हैं, तो मैं आपको निम्नलिखित लेखों से गुजरने की सलाह दूंगा:

TextRank
RAKE [रैपिड स्वचालित कीवर्ड निष्कर्षण]
Topica

कस्टम (विशेष) कीवर्ड निकालने के लिए जो उपरोक्त तकनीकों के माध्यम से नहीं आ रहे हैं, नीचे दी गई पोस्ट पर एक नज़र डालें:

अजगर में एनएलटीके पीओएस टैगर का उपयोग करके कस्टम कीवर्ड निकालें

— अनिंद्य
स्रोत