स्थायी प्राकृतिक भाषा प्रसंस्करण डेटा पार्स किया गया

12

मैंने हाल ही में स्टैनफोर्ड के CoreNLP का उपयोग करके प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के साथ प्रयोग करना शुरू किया है , और मैं सोच रहा हूं कि एनएलपी पार्स किए गए डेटा को टेक्स्ट माइनिंग एप्लिकेशन जैसी किसी चीज़ के लिए स्टोर करने के मानक तरीके क्या हैं?

एक तरीका मुझे लगा कि दिलचस्प हो सकता है कि बच्चों को आसन्न सूची के रूप में संग्रहीत किया जाए और पुनरावर्ती प्रश्नों का अच्छा उपयोग किया जाए (पोस्टग्रैज इसका समर्थन करता है और मैंने पाया है कि यह वास्तव में अच्छी तरह से काम करता है)।

लेकिन मुझे लगता है कि इस तरह के विश्लेषण के आधार पर ऐसा करने के लिए कई मानक तरीके हैं जो वर्षों से क्षेत्र में काम कर रहे लोगों द्वारा अपनाया गया है। तो एनएलपी के पार्स किए गए डेटा के लिए मानक दृढ़ता रणनीतियों क्या हैं और उनका उपयोग कैसे किया जाता है?

— आर्सेनी मूरज़ेंको
स्रोत

3

मैंने एक बार एनएलपी टूलकिट के साथ काम किया और आपके द्वारा बताई गई समस्या में भाग गया। मुझे लगता है कि दो दृष्टिकोण हैं (कम से कम):

(निहित दृष्टिकोण), संस्मरण का उपयोग करें

प्रोग्रामिंग भाषाओं में जहां फ़ंक्शंस प्रथम श्रेणी की वस्तुएं हैं (जैसे कि लुआ, पायथन, या पर्ल 1 ), किसी दिए गए मान की गणना हो जाने के बाद फ़ंक्शन को उसके परिकलित मान के साथ फ़ंक्शन (रन-टाइम पर) द्वारा स्वचालित रूप से कार्यान्वित किया जा सकता है। मापदंडों का सेट।

यह वह दृष्टिकोण था जिसका मैंने उपयोग किया था और इसे जल्दी से लागू किया जा सकता था; दोष यह था कि कुछ बड़ी डेटा संरचनाएँ डिस्क पर बनी रहेंगी, और लोड करते समय पुनर्गणना की तुलना में तेज़ी के आदेश थे, फिर भी इसका समय लगा।
(स्पष्ट), कुछ डेटाबेस का उपयोग करें, यह संबंधपरक या दस्तावेज़-उन्मुख हो, भविष्य में आपके द्वारा ध्यान में रखे जाने वाले सभी परिणामों को संग्रहीत करने के लिए। इसके लिए शुरुआत में अधिक ध्यान देने की आवश्यकता है, लेकिन लंबे समय में भुगतान करना होगा।

शायद ब्याज की:

MapReduce के साथ डेटा-इंटेंसिव टेक्स्ट प्रोसेसिंग (पीडीएफ)

संपादित करें: एक और चीज़ जो मैंने हाल ही में मल्टीस्टेप लंबे समय तक चलने वाली संगणना के लिए उपयोग की है, एक वर्कफ़्लो फ्रेमवर्क है, जिसमें से दर्जनों हैं । यह वास्तव में दृढ़ता के बारे में नहीं है, लेकिन दृढ़ता वर्कफ़्लो में एक कदम है। मैं उस के लिए लुइगी की कोशिश कर रहा हूं और यह आता है, उदाहरण के लिए हैडॉप और पोस्टग्रैस हेल्पर कक्षाएं, जो बहुत सारे बॉयलरप्लेट कोड को समाप्त कर सकती हैं।

— Miku
स्रोत

2

एक अच्छी रणनीति एक अच्छे Reduce / Map चित्रित डेटाबेस का उपयोग करना है, यह भी NOSQL डेटाबेस की तरह पता है, जैसे MongoDB या CouchDB।
Theses डेटाबेस सरल कोडित नियमों को बनाने की अनुमति देता है, जिस पर मानचित्र की शर्तें और आसन्नता, और सरल कोडित नियमों को कम करने के लिए ("समूह") informations भी।

आप यहां शुरू कर सकते हैं:
http://www.mongodb.org/
http://wiki.apache.org/couchdb/

— g.annunziata
स्रोत