एपीआई / उपकरण बिना किसी बाधा के खनन के लिए? [बन्द है]

मैं असंरचित पाठ से एक अवधारणा मानचित्र बनाना चाहता हूं। उदाहरण के लिए

Desired input: find "/" -name "*.txt"
Desired output: concepts-graph.dot

दूसरे शब्दों में, मैं अपनी पाठ फ़ाइलों को माइन करना चाहता हूं और मुख्य शब्दों / अवधारणाओं के कुछ प्रकार के संरचित प्रतिनिधित्व बनाना चाहता हूं। एक गरीब-आदमी का Google पाठ विश्लेषक।

क्या कोई ओपन सोर्स टूल / एपीआई है जो एक प्लेनटेक्स्ट फ़ाइल में शर्तों के बीच संबंध पा सकता है?

data-mining

— श्रीधर सरनोबत
स्रोत

श्रीधर, हम [चार्ट] को [चार्ट] में प्रति मेटा / superuser.com/questions/6841/… में मर्ज करने का प्रयास कर रहे हैं ।

— केनस्टर

हम्म, इसलिए न तो "ग्राफ" और न ही "चार्ट" का उपयोग यहां किया जा सकता है। और "टैगेड एसाइक्लिक ग्राफ" जैसा कोई टैग नहीं है

— श्रीधर सरनोबत

आपके द्वारा बनाए जा सकने वाले कई उपकरण हैं:

जहाँ तक प्रमुख शब्द चलते हैं, वहाँ बुनियादी उपकरण हैं, जैसे पोर्टर स्टेमर्स, अधिकांश प्रोग्रामिंग भाषाओं में उपलब्ध हैं, और विशिष्ट भाषाओं के लिए बहुत अधिक विकल्प हैं।

उदाहरण के लिए, एनएलटीके (प्राकृतिक भाषा टूलकिट) - एक पायथन टेक्स्ट वर्गीकरण प्रणाली - जिसका उपयोग आप पार्ट-टू-स्पीच टैगिंग ( http://nltk.org/ ) जैसी चीजों के लिए कर सकते हैं।

इसके अलावा, R: http://tm.r-forge.r-project.org/ के अंतर्गत आपके द्वारा उपयोग किए जा सकने वाले विभिन्न टेक्स्ट माइनिंग पैकेज हैं , (उदाहरण के लिए ये स्लाइड भी देखें: http://www.zinkov.com/posts /2010-10-21-slides_from_larug/tm_slides.pdf )।

यदि आप उस प्रकार के पाठ विश्लेषण का स्पष्ट विचार प्रदान कर सकते हैं जो आपके मन में है तो विशिष्ट पैकेजों का सुझाव देना आसान होगा जो प्रासंगिक हो सकते हैं?

— सोज़
स्रोत

उत्तर सोज़ के लिए धन्यवाद। असल में, मेरे todo.txt में मेरे द्वारा देखी गई वेबसाइटों से बहुत सारे URL + शीर्षक जोड़े हैं (मैं अपने ब्राउज़र विंडो को हर सत्र में बंद करने से पहले उन सभी को बचाता हूं)। मैं मकड़ी चित्र (या ग्राफ) के रूप में, जो कुछ भी मैं अपने समय को पढ़ने में बिता रहा हूं, उसका एक चित्रात्मक प्रतिनिधित्व प्राप्त करना चाहता हूं। तो ग्राफ में पथ हो सकते हैं जैसे: (1) रूट -> nosql -> कैसेंड्रा (2) रूट -> nosql -> neo4j (3) रूट -> फ़ुटबॉल -> ब्राज़ीलियाई खिलाड़ी -> रोनाल्डो तो मेरे द्वारा पढ़ने के घंटे खर्च करने के बजाय txt फ़ाइल, मैं बस एक आरेख को देख सकता हूं और इससे उपयोगी सामग्री निकाल सकता हूं।

— श्रीधर सरनोबत

समझ लिया। खैर, उस तरह के उदाहरण (बीस्पोक डेटासेट) में, मेरा अनुभव यह है कि सबसे आसान तरीका आपके पसंदीदा पर्ल, पायथन या अन्य समान भाषा को चुनना है और सीधे एक डॉट फ़ाइल का निर्माण करना है। डॉट फाइलों के बारे में: मैं डुप्लीकेट रास्तों से छुटकारा पाने के लिए ग्राफ की घोषणा करते समय कीवर्ड 'सख्त' का सुझाव देता हूं, और लाइनों को उपयुक्त रूप से प्रकाश में रखने के लिए एज [पेनसेट = 0.2] या कोशिश करता हूं। शीर्षक पार्सिंग के बारे में, पार्ट-ऑफ-स्पीच टैगिंग संभावित-प्रासंगिक कैंडिडेट शर्तों को बाहर निकालने में मदद कर सकता है।

— सोज़

मुझे लगता है कि यह वह सारी जानकारी है जो मुझे सिद्धांत में चाहिए। हार्ड भाग एक सरल-से-उपयोग पैकेज ढूंढ रहा है। मैंने माउ और जेट की कोशिश की लेकिन दोनों को छोड़ दिया।

— श्रीधर सरनोबत