आर (टीएम पैकेज) के साथ पाठ खनन के उदाहरण


14

मैंने tmएक दोस्त द्वारा एक ड्राफ्ट पेपर पढ़ने के बाद तीन दिनों तक डबिंग की, जहां उसने UCINET के साथ एक टेक्स्ट कॉर्पस की खोज की, जिसमें टेक्स्ट क्लाउड्स, टू-मोड नेटवर्क ग्राफ और सिंगल वैल्यू डिकम्पोजिशन (ग्राफिक्स के साथ, स्टैटा का उपयोग करके) दिखाया गया। मैं बड़ी संख्या में मुद्दों के तहत भाग गया: मैक ओएस एक्स पर, स्नोबॉल (स्टेमिंग) या आरग्राफविज़ (ग्राफ़) जैसी पुस्तकालयों के पीछे जावा के साथ मुद्दे हैं।

क्या कोई पैकेज की ओर इशारा नहीं कर सकता है - मैंने एनएलटीके के बारे में देखा है tm, wordfishऔर wordscoresजाना है - लेकिन शोध, यदि संभव हो तो कोड के साथ, पाठ डेटा पर, जो tmसंसदीय बहसों या विधायी दस्तावेजों जैसे डेटा का विश्लेषण करने के लिए सफलतापूर्वक उपयोग करता है या कुछ और? मुझे इस मुद्दे पर बहुत कुछ नहीं मिल रहा है, और इससे भी कम कोड जानने के लिए।

मेरी खुद की परियोजना दो महीने की संसदीय बहस है, इन चर के साथ एक सीएसवी फ़ाइल में सूचित किया गया है: संसदीय सत्र, स्पीकर, संसदीय समूह, मौखिक हस्तक्षेप का पाठ। मैं बोलने वालों के बीच और विशेष रूप से दुर्लभ और कम दुर्लभ शब्दों के उपयोग में संसदीय समूहों के बीच विचलन की तलाश कर रहा हूं, उदाहरण के लिए "नागरिक स्वतंत्रता" बात के खिलाफ "सुरक्षा वार्ता"।


जवाबों:


7

टीएम के लेखक से पीएचडी निबंध, ऑस्ट्रिया से इंगो फेनेनर, अंग्रेजी भाषा में लिखा गया है। इस दस्तावेज़ के अध्याय 7-10 में बढ़ती जटिलता के साथ टीएम पैकेज के अनुप्रयोग हैं।

http://epub.wu.ac.at/1923/

अध्याय 7 आर-डेवेल 2006 मेलिंग सूची का विश्लेषण करके टीएम का एक आवेदन प्रस्तुत करता है। अध्याय 8 उपभोक्ता इलेक्ट्रॉनिक वाणिज्य के लिए व्यापार के लिए पाठ खनन का एक आवेदन दिखाता है। अध्याय 9 बकाया और करों से संबंधित ऑस्ट्रियाई सर्वोच्च प्रशासनिक न्यायालय के न्यायालयों की जांच करने के लिए tm का एक अनुप्रयोग है। [...] । अध्याय 10 ओज़ डेटा सेट के विज़ार्ड पर स्टाइलोमेट्री और ऑथरशिप रोपण के लिए एक आवेदन दिखाता है।

पूरे दस्तावेज़ को कवर करने के लिए पढ़ें। ध्यान दें, हालांकि, यह दस्तावेज 2008 में लिखा गया था, और तब से कुछ एपीआई परिवर्तन हुए हैं, उदाहरण के लिए, पीएचडी थीसिस एक फ़ंक्शन का उल्लेख करता tmMap()है जिसका नाम बदल दिया गया है tm_map()। तो कोड उदाहरण के रूप में काम नहीं करेगा, आप उन्हें आज़माने के लिए कट-एंड-पेस्ट का उपयोग नहीं कर सकते।

आप भी जा सकते हैं

http://tm.r-forge.r-project.org/users.html

"मौजूदा tm अनुप्रयोगों के बारे में नए उपयोगकर्ताओं को सूचित करने के प्रयास में इस साइट का लक्ष्य tm उपयोगकर्ताओं और उनकी टिप्पणियों की (एक अधूरी वर्णमाला) सूची प्रदान करना है। ज्ञात उपयोगकर्ता कंपनियों से अधिक व्यक्तियों के लिए अनुसंधान संस्थानों से लेकर हैं।"

और "एक कागज लिखा" वाक्यांश के लिए उस पृष्ठ पर खोज करें और आपको कई लिंक मिलेंगे। मैंने केवल एक पेपर पढ़ा है, "गीत के बोल में स्वचालित विषय का पता लगाना"। काफी रोचक, और मजेदार।


मुझे लगता है कि फेनेरर का शोध प्रबंध वह दस्तावेज है जिसने मुझे अब तक सबसे अधिक मदद की है। धन्यवाद!
Fr.

5

शुरू करने के लिए एक अच्छी जगह वेबसाइट पर प्रकाशनों की सूची हो सकती है tm, जैसे कि यह एक:

इन प्रकाशनों में से प्रत्येक के अंत में संदर्भ सूची में सफल अनुप्रयोग शामिल हैं tm, जो कि आप की तलाश में हैं। कई हैं - खासकर यदि आप तब संदर्भों के संदर्भ का पालन करते हैं।

उदाहरण के लिए, यहां एक प्रासंगिकता है:

फेनेरर I, हॉर्निक के (2007)। सुप्रीम प्रशासनिक न्यायालयों के न्यायालयों का टेक्स्ट माइनिंग। "C Preisach, H Burkhardt, L Schmidt-Thieme, R Decker (eds), \ Data Analysis, मशीन लर्निंग, और एप्लीकेशन में (Gesellschaft f ur के 31 वें वार्षिक सम्मेलन की कार्यवाही की कार्यवाही)। क्लेसिकेशन ईवी, 7 मार्च {9, 2007, फ्रीबर्ग, जर्मनी), "क्लासिस में अध्ययन, डेटा विश्लेषण, और ज्ञान संगठन। स्प्रिंगर-वर्लग।

सौभाग्य।


संदर्भ के लिए धन्यवाद। इन प्रकाशनों में विस्तार का स्तर हालांकि अपर्याप्त है - मुझे tmअपने अंत पर काम करने के तरीके के बारे में पर्याप्त जानकारी प्राप्त करने के लिए फेनेर के शोध प्रबंध से पढ़ना पड़ा । फिर भी, बहुत बहुत धन्यवाद :)
Fr.
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.