मैंने tm
एक दोस्त द्वारा एक ड्राफ्ट पेपर पढ़ने के बाद तीन दिनों तक डबिंग की, जहां उसने UCINET के साथ एक टेक्स्ट कॉर्पस की खोज की, जिसमें टेक्स्ट क्लाउड्स, टू-मोड नेटवर्क ग्राफ और सिंगल वैल्यू डिकम्पोजिशन (ग्राफिक्स के साथ, स्टैटा का उपयोग करके) दिखाया गया। मैं बड़ी संख्या में मुद्दों के तहत भाग गया: मैक ओएस एक्स पर, स्नोबॉल (स्टेमिंग) या आरग्राफविज़ (ग्राफ़) जैसी पुस्तकालयों के पीछे जावा के साथ मुद्दे हैं।
क्या कोई पैकेज की ओर इशारा नहीं कर सकता है - मैंने एनएलटीके के बारे में देखा है tm
, wordfish
और wordscores
जाना है - लेकिन शोध, यदि संभव हो तो कोड के साथ, पाठ डेटा पर, जो tm
संसदीय बहसों या विधायी दस्तावेजों जैसे डेटा का विश्लेषण करने के लिए सफलतापूर्वक उपयोग करता है या कुछ और? मुझे इस मुद्दे पर बहुत कुछ नहीं मिल रहा है, और इससे भी कम कोड जानने के लिए।
मेरी खुद की परियोजना दो महीने की संसदीय बहस है, इन चर के साथ एक सीएसवी फ़ाइल में सूचित किया गया है: संसदीय सत्र, स्पीकर, संसदीय समूह, मौखिक हस्तक्षेप का पाठ। मैं बोलने वालों के बीच और विशेष रूप से दुर्लभ और कम दुर्लभ शब्दों के उपयोग में संसदीय समूहों के बीच विचलन की तलाश कर रहा हूं, उदाहरण के लिए "नागरिक स्वतंत्रता" बात के खिलाफ "सुरक्षा वार्ता"।