मुझे यकीन नहीं है कि यह प्रश्न यहां पूरी तरह से उचित है, यदि नहीं, तो कृपया हटाएं।
मैं अर्थशास्त्र में एक स्नातक छात्र हूं। एक प्रोजेक्ट के लिए जो सामाजिक बीमा में मुद्दों की जांच करता है, मेरे पास बड़ी संख्या में प्रशासनिक मामले की रिपोर्ट (> 200k) तक पहुंच है, जो पात्रता मूल्यांकन से संबंधित है। ये रिपोर्ट संभवतः व्यक्तिगत प्रशासनिक जानकारी से जुड़ी हो सकती हैं। मैं इन रिपोर्टों से जानकारी निकालना चाहता हूं जिनका उपयोग मात्रात्मक विश्लेषण में किया जा सकता है, और आदर्श रूप से सरल कीवर्ड / regex खोजों का उपयोग grep
/ awk
आदि से अधिक है ।
इसके लिए प्राकृतिक भाषा प्रसंस्करण कितना उपयोगी है? अन्य उपयोगी टेक्स्ट-माइनिंग दृष्टिकोण क्या हैं? जो मैं समझता हूं कि यह एक बड़ा क्षेत्र है, और सबसे अधिक संभावना है कि कुछ रिपोर्टों को एक कॉर्पस के रूप में उपयोग करने के लिए बदलना होगा। क्या साहित्य और तरीकों से परिचित होने के लिए कुछ समय का निवेश करना उचित है? क्या यह मददगार हो सकता है और पहले भी कुछ ऐसा ही किया गया है? क्या यह पुरस्कार के संदर्भ में इसके लायक है, क्या मैं अर्थशास्त्र में अनुभवजन्य अध्ययन के लिए एनएलपी का उपयोग करके संभावित उपयोगी जानकारी निकाल सकता हूं?
किसी रिपोर्ट को पढ़ने और प्रस्तुत करने के लिए किसी को काम पर रखने के लिए संभवतः फंडिंग है। यह एक बड़ी परियोजना है और अधिक धन के लिए आवेदन करने की संभावना है। यदि आवश्यक हो तो मैं विषय के बारे में अधिक जानकारी प्रदान कर सकता हूं। एक संभावित जटिलता यह है कि भाषा जर्मन है, अंग्रेजी नहीं।
योग्यता के बारे में, मुझे ज्यादातर अर्थमिति में प्रशिक्षित किया जाता है, और हस्ती एट अल के स्तर पर कम्प्यूटेशनल आंकड़ों के बारे में कुछ ज्ञान है । पुस्तक। मैं पायथन, आर, स्टैटा को जानता हूं, और शायद मैटलैब से जल्दी परिचित हो सकता हूं। पुस्तकालयों को देखते हुए, मुझे लगता है कि पायथन इसके लिए पसंद का उपकरण है। यदि यह प्रासंगिक है तो गुणात्मक तरीकों में कोई प्रशिक्षण नहीं है, लेकिन मुझे पता है कि कुछ लोग मेरे पास पहुंच सकते हैं।
मुझे इस पर किसी भी इनपुट के लिए खुशी है, अर्थात यदि यह संभावित रूप से उपयोगी है, यदि हां, तो कहां से पढ़ना शुरू करना है और विशेष रूप से किन उपकरणों पर ध्यान केंद्रित करना है।