अर्थमिति के लिए टेक्स्ट माइनिंग / प्राकृतिक भाषा प्रसंस्करण टूल का उपयोग करना


9

मुझे यकीन नहीं है कि यह प्रश्न यहां पूरी तरह से उचित है, यदि नहीं, तो कृपया हटाएं।

मैं अर्थशास्त्र में एक स्नातक छात्र हूं। एक प्रोजेक्ट के लिए जो सामाजिक बीमा में मुद्दों की जांच करता है, मेरे पास बड़ी संख्या में प्रशासनिक मामले की रिपोर्ट (> 200k) तक पहुंच है, जो पात्रता मूल्यांकन से संबंधित है। ये रिपोर्ट संभवतः व्यक्तिगत प्रशासनिक जानकारी से जुड़ी हो सकती हैं। मैं इन रिपोर्टों से जानकारी निकालना चाहता हूं जिनका उपयोग मात्रात्मक विश्लेषण में किया जा सकता है, और आदर्श रूप से सरल कीवर्ड / regex खोजों का उपयोग grep/ awkआदि से अधिक है ।

इसके लिए प्राकृतिक भाषा प्रसंस्करण कितना उपयोगी है? अन्य उपयोगी टेक्स्ट-माइनिंग दृष्टिकोण क्या हैं? जो मैं समझता हूं कि यह एक बड़ा क्षेत्र है, और सबसे अधिक संभावना है कि कुछ रिपोर्टों को एक कॉर्पस के रूप में उपयोग करने के लिए बदलना होगा। क्या साहित्य और तरीकों से परिचित होने के लिए कुछ समय का निवेश करना उचित है? क्या यह मददगार हो सकता है और पहले भी कुछ ऐसा ही किया गया है? क्या यह पुरस्कार के संदर्भ में इसके लायक है, क्या मैं अर्थशास्त्र में अनुभवजन्य अध्ययन के लिए एनएलपी का उपयोग करके संभावित उपयोगी जानकारी निकाल सकता हूं?

किसी रिपोर्ट को पढ़ने और प्रस्तुत करने के लिए किसी को काम पर रखने के लिए संभवतः फंडिंग है। यह एक बड़ी परियोजना है और अधिक धन के लिए आवेदन करने की संभावना है। यदि आवश्यक हो तो मैं विषय के बारे में अधिक जानकारी प्रदान कर सकता हूं। एक संभावित जटिलता यह है कि भाषा जर्मन है, अंग्रेजी नहीं।

योग्यता के बारे में, मुझे ज्यादातर अर्थमिति में प्रशिक्षित किया जाता है, और हस्ती एट अल के स्तर पर कम्प्यूटेशनल आंकड़ों के बारे में कुछ ज्ञान है पुस्तक। मैं पायथन, आर, स्टैटा को जानता हूं, और शायद मैटलैब से जल्दी परिचित हो सकता हूं। पुस्तकालयों को देखते हुए, मुझे लगता है कि पायथन इसके लिए पसंद का उपकरण है। यदि यह प्रासंगिक है तो गुणात्मक तरीकों में कोई प्रशिक्षण नहीं है, लेकिन मुझे पता है कि कुछ लोग मेरे पास पहुंच सकते हैं।

मुझे इस पर किसी भी इनपुट के लिए खुशी है, अर्थात यदि यह संभावित रूप से उपयोगी है, यदि हां, तो कहां से पढ़ना शुरू करना है और विशेष रूप से किन उपकरणों पर ध्यान केंद्रित करना है।


LASSO, Least Angle Regression और Logistic विश्लेषण कुछ संभावित प्रासंगिक उपकरण हैं। आप यह जांचना चाहेंगे कि मैंने अपने पीएचडी के लिए इसी तरह की समस्या का सामना कैसे किया। यहाँ थीसिस और मेरा ब्लॉग यहाँ अर्थशास्त्र में एनएलपी टूल्स के बारे में पोस्ट करता है । यदि आप इसके साथ कहीं भी मिले, तो आपकी प्रगति या आपके द्वारा चलायी जा रही चुनौतियों के बारे में सुनना बहुत अच्छा होगा।
क्रमिक

जवाबों:


2

मुझे लगता है कि यह आपको यह परिभाषित करने के लिए लाभ देगा कि आप डेटा से कौन सी जानकारी निकालना चाहते हैं। सरल कीवर्ड / रेगेक्स खोजें वास्तव में आपके लिए बहुत उपयोगी हो सकती हैं। मैं बीमा में काम करता हूं और हम इस तरह के टेक्स्ट माइनिंग का अक्सर उपयोग करते हैं - यह यकीनन भोला और निश्चित रूप से अपूर्ण है, लेकिन यह आम तौर पर जिस चीज में हमारी रुचि है, वह अपेक्षाकृत अच्छी शुरुआत (या निकट सन्निकटन) है।

लेकिन मेरे मुख्य बिंदु के लिए, यह पता लगाने के लिए कि क्या आपकी चुनी हुई विधि उपयुक्त है, मैं यह निर्धारित करने की सलाह दूंगा कि वास्तव में आप डेटा से क्या निकालना चाहते हैं; मेरी राय में यह सबसे कठिन हिस्सा है।

यह दिलचस्प हो सकता है कि सभी तार के भीतर अद्वितीय शब्दों को ढूंढें और शीर्ष 1000 शब्दों या तो की आवृत्ति करें। यह कम्प्यूटेशनल रूप से महंगा हो सकता है (आपके रैम / प्रोसेसर पर निर्भर करता है) लेकिन यह देखने में दिलचस्प हो सकता है। अगर मैं इसके बारे में अधिक जानकारी के बिना डेटा की खोज कर रहा था, तो यह वह जगह है जहाँ मैं शुरू करूँगा (अन्य लोग अलग-अलग विचार प्रस्तुत कर सकते हैं)।

उम्मीद है की वो मदद करदे।


धन्यवाद, मैं निश्चित रूप से कुछ इस तरह से शुरू करने के बारे में सोच रहा था। मुझे पता है कि मेरा सवाल अस्पष्ट है, लेकिन मैं आमतौर पर इस बात में दिलचस्पी रखता हूं कि मैं किस तरह की जानकारी अन्य तरीकों से निकाल पाऊंगा। मैं मानता हूं कि मैं निश्चित नहीं हूं कि क्या विशिष्ट संदर्भ को जाने बिना इसका उत्तर देना संभव है।
इलप्रिनिपे

1
मुझे लगता है कि किसी भी डेटा से संबंधित कार्य / पेशे के साथ हमेशा चुनौती होती है। मैं शायद आपके कुछ डेटा को देखने की सलाह दूंगा, अगर डेटा या बीमा घटना के बारे में विवरण के साथ चर हैं, तो एक दो दर्जन पढ़ें - डेटा के लिए एक अनुभव प्राप्त करें। याद रखें, हम जो भी करने की कोशिश कर रहे हैं, वह डेटा की अंतर्निहित प्रक्रिया को मॉडल करने के लिए है और वास्तव में यह करने के लिए कि आपको डेटा जानना है।
फ्रांसिस्को आरसीओ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.