अनौपचारिक पाठ पर नामांकित मान्यता के लिए डेटासेट

मैं वर्तमान में अनौपचारिक पाठ (ट्वीट के समान कुछ) से नामित संस्थाओं को निकालने के लिए एक मॉडल को प्रशिक्षित करने के लिए लेबल किए गए डेटासेट की खोज कर रहा हूं। क्योंकि पूंजीकरण और व्याकरण में अक्सर मेरे डेटासेट में दस्तावेजों की कमी होती है, मैं ऐसे डोमेन डेटा की तलाश कर रहा हूं जो समाचार लेख और जर्नल प्रविष्टियों की तुलना में "अनौपचारिक" थोड़ा अधिक है जो कि आज के अत्याधुनिक मान्यता प्रणालियों के कई राज्य हैं। पर प्रशिक्षित किया गया।

कोई सिफारिशें? अब तक मैं केवल यहां प्रकाशित ट्विटर से 50k टोकन का पता लगाने में सक्षम हूं ।

dataset nlp

— मैडिसन मे
स्रोत

Opendata.stackexchange.com

— एयर

@ मैडिसन मे। क्या आपको कोई डेटा सेट मिला? मैं कुछ इसी तरह की तलाश में हूं। धन्यवाद।

— इहोफर

मुझे U. वाशिंगटन के ट्विटर नीर कॉर्पस (मूल पोस्ट से जुड़े) से करना था।

— मैडिसन मई

टैग किए गए पाठ का

— फ्रेंक डर्नोनकोर्ट

किसी भी संबंधित अच्छा एनोटेट अंग्रेजी कॉर्पस मिला?

— अच्युता नंद साहू

जवाबों:

जैसा कि मैंने इसे समझा, ये वे गुण हैं जो आप एक नमूना डेटासेट में मांग रहे हैं:

पाठ डेटा
यह अनौपचारिक होना चाहिए, अर्थात टाइपोस, स्लैंग और मूल रूप से पेशेवर रूप से संपादित कुछ नहीं
ट्विटर के अलावा कुछ और (मैं आपको दोष नहीं देता, ट्विटर टेक्स्ट माइनिंग में एक उपयोगी अभी तक अप्रयुक्त उदाहरण डेटा स्रोत है)

यहाँ कुछ सिफारिशें दी गई हैं:

SpamAssassin कॉर्पस से ईमेल - ध्यान दें कि दोनों "हैम" (गैर-स्पैम) और स्पैम डेटासेट उपलब्ध हैं
यूसीआई से माइक्रोब्लॉगपीसीयू डेटा सेट , जो सिना वेइबो उपयोगकर्ताओं के माइक्रोब्लॉग से डेटा स्क्रैप किया जाता है - ध्यान दें, कच्चा पाठ डेटा चीनी और अंग्रेजी का मिश्रण है (आप चीनी का मशीनी अनुवाद कर सकते हैं, केवल अंग्रेजी को फ़िल्टर कर सकते हैं, या इसे कर सकते हैं) जैसा है)
अमेज़न कॉमर्स यूसीआई से डेटासेट की समीक्षा करता है
भीतर बैग-ओ-शब्द डाटासेट , एनरॉन ईमेल का उपयोग करके देखें
बीस समाचार समूह डाटासेट
एसएमएस स्पैम का यह अच्छा संग्रह
आप हमेशा इंटरनेट से अपने स्वयं के पाठ डेटा को निकाल सकते हैं (निकाल सकते हैं); मुझे यकीन है कि जो भाषा या सांख्यिकीय पैकेज आप उपयोग कर रहे हैं, लेकिन XPath आधारित संकुल आर (में उपलब्ध हैं नहीं कर रहा हूँ rvest, scrapeR, आदि) और अजगर यह पूरा करने के

— हैक-आर
स्रोत

हालांकि इनमें से कोई भी डेटासेट नामित संस्थाओं के साथ एनोटेट किया गया है? मेरा मानना है कि ओपी की तलाश थी।

— श्री फिल

इन्हें जांचें:

सूचना निष्कर्षण के लिए परीक्षण डोमेन का भंडार: http://www.isi.edu/info-agents/RISE/repository.html

DBpedia: http://wiki.dbpedia.org/Downloads32 ( दर्पण )

लिंक अपडेट किया गया:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set

— Sreejithc321
स्रोत

कृपया इन लिंक को अपडेट करें क्योंकि उनमें से कोई भी अब काम नहीं कर रहा है।

— श्री फिल

कुछ स्रोत जो मैंने उपयोग किए हैं:

क्लासिक CONLL कॉर्पस: CONLL डेटासेट
एक कागले स्रोत जो एक कोशिश के लायक है: कागल एनईआर कॉर्पस
OntoNotes रिलीज 5.0: नोटों पर
बायो एंटिटी रिकग्निशन टास्क: बायो एंटिटीज
एक और ईमेल संबंधित डेटासेट: एनरॉन ईमेल डेटासेट

मुझे लगता है कि ये डेटासेट आपके काम के लिए बहुत मददगार होंगे

— ज्ञान रंजन
स्रोत