अनौपचारिक पाठ पर नामांकित मान्यता के लिए डेटासेट


18

मैं वर्तमान में अनौपचारिक पाठ (ट्वीट के समान कुछ) से नामित संस्थाओं को निकालने के लिए एक मॉडल को प्रशिक्षित करने के लिए लेबल किए गए डेटासेट की खोज कर रहा हूं। क्योंकि पूंजीकरण और व्याकरण में अक्सर मेरे डेटासेट में दस्तावेजों की कमी होती है, मैं ऐसे डोमेन डेटा की तलाश कर रहा हूं जो समाचार लेख और जर्नल प्रविष्टियों की तुलना में "अनौपचारिक" थोड़ा अधिक है जो कि आज के अत्याधुनिक मान्यता प्रणालियों के कई राज्य हैं। पर प्रशिक्षित किया गया।

कोई सिफारिशें? अब तक मैं केवल यहां प्रकाशित ट्विटर से 50k टोकन का पता लगाने में सक्षम हूं ।



@ मैडिसन मे। क्या आपको कोई डेटा सेट मिला? मैं कुछ इसी तरह की तलाश में हूं। धन्यवाद।
इहोफर

मुझे U. वाशिंगटन के ट्विटर नीर कॉर्पस (मूल पोस्ट से जुड़े) से करना था।
मैडिसन मई


किसी भी संबंधित अच्छा एनोटेट अंग्रेजी कॉर्पस मिला?
अच्युता नंद साहू

जवाबों:


6

जैसा कि मैंने इसे समझा, ये वे गुण हैं जो आप एक नमूना डेटासेट में मांग रहे हैं:

  1. पाठ डेटा
  2. यह अनौपचारिक होना चाहिए, अर्थात टाइपोस, स्लैंग और मूल रूप से पेशेवर रूप से संपादित कुछ नहीं
  3. ट्विटर के अलावा कुछ और (मैं आपको दोष नहीं देता, ट्विटर टेक्स्ट माइनिंग में एक उपयोगी अभी तक अप्रयुक्त उदाहरण डेटा स्रोत है)

यहाँ कुछ सिफारिशें दी गई हैं:

  1. SpamAssassin कॉर्पस से ईमेल - ध्यान दें कि दोनों "हैम" (गैर-स्पैम) और स्पैम डेटासेट उपलब्ध हैं
  2. यूसीआई से माइक्रोब्लॉगपीसीयू डेटा सेट , जो सिना वेइबो उपयोगकर्ताओं के माइक्रोब्लॉग से डेटा स्क्रैप किया जाता है - ध्यान दें, कच्चा पाठ डेटा चीनी और अंग्रेजी का मिश्रण है (आप चीनी का मशीनी अनुवाद कर सकते हैं, केवल अंग्रेजी को फ़िल्टर कर सकते हैं, या इसे कर सकते हैं) जैसा है)
  3. अमेज़न कॉमर्स यूसीआई से डेटासेट की समीक्षा करता है
  4. भीतर बैग-ओ-शब्द डाटासेट , एनरॉन ईमेल का उपयोग करके देखें
  5. बीस समाचार समूह डाटासेट
  6. एसएमएस स्पैम का यह अच्छा संग्रह
  7. आप हमेशा इंटरनेट से अपने स्वयं के पाठ डेटा को निकाल सकते हैं (निकाल सकते हैं); मुझे यकीन है कि जो भाषा या सांख्यिकीय पैकेज आप उपयोग कर रहे हैं, लेकिन XPath आधारित संकुल आर (में उपलब्ध हैं नहीं कर रहा हूँ rvest, scrapeR, आदि) और अजगर यह पूरा करने के

1
हालांकि इनमें से कोई भी डेटासेट नामित संस्थाओं के साथ एनोटेट किया गया है? मेरा मानना ​​है कि ओपी की तलाश थी।
श्री फिल

3

इन्हें जांचें:

सूचना निष्कर्षण के लिए परीक्षण डोमेन का भंडार: http://www.isi.edu/info-agents/RISE/repository.html

DBpedia: http://wiki.dbpedia.org/Downloads32 ( दर्पण )

लिंक अपडेट किया गया:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set


1
कृपया इन लिंक को अपडेट करें क्योंकि उनमें से कोई भी अब काम नहीं कर रहा है।
श्री फिल

0

कुछ स्रोत जो मैंने उपयोग किए हैं:

मुझे लगता है कि ये डेटासेट आपके काम के लिए बहुत मददगार होंगे

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.