मैं वर्तमान में अनौपचारिक पाठ (ट्वीट के समान कुछ) से नामित संस्थाओं को निकालने के लिए एक मॉडल को प्रशिक्षित करने के लिए लेबल किए गए डेटासेट की खोज कर रहा हूं। क्योंकि पूंजीकरण और व्याकरण में अक्सर मेरे डेटासेट में दस्तावेजों की कमी होती है, मैं ऐसे डोमेन डेटा की तलाश कर रहा हूं जो समाचार लेख और जर्नल प्रविष्टियों की तुलना में "अनौपचारिक" थोड़ा अधिक है जो कि आज के अत्याधुनिक मान्यता प्रणालियों के कई राज्य हैं। पर प्रशिक्षित किया गया।
कोई सिफारिशें? अब तक मैं केवल यहां प्रकाशित ट्विटर से 50k टोकन का पता लगाने में सक्षम हूं ।