नामित एंटिटी मान्यता के लिए Word2Vec


25

मैं एक नामित निकाय मान्यता प्रणाली बनाने के लिए Google के word2vec कार्यान्वयन का उपयोग करना चाह रहा हूं। मैंने सुना है कि संरचना के माध्यम से वापस प्रसार के साथ पुनरावर्ती तंत्रिका जाल नामित इकाई मान्यता कार्यों के लिए अच्छी तरह से अनुकूल हैं, लेकिन मैं उस प्रकार के मॉडल के लिए एक सभ्य कार्यान्वयन या एक सभ्य ट्यूटोरियल खोजने में असमर्थ रहा हूं। क्योंकि मैं एनएलटीके में एक एटिपिकल कॉर्पस, मानक एनईआर उपकरण के साथ काम कर रहा हूं और इसी तरह बहुत खराब प्रदर्शन किया है, और ऐसा लगता है कि मुझे अपने सिस्टम को प्रशिक्षित करना होगा।

संक्षेप में, इस तरह की समस्या के लिए कौन से संसाधन उपलब्ध हैं? क्या एक मानक पुनरावर्ती तंत्रिका शुद्ध कार्यान्वयन उपलब्ध है?


क्या आपने अपने कॉर्पस पर स्टैनफोर्ड एनईआर का प्रशिक्षण लेने की कोशिश की है? यहाँ एक ट्यूटोरियल है
इमरे

मैंने नहीं किया है - यह देखना चाहिए कि यह कैसे किराया है।
मैडिसन

मैं word2vec सुविधाओं या इसी तरह का उपयोग करना चाहूंगा, हालांकि, चूंकि मेरे पास अपेक्षाकृत छोटे लेबल वाले डेटासेट तक पहुंच है और मेरे पास हाथ में लिए गए अधिकांश अनलिस्टेड डेटा बनाने की आवश्यकता है।
मैडिसन

जवाबों:


6

"पुनरावर्तन के साथ पुनरावर्ती तंत्रिका जाल" के बजाय, आप फ्रांटजी, एट द्वारा उपयोग किए गए दृष्टिकोण पर विचार कर सकते हैं। अल। के लिए मैनचेस्टर विश्वविद्यालय में पाठ खनन के लिए राष्ट्रीय केन्द्र (NaCTeM) पर Termine (देखें: http://www.nactem.ac.uk/index.php और http://personalpages.manchester.ac.uk/staff/sophia। ananiadou / IJODL2000.pdf ) गहरे तंत्रिका जाल के बजाय, वे "भाषाई और सांख्यिकीय संयोजन" करते हैं।


7

हाल के दो पेपर इस समस्या को दूर करने के लिए चारनॉट नामक डीप लर्निंग आर्किटेक्चर का उपयोग करते हैं। अंग्रेजी के कॉरपस पर टैगिंग (पीओएस) भाग पर कला के परिणामों (बिना दस्तकारी सुविधाओं के) की स्थिति प्राप्त करने के लिए पहली बार चार्टेन का उपयोग किया गया था ।

दूसरे पेपर में एक ही लेखक द्वारा की भविष्यवाणी एक शब्द 10 वर्णित निकाय को कक्षाओं से संबंधित है या, कला परिणामों की स्पष्ट राज्य के साथ के लिए एक ही (या समान) वास्तुकला का उपयोग करता है।


दिलचस्प। इसे साझा करने के लिए धन्यवाद। मुझे आश्चर्य है कि उन्होंने अंग्रेजी कॉर्पोरा पर इस दृष्टिकोण का परीक्षण क्यों नहीं किया।
मतीदिबा

3

Http://deeplearning4j.org/word2vec.html आज़माएँ । इसमें एनईआर और अन्य एनएलपी कार्यों के लिए शब्दों के बैग के बजाय Word2Vec का उपयोग किया गया है।


1
मुझे word2vec कार्यान्वयन खोजने में कोई समस्या नहीं है, लेकिन मैं उपयोग करने के लिए एक कार्यशील पुनरावर्ती जाल खोजने में असमर्थ रहा हूं।
मैडिसन मई

लिंक अधिक सक्रिय नहीं है, यदि संभव हो तो कृपया नए काम के लिंक को साझा करें
अमनदीप

1

एनईआर के लिए शब्द वैक्टर का उपयोग कैसे करें, इसके बारे में कुछ विचार दिए गए हैं, जो कि ज्यादातर अनपेक्षित शब्द2vec-केंद्रित दृष्टिकोण को अपनाता है।

  1. शब्द वैक्टर का एक सेट (या तो आपके द्वारा प्रशिक्षित कुछ, या GoogleNews-vectors-negative300.bin जैसी ऑफ-द-शेल्फ) को देखते हुए, वेक्टर स्थान में क्लस्टर की खोज करें। ये क्लस्टर मूल रूप से विभिन्न अनाम अवधारणाओं के लिए आपकी परिभाषाएं हैं।
  2. न्यूनतम पर्यवेक्षण के साथ, आप मानव ज्ञान से मेल खाने के लिए अनाम समूहों को मैप / रूपांतरित कर सकते हैं, इस प्रकार ज्ञात शब्द वैक्टर और अनाम अवधारणाओं के शीर्ष पर स्थित नाम अवधारणाओं को बना सकते हैं। उदाहरण के लिए, एक विधि findCluster(['joy', 'surprise', 'disgust', 'trust', 'fear', 'sadness', 'anger', 'anticipation'])एक सूची दे सकती है जिसमें सैकड़ों शब्द हैं जो ज्यादातर भावनाओं से संबंधित हैं। यदि आप इस सूची को 'भावना' नाम देते हैं, तो आपके पास वेक्टर अंतरिक्ष के आधार पर एक नामित अवधारणा 'भावना' है।
  3. आप दिए गए दो लोगों के बीच मध्यवर्ती अवधारणा को खोजने के लिए वेक्टर गणित भी कर सकते हैं। उदाहरण के लिए, वेक्टर गणित आपको बता सकता है कि जब दो शब्द 'आश्चर्य' और 'घृणा' दिए जाते हैं, तो निम्नलिखित दो के बीच पाए जाते हैं: निराशा, विस्मय, निराशा, विस्मय, विस्मय, बहिष्कार, अविश्वास, सदमा, आदि। आप अवधारणाओं के बीच संबंध बनाने के लिए।
  4. आप विभिन्न प्रकार के नामित निष्कर्षों का निर्माण करने के लिए उपरोक्त दोहरा सकते हैं, जैसे: कार्यदिवस, सभी भावनाएं, खुश भावनाएं, वाहन, आदि।
  5. एक बार जब आप नामित अवधारणाओं की परतों का निर्माण कर लेते हैं, तो आप एक आरएनएन को एक पाठ कॉर्पस पर प्रशिक्षित कर सकते हैं जिसे नामित अवधारणाओं के साथ संवर्धित किया गया है, इसलिए 'भूरा लोमड़ी कूदता' भी '{रंग} {पशु} {क्रिया}' आदि है। इस तरह से RNN को अनियंत्रित तरीके से कुछ अल्पविकसित व्याकरण सीखने में सक्षम होना चाहिए।
  6. यदि आपने ऊपर से पर्याप्त शक्तिशाली व्याकरण का निर्माण किया है, तो आपको इसे अपने कुछ एनईआर कार्यों की ओर लागू करने में सक्षम होना चाहिए।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.