एनईआर के लिए अनसुचित सुविधा सीखना

11

मैंने अपने हैंडक्राफ्ट सुविधाओं के साथ सीआरएफ एल्गोरिथ्म के उपयोग के साथ एनईआर प्रणाली को लागू किया है जिसने काफी अच्छे परिणाम दिए हैं। बात यह है कि मैंने कई अलग-अलग विशेषताओं का उपयोग किया जिनमें पीओएस टैग और लेमेस शामिल हैं।

अब मैं अलग भाषा के लिए एक ही एनईआर बनाना चाहता हूं। यहाँ समस्या यह है कि मैं पीओएस टैग और लेमेस का उपयोग नहीं कर सकता। मैंने डीप लर्निंग और अनसर्वलाइज़्ड फीचर लर्निंग के बारे में लेख पढ़ना शुरू किया।

मेरा सवाल यह है कि:

क्या CRF एल्गोरिथ्म के साथ सीखने की अनुपयोगी सुविधा के लिए तरीकों का उपयोग करना संभव है? क्या किसी ने यह कोशिश की और कोई अच्छा परिणाम मिला? क्या इस मामले के बारे में कोई लेख या ट्यूटोरियल है?

मैं अभी भी फीचर निर्माण के इस तरीके को पूरी तरह से नहीं समझ पा रहा हूं इसलिए मैं उस चीज के लिए ज्यादा समय नहीं देना चाहता जो काम नहीं करेगी। तो कोई भी जानकारी वास्तव में सहायक होगी। गहन शिक्षा पर आधारित संपूर्ण एनईआर प्रणाली बनाने के लिए अभी बहुत कुछ करना बाकी है।

nlp text-mining feature-extraction

— MaticDiba
स्रोत

5

हां, CRF मॉडल के साथ बिना पढ़े हुए शिक्षण को जोड़ना पूरी तरह से संभव है। विशेष रूप से, मैं सुझाव दूंगा कि आप अपने CRF के लिए इनपुट के रूप में word2vec सुविधाओं के उपयोग की संभावना का पता लगाएं ।

Word2vec उन शब्दों के बीच अंतर करने के लिए प्रशिक्षित करता है जो किसी दिए गए संदर्भ के लिए उपयुक्त होते हैं और ऐसे शब्द जिन्हें यादृच्छिक रूप से चुना जाता है। तब मॉडल के वजन का चयन किसी दिए गए शब्द के घने वेक्टर प्रतिनिधित्व के रूप में किया जा सकता है।

इन सघन वैक्टरों में आकर्षक गुण होते हैं जो शब्द जो शब्दार्थ या वाक्यगत रूप से समान होते हैं उनमें समान वेक्टर अभ्यावेदन होते हैं। बेसिक वेक्टर अंकगणित भी शब्दों के बीच कुछ दिलचस्प सीखा संबंधों का पता चलता है।
उदाहरण के लिए, वेक्टर ("पेरिस") - वेक्टर ("फ्रांस") + वेक्टर ("इटली") एक वेक्टर का उत्पादन करता है जो वेक्टर ("रोम") के समान है।

उच्च स्तर पर, आप शब्द 2vec अभ्यावेदन को LDA या LSA अभ्यावेदन के समान होने के बारे में सोच सकते हैं, इस अर्थ में कि आप एक विरल इनपुट वेक्टर को एक घने आउटपुट वेक्टर में परिवर्तित कर सकते हैं जिसमें शब्द समानता जानकारी होती है।

उस बात के लिए, एलडीए और एलएसए भी अनचाहे फ़ीचर लर्निंग के लिए वैध विकल्प हैं - दोनों ही शब्दों को "विषयों" और आउटपुट के संयोजन के रूप में दर्शाने का प्रयास करते हैं।

अंग्रेजी पाठ के लिए Google ने 100 बिलियन शब्द Google समाचार डेटासेट पर प्रचलित किए गए शब्द 2vec मॉडल वितरित किए हैं, लेकिन अन्य भाषाओं के लिए आपको अपने स्वयं के मॉडल को प्रशिक्षित करना होगा।

— मैडिसन मे
स्रोत

अरे, मुट्ठी मैं आपके उत्तर के लिए धन्यवाद देना चाहता हूं। मेरे पास एक और प्रश्न है। शब्द वेक्टर जो शब्द 2vec एल्गोरिथ्म से लौटाए गए हैं, में फ्लोट मान हैं, इसलिए बड़े और बड़े जैसे शब्दों में वेक्टर होंगे जो वेक्टर अंतरिक्ष में करीब हैं, लेकिन वैक्टर के मूल्य पूरी तरह से अलग हो सकते हैं। उदाहरण के लिए बड़ा = [0.1, 0.2, 0,3] और बड़ा = [0.11, 0.21, 0.31]। सीआरएफ एल्गोरिथ्म के लिए एक समस्या यह नहीं है, क्योंकि यह एल्गोरिथ्म उन्हें सिमिलर नहीं माना जाएगा? सीआरएफ में इस शब्द वैक्टर का उपयोग करने से पहले क्या कोई अतिरिक्त प्रसंस्करण है जिसे बोया जाता है? मुझे आशा है कि मेरा प्रश्न पर्याप्त स्पष्ट है।

— मैटिकडिबा

4

इस 2014 के पेपर ( GitHub ) में, लेखकों ने CRF- आधारित एनईआर प्रणाली में शब्द एम्बेडिंग को शामिल करने की कई रणनीतियों की तुलना की, जिसमें घने एम्बेडिंग, बिनराइज्ड एम्बेडिंग, क्लस्टर एम्बेडिंग और एक उपन्यास प्रोटोटाइप विधि शामिल हैं। Vlad द्वारा सुझाए गए घने वैक्टर का उपयोग करना सबसे सीधा तरीका है, लेकिन कई मूल्यांकन में सबसे कम प्रभावी है।

मैंने अपने डोमेन-विशिष्ट NER प्रोजेक्ट में प्रोटोटाइप आइडिया लागू किया और यह मेरे लिए बहुत अच्छा काम करता है।

— user2404894
स्रोत

3

मैं सिर्फ 5 महीने लेट हूं लेकिन CRFSuite के साथ आप वास्तव में उन फ्लोट फीचर्स का उपयोग कर सकते हैं, जैसे कि स्ट्रिंग्स नहीं। इसके लिए, आपको बस प्रत्येक आयाम के लिए एक अद्वितीय लेबल का आविष्कार करने की आवश्यकता है, फिर मूल्य के बाद एक ":" जोड़ें।

उदाहरण के लिए, एक शब्द "जंगल" 5 आयामों में दर्शाया गया है: 0.1 0.4 0.8 0.2 0.9

तब CRFSuite उस शब्द + सुविधा को इस प्रकार लेगा:

लेबल f1: 0.1 f2: 0.4 f3: 0.8 f4: 0.2 f5: 0.9

जहाँ निश्चित रूप से आप `` LABEL 'को एक वास्तविक स्ट्रिंग द्वारा प्रतिस्थापित करते हैं और आप टैब के साथ सभी रिक्त स्थान को अलग करते हैं (जो कि CRFSUZ के लिए प्रारूप है)।

अन्य पैकेजों के लिए निश्चित नहीं है।

— vlad
स्रोत