एनएलटीके में एनईआर के बारे में मदद

12

मैं अजगर का उपयोग करते हुए एनएलटीके में कुछ समय के लिए काम कर रहा हूं। मुझे जो समस्या आ रही है, वह यह है कि मेरे कस्टम डेटा के साथ एनएलटीके में एनईआर को प्रशिक्षण देने के लिए उनकी कोई मदद उपलब्ध नहीं है। उन्होंने MaxEnt का उपयोग किया है और इसे ACE कॉर्पस पर प्रशिक्षित किया है। मैंने वेब पर बहुत खोज की है लेकिन मुझे ऐसा कोई तरीका नहीं मिला है जिसका इस्तेमाल एनएलटीके के एनईआर को प्रशिक्षित करने के लिए किया जा सके।

अगर कोई मुझे किसी भी लिंक / लेख / ब्लॉग आदि के साथ प्रदान कर सकता है जो मुझे एनएलटीके के एनईआर को प्रशिक्षण में उपयोग किए जाने वाले प्रशिक्षण डेटासेट प्रारूप में निर्देशित कर सकता है तो मैं उस विशेष प्रारूप पर अपने डेटासेट तैयार कर सकता हूं। और अगर मैं किसी भी लिंक / लेख / ब्लॉग आदि के लिए निर्देशित हूं जो मुझे अपने डेटा के लिए TRAIN NLTK के एनईआर में मदद कर सकता है।

यह व्यापक रूप से खोजा गया और कम से कम उत्तर देने वाला प्रश्न है। भविष्य में किसी ऐसे व्यक्ति के लिए सहायक हो सकता है जिसका एनईआर के साथ काम कर रहा हो।

machine-learning python nlp

— सरमद
स्रोत

पर पोस्ट की गई quora.com/Help-on-training-NLTKs-NER

— फ़्रैंक Dernoncourt

4

एक मॉडल से संबंधित प्रशिक्षण सूचना निष्कर्षण , सामान्य रूप में, और वर्णित निकाय को मान्यता / संकल्प (एनईआर) , विशेष रूप से, में विस्तार से वर्णन किया गया है अध्याय 7 के NLTK बुक :, इस URL पर उपलब्ध ऑनलाइन http: //www.nltk .org / पुस्तक / ch07.html ।

इसके अतिरिक्त, मुझे लगता है कि आपको क्रॉस मान्य साइट पर मेरे संबंधित उत्तर उपयोगी मिल सकते हैं । इसमें एनईआर और संबंधित विषयों पर प्रासंगिक स्रोतों के साथ-साथ विभिन्न संबंधित सॉफ्टवेयर टूल्स के लिए बहुत सारे संदर्भ हैं ।

— अलेक्सांद्र ब्लेक
स्रोत

वे उल्लेख नहीं करते कि कस्टम डेटा पर एनईआर मॉडल को कैसे प्रशिक्षित किया जाए, क्या आप बता सकते हैं कि यह कैसे करना है?

— हेमा वर्षा

1

@ हेमवार्षा मैं इस क्षेत्र का विशेषज्ञ नहीं हूं। हालांकि, ... मुझे लगता है कि एनएलटीके एनईआर मॉडल कॉनलेक्स कॉर्पस पर पहले से प्रशिक्षित है , इसलिए एनएलआरके बुक में कोई जानकारी नहीं है। निम्नलिखित संसाधनों की जाँच करें: 1. nltk-trainer.readthedocs.io (सबसे अधिक संभावना है कि आपको क्या चाहिए; शायद प्रशिक्षण IOB Chunkers अनुभाग)। 2. sujitpal.blogspot.com/2012/11/… (साथ ही उपयोगी हो सकता है)। 3. nlp.stanford.edu/software/crf-faq.shtml#a (यदि आप उपयोग करते हैं या स्टैनफोर्ड एनईआर सॉफ्टवेयर का उपयोग करने का निर्णय लेंगे)।

— हांग्जो ब्लेख

मुझे लगता है कि stanfordcrf कार्यान्वयन कस्टम डेटा लेता है, लेकिन NTLK NER पहले से प्रशिक्षित है। प्रशिक्षण IOB Chunkers सिर्फ सही chunking है? या यह भी NER करता है?

— हेम वर्षा

@HimaVarsha कृपया सलाह पर अधिक ध्यान दें जो आपको मिल रही है। यदि आप लिंक # 2 से ऊपर पोस्ट को ध्यान से पढ़ते हैं, तो आप देखेंगे कि कोड वहां NER मॉडल प्रशिक्षण और रनिंग दोनों करता है। मुझे नहीं लगता कि मैं ऊपर दी गई सलाह से परे आपकी मदद कर सकता हूं।

— असेम्बली बेलेख

3

क्या यह लेख काफी अच्छा है? http://www.succeed-project.eu/wiki/index.php/NLTK#Input_format_for_training

इस बारे में स्पष्टीकरण है कि कॉर्पस को कैसा दिखना चाहिए।

इसे काम करने के लिए आपका डेटा IOB प्रारूप (शब्द टैग chunktag) में होना चाहिए।
एरिक एनएनपी बी-पर्सन
वी बी ओ
एट बी बी-एनपी
सीईओ एनएन आई-एनपी
इन ओ
गूगल एनएनपी बी-ऑर्गनाइजेशन

— MaticDiba
स्रोत

1

इस उत्तर में लेख का संक्षिप्त सारांश पोस्ट करना आदर्श होगा।

— शेल्डोन्क्रेगर

1

मुझे यह ट्यूटोरियल काफी मददगार लगा: पायथन के साथ अपना खुद का नामांकित एंटिटी पहचानकर्ता बनाने के लिए पूरा गाइड। वह अपने एनईआर चंक को प्रशिक्षित करने के लिए ग्रोनिंगन अर्थ बैंक (जीएमबी) कॉर्पस का उपयोग करता है।

उसके बाद आप एक ही व्यक्ति से इस ट्यूटोरियल की जाँच कर सकते हैं: एक बड़े डेटासेट का उपयोग करते हुए एक एनईआर प्रणाली का प्रशिक्षण जहाँ वह अपने सिस्टम के प्रदर्शन को बेहतर बनाने के लिए सीखता है।

अंत में कुछ वास्तव में उपयोगी ट्यूटोरियल यहां देखे जा सकते हैं: एनएलटीके ट्यूटोरियल इस लड़के का कई विषयों (एमएल, एनएलपी, पायथन ...) में बहुत सारे ट्यूटोरियल के साथ एक यूट्यूब चैनल है।

आशा है ये मदद करेगा।

— Iraklis Moutidis
स्रोत