एनएलपी - क्या गजेटियर एक धोखा है?


16

एनएलपी में, वहाँ की अवधारणा है Gazetteerजो एनोटेशन बनाने के लिए काफी उपयोगी हो सकती है। जहां तक ​​मैं समझता हूं:

एक गजेटियर में ऐसी सूचियों का एक समूह होता है, जैसे शहरों, संगठनों, सप्ताह के दिनों इत्यादि के नाम शामिल होते हैं। इन सूचियों का उपयोग पाठ में इन नामों की occurr एनडी घटनाओं के लिए किया जाता है, जैसे नाम निकाय मान्यता के कार्य के लिए।

तो यह अनिवार्य रूप से एक खोज है। क्या इस तरह का धोखा नहीं है? यदि हम Gazetteerनामित संस्थाओं का पता लगाने के लिए उपयोग करते हैं , तो बहुत कुछ नहीं Natural Language Processingचल रहा है। आदर्श रूप से, मैं NLPतकनीकों का उपयोग करके नामित संस्थाओं का पता लगाना चाहूंगा । अन्यथा, यह रेगेक्स पैटर्न मैचर से बेहतर कैसे है?


2
मैं इसे प्रति धोखा नहीं कहूंगा ... जब तक कि आप विशेष रूप से गैर-शब्दकोश लुक-अप समाधान का उपयोग करने के लिए डिज़ाइन नहीं किए गए थे। मैं इसे पारंपरिक एनएलपी भी नहीं कहूंगा, हालांकि आपको कभी भी पर्याप्त लाभ को नजरअंदाज नहीं करना चाहिए जिससे आप किसी समस्या के सरल समाधान से बाहर निकल सकते हैं।
काइल।

1
आप शायद इसका उपयोग किसी नाम-इकाई पहचानकर्ता को प्रशिक्षित करने के लिए कर सकते हैं। आपका राजपत्र संस्थाओं के बारे में क्या करने जा रहा है, इसके कॉर्पस में नहीं?
एमरे

मैं उम्मीद कर रहा था कि पॉज़ टैग और संज्ञा का सही उपयोग करके मैं कभी भी गजेटियर की आवश्यकता नहीं करूँगा। क्या यह संभव है?
AbtPst

2
उद्योग में धोखा जैसी कोई चीज नहीं है। :-) लेकिन फिर भी, यदि आप एक "सामान्य दृष्टिकोण" चाहते हैं, तो आपको कुछ एनईएस सीखने के लिए संदर्भों को सीखने के लिए कुछ हैंड-एनोटेट डेटा, यानी बीज के साथ शुरू करने की आवश्यकता है।
एडम बिट्ट्लिमेयर 18

जवाबों:


15

गजेटियर या जानबूझकर निश्चित आकार की सुविधा का कोई अन्य विकल्प शैक्षणिक कागजात में बहुत लोकप्रिय दृष्टिकोण लगता है , जब आपको परिमित आकार की समस्या होती है, उदाहरण के लिए एक निश्चित कॉर्पोरा में एनईआर, या पीओएस टैगिंग या कुछ और। मैं इसे तब तक धोखा नहीं मानूंगा जब तक कि आपके द्वारा उपयोग की जाने वाली एकमात्र विशेषता गजेटियर मिलान नहीं होगी।

हालांकि, जब आप किसी भी प्रकार के एनएलपी मॉडल को प्रशिक्षित करते हैं, जो प्रशिक्षण के दौरान शब्दकोश पर निर्भर करता है, तो आपको अपने प्रारंभिक परीक्षण की तुलना में वास्तविक विश्व प्रदर्शन का तरीका मिल सकता है, जब तक कि आप ब्याज की सभी वस्तुओं को गजेटियर में शामिल नहीं कर सकते (और फिर आप क्यों। उस मॉडल की आवश्यकता है?) क्योंकि आपका प्रशिक्षित मॉडल किसी बिंदु पर सुविधा पर निर्भर करेगा और ऐसी स्थिति में जब अन्य सुविधाएँ बहुत कमजोर होंगी या वर्णनात्मक नहीं होंगी, तो ब्याज की नई वस्तुओं को मान्यता नहीं दी जाएगी।

यदि आप अपने मॉडलों में एक गजेटियर का उपयोग करते हैं, तो आपको यह सुनिश्चित करना चाहिए कि उस सुविधा में मॉडल को स्वयं को संतुलित करने के लिए एक काउंटर सुविधा हो, ताकि सरल शब्दकोश मिलान सकारात्मक वर्ग की एकमात्र विशेषता न हो (और अधिक महत्वपूर्ण बात, गजेटियर होना चाहिए न केवल सकारात्मक उदाहरण से मेल खाते हैं, बल्कि नकारात्मक भी)।

उदाहरण के लिए, मान लें कि आपके पास सभी व्यक्ति नामों के अनंत रूपांतरों का एक पूरा सेट है, जो सामान्य व्यक्ति को एनईआर अप्रासंगिक बनाता है, लेकिन अब आप यह तय करने का प्रयास करते हैं कि पाठ में उल्लिखित वस्तु गायन में सक्षम है या नहीं। आप अपने व्यक्ति राजपत्र में शामिल करने की सुविधाओं पर भरोसा करेंगे, जो आपको बहुत सारी गलत सकारात्मकताएं देगा; फिर, आप " क्रिया गायन का विषय " की एक क्रिया-केंद्रित विशेषता जोड़ देंगे , और जो संभवतः आपको सभी प्रकार की वस्तुओं जैसे पक्षियों, आपके पेट से भूख लगने पर और आपको नशे में धुत साथी के बारे में झूठी सकारात्मक जानकारी देगा।वह गा सकता है (लेकिन चलो ईमानदार रहें, वह नहीं कर सकते हैं) - लेकिन यह क्रिया-केंद्रित सुविधा आपके व्यक्ति राजपत्र के साथ व्यक्तियों को 'सिंगर' के सकारात्मक वर्ग को आवंटित करने के लिए संतुलित करेगी और जानवरों या किसी भी अन्य वस्तुओं को नहीं। हालांकि, यह नशे में परफॉर्मर के मामले को हल नहीं करता है।


4

संस्थाओं की सूची का उपयोग करने के कुछ नुकसान हैं:

  • सूची बंद है
  • सूची संवेदी संवेदनशील नहीं है। आपको "एक सफेद घर" और "सफेद घर" के बीच अंतर करने के लिए संदर्भ की आवश्यकता है।
  • सूची निर्माण के लिए बहुत अधिक श्रम की आवश्यकता होती है
  • सूची में त्रुटियां भी हो सकती हैं।
  • यह धोखा महसूस करता है (या सूची में कोई एनएलपी अंतर्दृष्टि का उपयोग नहीं किया जाता है)।

एक निर्देशांक जानने के लिए आप जिस दिशा @emre का सुझाव देते हैं और सूची का उपयोग करके इन नुकसानों का सामना कर सकते हैं।

उदाहरण के लिए, आप इकाई के पास टोकन का उपयोग कर सकते हैं और नियम सीख सकते हैं जैसे कि "मैं X पर रहता हूं" एक जगह का एक संकेतक है और "मैंने एक्स के साथ बात की" एक व्यक्ति का एक संकेतक है। आप नियमों के हिट द्वारा अपनी सूची में वृद्धि करके इस खेल को कुछ राउंड खेल सकते हैं और अधिक नियम जानने के लिए नई सूची का उपयोग कर सकते हैं।

कृपया यह नहीं कि इस सीखने में आप डेटा में शोर का परिचय देंगे, इसलिए अधिकांश मामलों में सीखना इतना सीधा होना चाहिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.