गजेटियर या जानबूझकर निश्चित आकार की सुविधा का कोई अन्य विकल्प शैक्षणिक कागजात में बहुत लोकप्रिय दृष्टिकोण लगता है , जब आपको परिमित आकार की समस्या होती है, उदाहरण के लिए एक निश्चित कॉर्पोरा में एनईआर, या पीओएस टैगिंग या कुछ और। मैं इसे तब तक धोखा नहीं मानूंगा जब तक कि आपके द्वारा उपयोग की जाने वाली एकमात्र विशेषता गजेटियर मिलान नहीं होगी।
हालांकि, जब आप किसी भी प्रकार के एनएलपी मॉडल को प्रशिक्षित करते हैं, जो प्रशिक्षण के दौरान शब्दकोश पर निर्भर करता है, तो आपको अपने प्रारंभिक परीक्षण की तुलना में वास्तविक विश्व प्रदर्शन का तरीका मिल सकता है, जब तक कि आप ब्याज की सभी वस्तुओं को गजेटियर में शामिल नहीं कर सकते (और फिर आप क्यों। उस मॉडल की आवश्यकता है?) क्योंकि आपका प्रशिक्षित मॉडल किसी बिंदु पर सुविधा पर निर्भर करेगा और ऐसी स्थिति में जब अन्य सुविधाएँ बहुत कमजोर होंगी या वर्णनात्मक नहीं होंगी, तो ब्याज की नई वस्तुओं को मान्यता नहीं दी जाएगी।
यदि आप अपने मॉडलों में एक गजेटियर का उपयोग करते हैं, तो आपको यह सुनिश्चित करना चाहिए कि उस सुविधा में मॉडल को स्वयं को संतुलित करने के लिए एक काउंटर सुविधा हो, ताकि सरल शब्दकोश मिलान सकारात्मक वर्ग की एकमात्र विशेषता न हो (और अधिक महत्वपूर्ण बात, गजेटियर होना चाहिए न केवल सकारात्मक उदाहरण से मेल खाते हैं, बल्कि नकारात्मक भी)।
उदाहरण के लिए, मान लें कि आपके पास सभी व्यक्ति नामों के अनंत रूपांतरों का एक पूरा सेट है, जो सामान्य व्यक्ति को एनईआर अप्रासंगिक बनाता है, लेकिन अब आप यह तय करने का प्रयास करते हैं कि पाठ में उल्लिखित वस्तु गायन में सक्षम है या नहीं। आप अपने व्यक्ति राजपत्र में शामिल करने की सुविधाओं पर भरोसा करेंगे, जो आपको बहुत सारी गलत सकारात्मकताएं देगा; फिर, आप " क्रिया गायन का विषय " की एक क्रिया-केंद्रित विशेषता जोड़ देंगे , और जो संभवतः आपको सभी प्रकार की वस्तुओं जैसे पक्षियों, आपके पेट से भूख लगने पर और आपको नशे में धुत साथी के बारे में झूठी सकारात्मक जानकारी देगा।वह गा सकता है (लेकिन चलो ईमानदार रहें, वह नहीं कर सकते हैं) - लेकिन यह क्रिया-केंद्रित सुविधा आपके व्यक्ति राजपत्र के साथ व्यक्तियों को 'सिंगर' के सकारात्मक वर्ग को आवंटित करने के लिए संतुलित करेगी और जानवरों या किसी भी अन्य वस्तुओं को नहीं। हालांकि, यह नशे में परफॉर्मर के मामले को हल नहीं करता है।