बहुत सारे पाठ दस्तावेज़ (प्राकृतिक भाषा में, असंरचित) होने के बाद, उन्हें कुछ शब्दार्थ मेटा-डेटा के साथ एनोटेट करने के संभावित तरीके क्या हैं? उदाहरण के लिए, एक छोटे दस्तावेज़ पर विचार करें:
I saw the company's manager last day.
इससे जानकारी निकालने में सक्षम होने के लिए, इसे कम अस्पष्ट होने के लिए अतिरिक्त डेटा के साथ एनोटेट किया जाना चाहिए। ऐसे मेटा-डेटा को खोजने की प्रक्रिया प्रश्न में नहीं है, इसलिए मान लें कि यह मैन्युअल रूप से किया गया है। सवाल यह है कि इन आंकड़ों को इस तरह से कैसे संग्रहित किया जाए कि इस पर आगे का विश्लेषण अधिक आसानी से / कुशलता से किया जा सके?
एक्सएमएल टैग (नीचे देखें) का उपयोग करने के लिए एक संभावित दृष्टिकोण है, लेकिन यह बहुत ही क्रियात्मक लगता है, और शायद पाठ दस्तावेजों पर ऐसे मेटा-डेटा को संग्रहीत करने के लिए बेहतर दृष्टिकोण / दिशानिर्देश हैं।
<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.