ठीक है, चलो वर्णों के प्रश्न को अलग करते हैं:
- किसी भी XML दस्तावेज़ में सभी मान्य नहीं हैं।
- भागने की जरूरत है।
@Dolmen द्वारा " XML में अमान्य वर्ण " के लिए दिया गया उत्तर अभी भी मान्य है लेकिन XML 1.1 विनिर्देश के साथ अद्यतन करने की आवश्यकता है।
1. अमान्य वर्ण
यहाँ वर्णित वर्ण वे सभी वर्ण हैं जिन्हें XML दस्तावेज़ में सम्मिलित करने की अनुमति है।
1.1। एक्सएमएल 1.0 में
अनुमत पात्रों की वैश्विक सूची है:
[2] Char ::= #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] /* any Unicode character, excluding the surrogate blocks, FFFE, and FFFF. */
मूल रूप से, यूनिकोड पर्वतमाला के नियंत्रण वर्ण और वर्णों की अनुमति नहीं है। इसका मतलब यह भी है कि उदाहरण के लिए चरित्र इकाई 
को कॉल करना मना है।
1.2। एक्सएमएल 1.1 में
अनुमत पात्रों की वैश्विक सूची है:
[2] Char ::= [#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] /* any Unicode character, excluding the surrogate blocks, FFFE, and FFFF. */
[2a] RestrictedChar ::= [#x1-#x8] | [#xB-#xC] | [#xE-#x1F] | [#x7F-#x84] | [#x86-#x9F]
एक्सएमएल सिफारिश के इस संशोधन ने अनुमत पात्रों को बढ़ाया है ताकि नियंत्रण पात्रों को अनुमति दी जाए, और यूनिकोड मानक के एक नए संशोधन को ध्यान में रखा जाए, लेकिन इन लोगों को अभी भी अनुमति नहीं है: एनयूएल (x00) , xFFFE , xFFFF ...
हालांकि, नियंत्रण वर्ण और अपरिभाषित यूनिकोड चार का उपयोग हतोत्साहित किया जाता है।
यह भी देखा जा सकता है कि सभी पार्सर हमेशा इसे ध्यान में नहीं रखते हैं और नियंत्रण वर्ण वाले XML दस्तावेजों को अस्वीकार किया जा सकता है।
2. जिन चरित्रों को भागने की जरूरत है (एक अच्छी तरह से गठित दस्तावेज़ प्राप्त करने के लिए):
<
एक के साथ भाग जाना चाहिए <
, इकाई के बाद से यह एक टैग की शुरुआत माना जाता है।
&
एक के साथ भाग जाना चाहिए &
, इकाई के बाद से यह एक इकाई संदर्भ शुरुआत माना जाता है
>
के साथ भाग जाना चाहिए >
इकाई। यह अनिवार्य नहीं है - यह संदर्भ पर निर्भर करता है - लेकिन इसे बचने के लिए दृढ़ता से सलाह दी जाती है।
'
एक के साथ भाग जाना चाहिए '
इकाई - एकल उद्धरण में परिभाषित विशेषताओं में अनिवार्य है, लेकिन यह दृढ़ता से हमेशा यह से बचने के लिए सलाह दी जाती है।
"
एक के साथ भाग जाना चाहिए "
इकाई - डबल कोट्स में परिभाषित विशेषताओं में अनिवार्य है, लेकिन यह दृढ़ता से हमेशा यह से बचने के लिए सलाह दी जाती है।