मुझे प्राप्त टिप्पणियों के आधार पर, मैंने इस पर थोड़ा और गौर किया। ऐसा लगता है कि वर्तमान में HTML संस्थाओं का उपयोग करने और इसके बजाय वास्तविक UTF-8 वर्ण का उपयोग करने के लिए सबसे अच्छा अभ्यास है । सूचीबद्ध कारण इस प्रकार हैं:
- UTF-8 एनकोडिंग उन लोगों के लिए पढ़ना और संपादित करना आसान है जो समझते हैं कि चरित्र का क्या अर्थ है और इसे टाइप करना जानते हैं।
- UTF-8 एनकोडिंग उन लोगों के लिए HTML इकाई एन्कोडिंग के रूप में अनजाने में ही हैं जो उन्हें नहीं समझते हैं, लेकिन उन्हें दशमलव या हेक्स एनकोडिंग को समझने के लिए विशेष वर्णों के रूप में प्रतिपादन करने का लाभ है।
जब तक आपके पृष्ठ का एन्कोडिंग UTF-8 में ठीक से सेट नहीं हो जाता है, तब तक आपको HTML इकाई के बजाय वास्तविक वर्ण का उपयोग करना चाहिए। मैंने इस विषय के बारे में कई दस्तावेज़ पढ़े, लेकिन सबसे अधिक उपयोगी थे:
से वर्ण एन्कोडिंग का रहस्य: UTF-8 लेख:
विकिपीडिया एक अनुप्रयोग के लिए एक महान मामला अध्ययन है जो मूल रूप से ISO-8859-1 का उपयोग करता है लेकिन UTF-8 में बदल गया जब यह विदेशी भाषाओं का समर्थन करने के लिए बहुत बोझिल हो गया। बॉट अब वास्तव में लेखों के माध्यम से जाएंगे और उपयोगकर्ता-मित्रता और खोज क्षमता के लिए चरित्र संस्थाओं को उनके संबंधित वास्तविक पात्रों में बदल देंगे ।
यह लेख एक अच्छा उदाहरण भी देता है जिसमें चीनी एन्कोडिंग शामिल है। यहाँ आलस्य के लिए संक्षिप्त उदाहरण दिया गया है:
UTF-8:
這兩個字是甚麼意思
HTML एंटिटीज :
這兩個字是甚麼意思
UTF-8 और HTML इकाई एन्कोडिंग दोनों मेरे लिए अर्थहीन हैं, लेकिन कम से कम UTF-8 एन्कोडिंग एक विदेशी भाषा के रूप में पहचानने योग्य है , और यह एक संपादन बॉक्स में ठीक से प्रस्तुत करेगा। HTML इकाई-एन्कोडेड संस्करण के बारे में निम्नलिखित लेख कहने के लिए आगे बढ़ता है:
हम में से उन लोगों के लिए बहुत असुविधाजनक है जो वास्तव में जानते हैं कि चरित्र संस्थाएं क्या हैं, गरीब उपयोगकर्ताओं के लिए पूरी तरह से अनजाने में जो नहीं करते हैं! यहां तक कि थोड़ा और अधिक उपयोगकर्ता के अनुकूल, "समझदार" चरित्र संस्थाएं जैसे कि & थीटा; उन उपयोगकर्ताओं को छोड़ देगा जो HTML को अपने सिर को खरोंचते हुए सीखने में उदासीन हैं। दूसरी ओर, अगर वे एक संपादन बॉक्स में θ देखते हैं, तो उन्हें पता चल जाएगा कि यह एक विशेष चरित्र है, और उसके अनुसार व्यवहार करें, भले ही वे खुद उस चरित्र को लिखना न जानते हों।
जैसा कि अन्य ने उल्लेख किया है, आपको अभी भी आरक्षित एक्सएमएल वर्णों के लिए HTML संस्थाओं का उपयोग करना होगा (एम्परसेंड, कम-से-अधिक, अधिक से अधिक)।