विकिपीडिया लेख के अनुसार , UTF-8 में यह प्रारूप है:
पहला कोड अंतिम कोड बाइट्स बाइट 1 बाइट 2 बाइट 3 बाइट 4 बिंदु बिंदु प्रयुक्त U + 0000 U + 007F 1 0xxxxxxx U + 0080 U + 07FF 2 110xxxxx 10xxxxxx U + 0800 U + FFFF 3 1110xxxx 10xxxxxx 10xxxxxx U + 10000 U + 1FFFFF 4 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx x का अर्थ है कि इस बिट का उपयोग कोड बिंदु को चुनने के लिए किया जाता है।
यह प्रत्येक निरंतर बाइट पर दो बिट्स और पहले बाइट में एक बिट बर्बाद करता है। UTF-8 को निम्न की तरह एन्कोड क्यों नहीं किया गया है?
पहला कोड अंतिम कोड बाइट्स बाइट 1 बाइट 2 बाइट 3 बिंदु बिंदु प्रयुक्त U + 0000 U + 007F 1 0xxxxxxx U + 0080 U + 3FFF 2 10xxxxxx xxxxxxxx U + 0800 U + 1FFFFF 3 110xxxxx xxxxxxxx xxxxxxxx
जब कोड बिंदु बेसिक बहुभाषी विमान से बाहर होता है या कोड बिंदु [U + 800, U + 3FFF] होता है तो यह एक बाइट को बचा लेता है।
UTF-8 को अधिक कुशल तरीके से कूटबद्ध क्यों नहीं किया जाता है?