UTF-7, UTF-8, UTF-16 और UTF-32 पात्रों के समान कोडिंग (कोडपॉइंट्स) के एल्गोरिथम रूपांतरण प्रारूप हैं । वे वर्णों के संहिताकरण की एक प्रणाली के एनकोडिंग हैं ।
वे 256 से अधिक वर्णों वाले वर्ण सेट से निपटने के लिए पिछली योजनाओं की तुलना में आगे और पीछे नेविगेट करने के लिए एल्गोरिदमिक रूप से आसान हैं।
यह आम तौर पर देश की तुलना में बहुत अलग है- और कभी-कभी ग्लिफ्स के विक्रेता-विशिष्ट कोडिफिकेशन। केवल जापानी में, अकेले JIS की विविधताओं का एक टन था, जिसमें EUC-JP और JIS के कोडपेज-उन्मुख परिवर्तन का उल्लेख नहीं किया गया था कि DOS / Windows मशीनों का उपयोग Shift-JIS कहा जाता था। (कुछ हद तक, इनमें से एल्गोरिथम परिवर्तन थे, लेकिन वे विशेष रूप से सरल नहीं थे और उन पात्रों में विक्रेता-विशिष्ट अंतर थे जो उपलब्ध थे। एक दो सौ देशों द्वारा इसे गुणा करें और अधिक परिष्कृत फ़ॉन्ट सिस्टम के क्रमिक विकास (पोस्ट ग्रीनस्क्रीन) युग), और आपके पास एक वास्तविक दुःस्वप्न था।
आपको यूनिकोड के इन परिवर्तन रूपों की आवश्यकता क्यों होगी? क्योंकि बहुत सारी विरासत प्रणालियों ने एएससीआईआई-श्रेणी के 7 बिट पात्रों के अनुक्रमों को ग्रहण किया, इसलिए आपको उन प्रणालियों के माध्यम से अनियंत्रित डेटा को सुरक्षित रूप से पारित करने के लिए 7-बिट स्वच्छ समाधान की आवश्यकता थी, इसलिए आपको UTF-7 की आवश्यकता थी। तब अधिक आधुनिक प्रणालियां थीं जो 8-बिट कैरेक्टर सेट से निपट सकती थीं, लेकिन अशक्त लोगों के लिए आमतौर पर उनके विशेष अर्थ होते थे, इसलिए UTF-16 उनके लिए काम नहीं करता था। 2 बाइट्स यूनिकोड के पूरे बुनियादी बहुभाषी विमान को उसके पहले अवतार में सांकेतिक शब्दों में बदलना कर सकते हैं, इसलिए UCS-2 उन प्रणालियों के लिए एक उचित दृष्टिकोण की तरह लग रहा था जो "यूनिकोड को जमीन से अवगत कराने वाले थे" (जैसे विंडोज़ एनटी और जावा वीएम); उसके बाद जो एक्सटेंशन अतिरिक्त वर्णों की आवश्यकता होती है, जिसके परिणामस्वरूप यूनिकोड मानक द्वारा आरक्षित किए गए एन्कोडिंग्स के 21 बिट्स के एल्गोरिदम का रूपांतरण हुआ, और सरोगेट जोड़े पैदा हुए; जरूरी है कि UTF-16 यदि आपके पास कुछ एप्लिकेशन थे जहां स्टोरेज की दक्षता की तुलना में चरित्र की चौड़ाई की स्थिरता अधिक महत्वपूर्ण थी, तो UTF-32 (जिसे यूसीएस -4 कहा जाता है) एक विकल्प था।
UTF-16 एकमात्र ऐसी चीज़ है, जिससे निपटने के लिए दूर से जटिल है, और इस परिवर्तन से प्रभावित होने वाले पात्रों की छोटी रेंज से आसानी से कम हो जाता है और तथ्य यह है कि लीड 16-बिट सीक्वेंस बड़े करीने से ट्रेलिंग से पूरी तरह से अलग रेंज में हैं 16-बिट सीक्वेंस। यह कई प्रारंभिक पूर्वी एशियाई एनकोडिंग में आगे और पीछे जाने की कोशिश से भी आसान दुनिया है, जहां आपको भागने के दृश्यों से निपटने के लिए या तो एक राज्य मशीन (JIS और EUC) की आवश्यकता थी, या संभावित रूप से कई पात्रों को वापस ले जाएं जब तक कि आपको कुछ ऐसा न मिल जाए, जिसकी गारंटी थी केवल एक लीड बाइट (Shift-JIS) बनें। UTF-16 में सिस्टम पर कुछ फायदे थे जो 16-बिट दृश्यों के माध्यम से कुशलतापूर्वक, साथ ही साथ चुग सकते थे।
जब तक आपको अलग-अलग एन्कोडिंग के दर्जनों (सैकड़ों, वास्तव में) के माध्यम से रहना पड़ता था, या ऐसे सिस्टम का निर्माण करना पड़ता था जो विभिन्न एन्कोडिंग में कई भाषाओं का समर्थन करते थे, यहां तक कि कभी-कभी एक ही दस्तावेज़ में भी (जैसे पुराने मैको संस्करणों में वर्ल्डस्क्रिप्ट), आप सोच सकते हैं अनावश्यक जटिलता के रूप में यूनिकोड परिवर्तन प्रारूप। लेकिन यह पहले के विकल्पों पर जटिलता में एक नाटकीय कमी है, और प्रत्येक प्रारूप एक वास्तविक तकनीकी बाधा को हल करता है। वे भी वास्तव में एक दूसरे के बीच कुशलता से परिवर्तनीय हैं, कोई जटिल लुकअप तालिकाओं की आवश्यकता नहीं है।