मुझे पता है कि यह प्रश्न पुराना है और पहले से ही एक स्वीकृत उत्तर है, लेकिन मैं कुछ उदाहरण प्रस्तुत करना चाहता हूं (उम्मीद है कि यह किसी के लिए उपयोगी होगा)।
जहाँ तक मैं जानता हूँ कि पुराने ASCII वर्ण प्रति चरित्र एक बाइट लेते थे।
सही। दरअसल, चूंकि एएससीआईआई 7-बिट एन्कोडिंग है, यह 128 कोड (जिनमें से प्रिंट करने योग्य हैं) का समर्थन करता है, इसलिए यह केवल आधा बाइट (यदि इसका कोई मतलब है) का उपयोग करता है।
एक यूनिकोड वर्ण को कितने बाइट की आवश्यकता होती है?
यूनिकोड सिर्फ पात्रों को कोडपॉइंट्स में मैप करता है। यह परिभाषित नहीं करता है कि उन्हें कैसे एनकोड करना है। एक पाठ फ़ाइल में यूनिकोड वर्ण नहीं होते हैं, लेकिन बाइट्स / ऑक्टेट जो यूनिकोड वर्णों का प्रतिनिधित्व कर सकते हैं।
मुझे लगता है कि एक यूनिकोड चरित्र में किसी भी भाषा से हर संभव चरित्र हो सकता है - क्या मैं सही हूं?
नहीं, लेकिन लगभग। तो मूल रूप से हाँ। लेकिन फिर भी नहीं।
तो प्रति चरित्र कितने बाइट्स की आवश्यकता है?
अपने दूसरे प्रश्न के रूप में भी।
और UTF-7, UTF-6, UTF-16 आदि का क्या मतलब है? क्या वे कुछ यूनिकोड संस्करण हैं?
नहीं, वे एनकोडिंग हैं। वे परिभाषित करते हैं कि बाइट्स / ऑक्टेट्स को यूनिकोड वर्णों का प्रतिनिधित्व कैसे करना चाहिए।
उदाहरण के एक जोड़े। यदि उनमें से कुछ आपके ब्राउज़र में प्रदर्शित नहीं किए जा सकते हैं (शायद इसलिए कि फ़ॉन्ट उनका समर्थन नहीं करता है), एक छवि देखने के लिए http://codepoints.net/U+1F6AA
( 1F6AA
हेक्स में कोडपॉइंट के साथ बदलें ) पर जाएं।
- U + 0061 लेटिन छोटे अक्षर A:
a
- : 97
- UTF-8: 61
- UTF-16: 00 61
- U + 00A9 COPYRIGHT साइन:
©
- N: 169
- UTF-8: C2 A9
- UTF-16: 00 A9
- U + 00AE पंजीकृत संकेत:
®
- N: 174
- UTF-8: C2 AE
- यूटीएफ -16: 00 एई
- यू + 1337 एथलेटिक लक्षण PHWA:
ጷ
- : 4919
- UTF-8: E1 8C B7
- UTF-16: 13 37
- U + 2014 EM DASH:
—
- : 8212
- UTF-8: E2 80 94
- UTF-16: 20 14
- U + 2030 प्रति मील का चिह्न:
‰
- : 8240
- UTF-8: E2 80 B0
- UTF-16: 20 30
- U + 20AC यूरो हस्ताक्षर:
€
- N: 8364
- UTF-8: E2 82 AC
- यूटीएफ -16: 20 एसी
- U + 2122 व्यापार मार्क हस्ताक्षर:
™
- : 8482
- UTF-8: E2 84 A2
- UTF-16: 21 22
- U + 2603 SNOWMAN:
☃
- N: 9731
- UTF-8: E2 98 83
- UTF-16: 26 03
- U + 260E ब्लैक टेलफ़ोन:
☎
- : 9742
- UTF-8: E2 98 8E
- UTF-16: 26 0E
- रैन ड्रॉप्स के साथ U + 2614 UMBRELLA:
☔
- N: 9748
- UTF-8: E2 98 94
- UTF-16: 26 14
- U + 263A सफेद SMILING चेहरा:
☺
- : 9786
- UTF-8: E2 98 बीए
- यूटीएफ -16: 26 3 ए
- U + 2691 ब्लैक फ्लैग:
⚑
- N: 9873
- UTF-8: E2 9A 91
- UTF-16: 26 91
- U + 269B ATOM SYMBOL:
⚛
- N: 9883
- UTF-8: E2 9A 9B
- UTF-16: 26 9B
- U + 2708 AIRPLANE:
✈
- N: 9992
- UTF-8: E2 9C 88
- UTF-16: 27 08
- U + 271E शेडेड व्हाइट लेटिन क्रॉस:
✞
- N: 10014
- UTF-8: E2 9C 9E
- यूटीएफ -16: 27 1 ई
- U + 3020 POSTAL MARK FACE:
〠
- N: 12320
- UTF-8: E3 80 A0
- UTF-16: 30 20
- U + 8089 CJK यूनिफ़ाइड IDEOGRAPH-8089:
肉
- N: 32905
- UTF-8: E8 82 89
- UTF-16: 80 89
- U + 1F4A9 पू का ढेर:
💩
- N: 128169
- UTF-8: F0 9F 92 A9
- UTF-16: D8 3D DC A9
- U + 1F680 ROCKET:
🚀
- N: 128640
- UTF-8: F0 9F 9A 80
- UTF-16: D8 3D DE 80
ठीक है मैं ले जा रहा हूँ ...
मजेदार तथ्य: