सी प्रोग्रामिंग: यूनिकोड के लिए कार्यक्रम कैसे करें?

Question 1

यूनिकोड प्रोग्रामिंग को सख्त करने के लिए और क्या आवश्यक हैं?

क्या इसका मतलब यह है कि मेरे कोड को charकहीं भी प्रकारों का उपयोग नहीं करना चाहिए और उन कार्यों का उपयोग करने की आवश्यकता है जो इससे निपट सकते हैं wint_tऔर wchar_t?

और इस परिदृश्य में मल्टीबाइट चरित्र अनुक्रम द्वारा निभाई गई भूमिका क्या है?

Question 2

ध्यान दें कि यह "सख्त यूनिकोड प्रोग्रामिंग" के बारे में नहीं है, लेकिन कुछ व्यावहारिक अनुभव है।

हमने अपनी कंपनी में आईबीएम की आईसीयू लाइब्रेरी के आसपास एक रैपर लाइब्रेरी बनाने के लिए क्या किया था। रैपर लाइब्रेरी में UTF-8 इंटरफ़ेस होता है और जब वह ICU को कॉल करना आवश्यक हो तो UTF-16 में परिवर्तित हो जाता है। हमारे मामले में, हमने प्रदर्शन हिट के बारे में बहुत अधिक चिंता नहीं की। जब प्रदर्शन एक मुद्दा था, तो हमने UTF-16 इंटरफेस (अपने स्वयं के डेटाटाइप का उपयोग करके) की आपूर्ति भी की।

अनुप्रयोग काफी हद तक यथावत बने रह सकते हैं (चार का उपयोग करके), हालांकि कुछ मामलों में उन्हें कुछ मुद्दों के बारे में पता होना चाहिए। उदाहरण के लिए, strncpy के बजाय () हम एक आवरण का उपयोग करते हैं जो UTF-8 अनुक्रमों को काटने से बचता है। हमारे मामले में, यह पर्याप्त है, लेकिन कोई पात्रों के संयोजन के लिए जांच पर भी विचार कर सकता है। हमारे पास कोडपॉइंट की संख्या, अंगूर की संख्या आदि की गिनती के लिए रैपर भी हैं।

अन्य प्रणालियों के साथ हस्तक्षेप करते समय, हमें कभी-कभी कस्टम चरित्र संरचना करने की आवश्यकता होती है, इसलिए आपको वहां कुछ लचीलेपन की आवश्यकता हो सकती है (आपके आवेदन के आधार पर)।

हम wchar_t का उपयोग नहीं करते हैं। ICU का उपयोग पोर्टेबिलिटी में अनपेक्षित मुद्दों से बचता है (लेकिन अन्य अनपेक्षित मुद्दों से नहीं, बेशक :-)

Question 3

C99 या पहले का

C मानक (C99) विस्तृत वर्णों और मल्टी-बाइट वर्णों के लिए प्रदान करता है, लेकिन चूंकि उन विस्तृत वर्णों के बारे में कोई गारंटी नहीं है, इसलिए उनका मान कुछ सीमित है। किसी दिए गए कार्यान्वयन के लिए, वे उपयोगी सहायता प्रदान करते हैं, लेकिन यदि आपका कोड कार्यान्वयन के बीच स्थानांतरित करने में सक्षम होना चाहिए, तो अपर्याप्त गारंटी है कि वे उपयोगी होंगे।

नतीजतन, हंस वैन एके द्वारा सुझाए गए दृष्टिकोण (जो आईसीयू के चारों ओर एक आवरण लिखने के लिए है - यूनिकोड के लिए अंतर्राष्ट्रीय घटक - पुस्तकालय) ध्वनि, आईएमओ है।

UTF-8 एन्कोडिंग के कई गुण हैं, जिनमें से एक यह है कि यदि आप डेटा के साथ गड़बड़ नहीं करते हैं (उदाहरण के लिए इसे काटकर), तो इसे उन कार्यों द्वारा कॉपी किया जा सकता है जो UTF-8 की पेचीदगियों से पूरी तरह अवगत नहीं हैं एन्कोडिंग। यह स्पष्ट रूप से ऐसा नहीं है wchar_t।

पूर्ण में यूनिकोड एक 21-बिट प्रारूप है। यही है, यूनिकोड कोड यू + 0000 से यू + 10 एफएफएफ के लिए आरक्षित करता है।

UTF-8, UTF-16 और UTF-32 स्वरूपों के बारे में उपयोगी चीजों में से एक (जहाँ UTF यूनिकोड परिवर्तन प्रारूप के लिए खड़ा है - यूनिकोड देखें ) यह है कि आप सूचना के नुकसान के बिना तीन अभ्यावेदन के बीच परिवर्तित कर सकते हैं। प्रत्येक का प्रतिनिधित्व कर सकते हैं कुछ भी दूसरों का प्रतिनिधित्व कर सकते हैं। UTF-8 और UTF-16 दोनों बहु-बाइट स्वरूप हैं।

UTF-8 एक बहु-बाइट प्रारूप के रूप में जाना जाता है, एक सावधान संरचना के साथ जो स्ट्रिंग में किसी भी बिंदु पर शुरू करते हुए, एक स्ट्रिंग में पात्रों की शुरुआत को खोजने के लिए संभव बनाता है। एकल-बाइट वर्णों में उच्च-बिट सेट शून्य होता है। मल्टी-बाइट वर्णों में पहला चरित्र एक बिट पैटर्न 110, 1110 या 11110 (2-बाइट, 3-बाइट या 4-बाइट वर्णों के साथ) के साथ शुरू होता है, बाद के बाइट्स हमेशा 10. के साथ शुरू होते हैं। निरंतरता वर्ण हमेशा होते हैं रेंज 0x80 .. 0xBF। ऐसे नियम हैं जो न्यूनतम संभव प्रारूप में UTF-8 वर्णों का प्रतिनिधित्व करते हैं। इन नियमों का एक परिणाम यह है कि बाइट्स 0xC0 और 0xC1 (भी 0xF5..0xFF) मान्य UTF-8 डेटा में प्रकट नहीं हो सकते हैं।

 U+0000 ..   U+007F  1 byte   0xxx xxxx
 U+0080 ..   U+07FF  2 bytes  110x xxxx   10xx xxxx
 U+0800 ..   U+FFFF  3 bytes  1110 xxxx   10xx xxxx   10xx xxxx
U+10000 .. U+10FFFF  4 bytes  1111 0xxx   10xx xxxx   10xx xxxx   10xx xxxx

मूल रूप से, यह आशा की गई थी कि यूनिकोड एक 16-बिट कोड सेट होगा और सब कुछ 16-बिट कोड स्थान में फिट होगा। दुर्भाग्य से, वास्तविक दुनिया अधिक जटिल है, और इसे वर्तमान 21-बिट एन्कोडिंग तक विस्तारित किया जाना था।

UTF-16 इस प्रकार 'बेसिक बहुभाषी विमान' के लिए एक एकल इकाई (16-बिट शब्द) कोड सेट है, जिसका अर्थ है यूनिकोड कोड अंक U + 0000 .. U + FFFF के साथ वर्ण, लेकिन दो इकाइयों (32-बिट) का उपयोग करता है इस सीमा के बाहर वर्ण। इस प्रकार, यूटीएफ -16 एन्कोडिंग के साथ काम करने वाले कोड को यूटीएफ -8 की तरह ही चर चौड़ाई के एन्कोडिंग को संभालने में सक्षम होना चाहिए। डबल-यूनिट वर्णों के लिए कोड को सरोगेट कहा जाता है।

यूआरएफ -16 में युग्मित कोड इकाइयों के अग्रणी और अनुगामी मूल्यों के रूप में उपयोग के लिए आरक्षित यूनिकोड मूल्यों की दो विशेष श्रेणियों से सरोगेट्स कोड पॉइंट हैं। अग्रणी, जिन्हें उच्च भी कहा जाता है, सरोगेट U + D800 से U + DBFF तक हैं, और अनुगामी, या निम्न, सरोगेट U + DC00 से U + DFFF तक हैं। उन्हें सरोगेट कहा जाता है, क्योंकि वे सीधे पात्रों का प्रतिनिधित्व नहीं करते हैं, लेकिन केवल एक जोड़ी के रूप में।

बेशक, UTF-32, स्टोरेज की एक इकाई में किसी भी यूनिकोड कोड बिंदु को एनकोड कर सकता है। यह संगणना के लिए कुशल है लेकिन भंडारण के लिए नहीं।

आप ICU और यूनिकोड वेब साइटों पर बहुत अधिक जानकारी पा सकते हैं ।

C11 और `<uchar.h>`

C11 मानक ने नियमों को बदल दिया, लेकिन सभी कार्यान्वयन अभी भी बदलावों के साथ नहीं पकड़े गए हैं (2017 के मध्य)। C11 मानक यूनिकोड समर्थन के लिए परिवर्तनों का सारांश प्रस्तुत करता है:

यूनिकोड वर्ण और तार ( <uchar.h>) (मूल रूप से ISO / IEC TR 19769: 2004 में निर्दिष्ट)

इस प्रकार की कार्यक्षमता की एक न्यूनतम न्यूनतम रूपरेखा है। विनिर्देश में शामिल हैं:

6.4.3 सार्वभौमिक चरित्र नाम

सिंटेक्स
यूनिवर्सल-कैरेक्टर-नाम:
    \u हेक्स-क्वाड
    \U हेक्स-क्वाड हेक्स-क्वाड
हेक्स-क्वाड:
    हेक्साडेसिमल-डिजिट हेक्साडेसिमल-डिजिट हेक्साडेसिमल-डिजिट हेक्साडेसिमल-डिजिट

7.28 यूनिकोड उपयोगिताओं <uchar.h>

शीर्ष लेख <uchar.h>यूनिकोड वर्णों में हेरफेर करने के लिए प्रकारों और कार्यों की घोषणा करता है।

घोषित प्रकार mbstate_t(7.29.1 में वर्णित हैं ) और size_t(7.19 में वर्णित);
char16_t
जो 16-बिट वर्णों के लिए उपयोग किया गया एक अहस्ताक्षरित पूर्णांक प्रकार है और उसी प्रकार है जैसा uint_least16_t(7.20.1.2 में वर्णित है); तथा
char32_t
जो 32-बिट वर्णों के लिए उपयोग किया गया एक अहस्ताक्षरित पूर्णांक प्रकार है और यह उसी प्रकार है जैसे uint_least32_t(7.20.1.2 में वर्णित है)।

(अनुवाद कर रहा है पार संदर्भ: <stddef.h>परिभाषित करता है size_t, <wchar.h>परिभाषित करता है mbstate_t, और <stdint.h>परिभाषित करता है uint_least16_tऔर uint_least32_t।) <uchar.h>हैडर भी (restartable) रूपांतरण कार्यों का एक न्यूनतम सेट को परिभाषित करता है:

mbrtoc16()

c16rtomb()

mbrtoc32()

c32rtomb()

ऐसे नियम हैं जिनके बारे में यूनिकोड वर्णों का उपयोग पहचानकर्ताओं में \unnnnया \U00nnnnnnनोटेशन का उपयोग करके किया जा सकता है। आपको पहचानकर्ताओं में ऐसे पात्रों के समर्थन को सक्रिय रूप से सक्रिय करना पड़ सकता है। उदाहरण के लिए, जीसीसी को -fextended-identifiersपहचानकर्ताओं में इन्हें अनुमति देने की आवश्यकता होती है।

ध्यान दें कि macOS Sierra (10.12.5), नाम के लिए लेकिन एक प्लेटफॉर्म का समर्थन नहीं करता है <uchar.h>।

Question 4

यह FAQ जानकारी का खजाना है। जोएल स्पोलस्की के उस पृष्ठ और इस लेख के बीच , आपके पास एक अच्छी शुरुआत होगी।

एक निष्कर्ष मैं रास्ते में आया:

wchar_tविंडोज पर 16 बिट्स हैं, लेकिन जरूरी नहीं कि अन्य प्लेटफॉर्म पर 16 बिट्स हों। मुझे लगता है कि यह विंडोज पर एक आवश्यक बुराई है, लेकिन शायद कहीं और टाला जा सकता है। विंडोज पर महत्वपूर्ण कारण यह है कि आपको उन फ़ाइलों का उपयोग करने की आवश्यकता है जिनके नाम में गैर-एएससीआईआई अक्षर हैं (कार्यों के डब्ल्यू संस्करण के साथ)।
ध्यान दें कि wchar_tस्ट्रिंग्स को लेने वाले Windows API, UTF-16 एन्कोडिंग की अपेक्षा करते हैं। यह भी ध्यान दें कि यह UCS-2 से भिन्न है। सरोगेट जोड़े का ध्यान रखें। इस परीक्षण पृष्ठ में ज्ञानवर्धक परीक्षण हैं।
आप Windows पर हैं प्रोग्रामिंग, आप उपयोग नहीं कर सकते fopen(), fread(), fwrite(), आदि के बाद से वे केवल लेने char *और समझ में नहीं आता UTF-8 एन्कोडिंग। पोर्टेबिलिटी को दर्दनाक बनाता है।

Question 5

सख्त यूनिकोड प्रोग्रामिंग करने के लिए:

केवल स्ट्रिंग एपीआई हैं कि का उपयोग यूनिकोड बारे में पता ( नहीं strlen , strcpy... लेकिन उनके widestring समकक्षों wstrlen, wsstrcpy, ...)
पाठ के एक ब्लॉक के साथ काम करते समय, एक एन्कोडिंग का उपयोग करें जो बिना नुकसान के यूनिकोड चार्ट (utf-7, utf-8, utf-16, ucs-2, ...) को संग्रहीत करने की अनुमति देता है।
जांचें कि आपका OS डिफ़ॉल्ट वर्ण सेट यूनिकोड संगत है (उदा: utf-8)
उन फोंट का उपयोग करें जो यूनिकोड संगत हैं (जैसे arial_unicode)

मल्टी-बाइट चरित्र अनुक्रम एक एन्कोडिंग है जो UTF-16 एन्कोडिंग (सामान्य रूप से उपयोग किया जाने वाला wchar_t) से पूर्व-तिथि करता है और मुझे ऐसा लगता है कि यह केवल विंडोज़ है।

मैंने कभी नहीं सुना wint_t।

Question 6

सबसे महत्वपूर्ण बात यह है कि पाठ और बाइनरी डेटा के बीच हमेशा स्पष्ट अंतर करना चाहिए । पायथन 3.x strबनामbytes या SQL TEXTबनाम के मॉडल का पालन करने का प्रयास करें BLOB।

दुर्भाग्य से, सी char"ASCII चरित्र" और दोनों के लिए उपयोग करके समस्या को भ्रमित करता है int_least8_t। आप कुछ ऐसा करना चाहेंगे:

typedef char UTF8; // for code units of UTF-8 strings
typedef unsigned char BYTE; // for binary data

आप यूटीएफ -16 और यूटीएफ -32 कोड इकाइयों के लिए भी टाइप किएडिफ्स चाहते हैं, लेकिन यह अधिक जटिल है क्योंकि इनकोडिंग को wchar_tपरिभाषित नहीं किया गया है। आपको सिर्फ एक प्रीप्रोसेसर की आवश्यकता होगी #if। C और C ++ 0x में कुछ उपयोगी मैक्रो हैं:

__STDC_UTF_16__- यदि परिभाषित किया गया है, तो प्रकार _Char16_tमौजूद है और UTF-16 है।
__STDC_UTF_32__- यदि परिभाषित किया गया है, तो प्रकार _Char32_tमौजूद है और UTF-32 है।
__STDC_ISO_10646__- यदि परिभाषित किया गया है, तो wchar_tUTF-32 है।
_WIN32- विंडोज पर, wchar_tयूटीएफ -16 है, भले ही यह मानक को तोड़ता है।
WCHAR_MAX- का आकार निर्धारित करने के लिए इस्तेमाल किया जा सकता है wchar_t, लेकिन यह नहीं कि ओएस यूनिकोड का प्रतिनिधित्व करने के लिए इसका उपयोग करता है या नहीं।

क्या इसका मतलब यह है कि मेरे कोड को कहीं भी चार प्रकार का उपयोग नहीं करना चाहिए और उन कार्यों का उपयोग करने की आवश्यकता है जो wint_t और wchar_t से निपट सकते हैं?

यह सभी देखें:

यूटीएफ -8 एक पूरी तरह से वैध यूनिकोड एन्कोडिंग है जो char*तारों का उपयोग करता है । इसका यह लाभ है कि यदि आपका प्रोग्राम गैर-एएससीआईआई बाइट्स (जैसे कि एक लाइन समाप्त करने वाला कन्वर्टर, जो काम करता है \rऔर \nअन्य पात्रों के माध्यम से अपरिवर्तित होता है) के लिए पारदर्शी होता है , तो आपको बिल्कुल भी बदलाव करने की आवश्यकता नहीं होगी

यदि आप UTF-8 के साथ जाते हैं, तो आपको उन सभी मान्यताओं को बदलना होगा जो char= वर्ण (जैसे, toupperलूप में कॉल न करें ) या char= स्क्रीन कॉलम (जैसे, टेक्स्ट रैपिंग के लिए)।

यदि आप UTF-32 के साथ जाते हैं, तो आपके पास निश्चित-चौड़ाई वाले वर्णों की सादगी होगी (लेकिन निश्चित-चौड़ाई वाले अंगूर नहीं हैं , लेकिन आपके सभी तारों के प्रकार को बदलने की आवश्यकता होगी)।

आप UTF-16 के साथ जाना है, तो आप दोनों निश्चित-चौड़ाई वर्ण की धारणा को छोड़ना होगा और 8 बिट कोड इकाइयों की धारणा है, जो इस एकल-बाइट एन्कोडिंग से सबसे कठिन उन्नयन पथ बनाता है।

मैं सक्रिय रूप से बचने की सिफारिश करूंगा wchar_tक्योंकि यह क्रॉस-प्लेटफ़ॉर्म नहीं है: कभी-कभी यह यूटीएफ -32, कभी-कभी यह यूटीएफ -16 है, और कभी-कभी यह एक पूर्व-यूनिकोड पूर्व एशियाई एन्कोडिंग है। मैं उपयोग करने की सलाह दूंगाtypedefs

इससे भी महत्वपूर्ण बात, से बचेंTCHAR ।

Question 7

मैं किसी भी मानक पुस्तकालय कार्यान्वयन पर भरोसा नहीं करेगा। बस अपने स्वयं के यूनिकोड प्रकारों को रोल करें।

#include <windows.h>

typedef unsigned char utf8_t;
typedef unsigned short utf16_t;
typedef unsigned long utf32_t;

int main ( int argc, char *argv[] )
{
  int msgBoxId;
  utf16_t lpText[] = { 0x03B1, 0x0009, 0x03B2, 0x0009, 0x03B3, 0x0009, 0x03B4, 0x0000 };
  utf16_t lpCaption[] = L"Greek Characters";
  unsigned int uType = MB_OK;
  msgBoxId = MessageBoxW( NULL, lpText, lpCaption, uType );
  return 0;
}

Question 8

आप मूल रूप से स्मृति में तार के साथ wchar_tसरणियों के बजाय सौदा करना चाहते हैं । जब आप किसी भी प्रकार के I / O (जैसे पढ़ने / लिखने की फाइलें) करते हैं, तो आप UTF-8 (यह संभवतः सबसे आम एन्कोडिंग) का उपयोग करके डिकोड / डिकोड कर सकते हैं, जो लागू करने के लिए पर्याप्त सरल है। बस RFC को google करें। तो इन-मेमोरी कुछ भी मल्टी-बाइट नहीं होना चाहिए। एक wchar_tचरित्र का प्रतिनिधित्व करता है। हालांकि, जब आप क्रमबद्ध करने के लिए आते हैं, तो जब आपको UTF-8 जैसी किसी चीज़ को एनकोड करना होता है, जहां कुछ पात्रों को कई बाइट्स द्वारा दर्शाया जाता है।

strcmpविस्तृत चरित्र तार के लिए आपको नए संस्करण आदि भी लिखने होंगे , लेकिन यह कोई बड़ा मुद्दा नहीं है। सबसे बड़ी समस्या पुस्तकालयों / मौजूदा कोड के साथ होगी जो केवल चार सरणियों को स्वीकार करते हैं।

और जब यह आता है sizeof(wchar_t)(आपको 4 बाइट्स की आवश्यकता होगी यदि आप इसे सही करना चाहते हैं) तो आप इसे कभी भी बड़े आकार में typedef/ macroहैक्स के साथ फिर से परिभाषित कर सकते हैं यदि आपको आवश्यकता है।

Question 9

मुझे जो पता है, उससे wchar_t कार्यान्वयन निर्भर है (जैसा कि इस विकी लेख से देखा जा सकता है )। और यह यूनिकोड नहीं है।

सी प्रोग्रामिंग: यूनिकोड के लिए कार्यक्रम कैसे करें?

C99 या पहले का

C11 और <uchar.h>

6.4.3 सार्वभौमिक चरित्र नाम

7.28 यूनिकोड उपयोगिताओं <uchar.h>

C11 और `<uchar.h>`

7.28 यूनिकोड उपयोगिताओं `<uchar.h>`