कैरेक्टर इनकोडिंग का फांट से क्या सम्बंध है?

11

मेरा मतलब है, क्या एक फ़ॉन्ट को हर वर्ण एन्कोडिंग का समर्थन करना है? या एक चरित्र एन्कोडिंग हर फ़ॉन्ट का समर्थन करने के लिए है?

यूनिकोड फोंट का क्या अर्थ है? क्या वे फोंट हैं जो केवल यूनिकोड का समर्थन करते हैं , और वे समर्थन नहीं करते हैं, कहते हैं, विंडोज़ -1252?

fonts character-encoding

— DrStrangeLove
स्रोत

संबंधित: मुझे फोंट के यांत्रिकी पर कहां से जानकारी मिल सकती है?

— Ƭᴇc atιᴇ007

8

मूल बातें शुरू करने के लिए, सब कुछ यूएस-एएससीआईआई पर आधारित है, जो सेट में 128 कोड बिंदुओं के साथ 7 बिट कोड है, 7x या दशमलव 0-127 के माध्यम से हेक्स 00 गिना जाता है। यह कोड, अंग्रेजी अल्फ़ान्यूमेरिक, और मूल विराम चिह्नों को नियंत्रित करने के लिए मैप किया गया है

8 बिट कोड (बाइट) के लिए इसमें 1 बिट जोड़ने से हमें एक और 128 कोड अंक या विस्तारित ASCII मिलता है।

कैरेक्टर सेट / कोड पेजों को जल्दी-जल्दी बदलने की आवश्यकता थी कि जिस ऊपरी भाषा में आप प्रतिनिधित्व करना चाहते हैं, उसके लिए वर्णमाला को कवर करने के लिए वर्णों को ऊपरी 128 बिट्स में कोड बिंदुओं को कैसे मैप किया जाए। यह ज्यादातर पश्चिमी यूरोपीय भाषाओं के लिए यथोचित काम करता है। आईएसओ 8859-1 / लैटिन -1 इस तरह के एक चरित्र सेट का एक उदाहरण है। एक और विंडोज -1252 है जिसमें आईएसओ 8859-1 से बदलाव है ताकि इसे अधिक या विभिन्न पात्रों को कवर करने में मदद मिल सके।

चीनी, जापानी और कोरियाई जैसे अधिक जटिल वर्ण सेट वाली भाषाएं 256 कोड बिंदु सेट की क्षमताओं से अधिक हैं और उनके प्रतिनिधित्व को सक्षम करने के लिए एक डबल-बाइट कोड का उपयोग करती हैं।

यूनिकोड यूटीएफ -8 एक मल्टी-बाइट कैरेक्टर एन्कोडिंग स्कीम (1-4 बाइट्स) है जिसमें आईएसओ 8859-1 / लेटिन -1 के लिए पिछड़ी संगतता है और यह इसका पहला 128 कैरेक्टर है। इसमें 1 मिलियन से अधिक कोड बिंदुओं के लिए जगह है, जिसका अर्थ है कि प्रत्येक कोड बिंदु वास्तव में एक चरित्र का प्रतिनिधित्व कर सकता है, विस्तारित ASCII के साथ किए गए चक्कर के विपरीत, जिसका अर्थ है कि एक कोड चरित्र के नक्शे, चरित्र सेट / कोड पृष्ठ / के आधार पर भिन्न होते हैं। एन्कोडिंग।

फ़ॉन्ट्स ग्लिफ़ हैं जिन्हें कोड बिंदुओं पर मैप किया जाता है और नेत्रहीन वर्णों का प्रतिनिधित्व करते हैं। एक फ़ॉन्ट की सामग्री इस बात पर निर्भर करती है कि यह मूल रूप से किन भाषाओं को कवर करने के लिए थी। फ़ॉन्ट के भीतर क्या ग्लिफ़ हैं, यह देखने के लिए आप चरित्र मानचित्र का उपयोग कर सकते हैं ।

यूनिकोड फोंट सभी कोड बिंदुओं को आवश्यक रूप से कवर नहीं करते हैं, आपको यह देखने की आवश्यकता है कि उनका उपयोग करने का इरादा कहां था। उदाहरण के लिए, विंडोज 7 में, कैरेक्टर मैप को फायर करें और कैलीबरी में पात्रों को देखें और फिर उनकी तुलना एब्रीमा, मीरियो और रावी से करें। ध्यान दें कि वे बहुत भिन्न हैं क्योंकि प्रत्येक एक अलग भौगोलिक क्षेत्र के अनुरूप है।

यूनिकोड फोंट और विंडोज -1252 चरित्र सेट के रूप में, विंडोज यूनिकोड में विंडोज 1252 का अनुवाद करने के लिए विंडोज एक मैपिंग टेबल का उपयोग करता है, जहां यह "बेस्ट फिट" परिदृश्य के लिए आईएसओ 8859-1 से मेल नहीं खाता है, जहां विंडोज -1252 चरित्र में कुछ अक्षर हैं। सेट प्रदर्शित नहीं हो सकता है।

— फासको लैब्स
स्रोत

5

अक्षरों का समूह

एक वर्ण सेट वर्णों का एक संग्रह है, जिनमें से प्रत्येक के लिए एक संख्या निर्दिष्ट है।

एक प्रसिद्ध चरित्र सेट ASCII है। यह 0 से 127 तक गिने जाने वाले 128 अक्षरों का एक सेट है। इन नंबरों को सभी 7 बिट्स में व्यक्त किया जा सकता है (इसलिए यह 7-बिट कैरेक्टर सेट है)

अधिकांश लेकिन अन्य सभी वर्ण सेटों में समान क्रमांक के साथ ASCII सेट शामिल नहीं है । चरित्र सेट के उदाहरण जो ASCII की तरह नहीं हैं उनमें EBCDIC शामिल है। ASCII पर यूरोपीय वेरिएंट भी थे जिनकी कुछ स्थितियों में भिन्न वर्ण थे (जैसे £ शामिल करने के लिए)

एन्कोडिंग

एक लाख से अधिक वर्णों के साथ यूनिकोड जैसे बड़े वर्ण सेट, वर्णों को सौंपी गई बड़ी संख्या को समायोजित करने के लिए प्रति वर्ण तीन या चार बाइट्स की आवश्यकता होगी। इसके बजाय वे एक प्रणाली का उपयोग करते हैं जो उस संख्या को एक, दो, तीन या अधिक बाइट्स के रूप में "एन्कोडेड" करने की अनुमति देता है। UTF-8 एन्कोडिंग योजना के साथ, जो वर्ण ASCII वर्ण के समान होते हैं, वे एकल बाइट्स के साथ उसी बाइट मान के साथ एन्कोड किए जाते हैं।

फ़ाइलों में पाठ संग्रहीत करते समय उपरोक्त एन्कोडिंग का उपयोग किया जाता है।

टाइपफेस

टाइपफेस वर्णों के समूह के लिए दृश्य प्रतिनिधित्व (अर्थात आकार) का एक विशिष्ट डिज़ाइन है। आकृतियों को ग्लिफ़ कहा जाता है। एक टाइपफेस में एक चरित्र के लिए कई ग्लिफ़ हो सकते हैं ("ए" पर विचार करें)। यह वर्णों के जोड़े के लिए ग्लिफ़ हो सकता है जिसे लिगॉरस कहा जाता है (जैसे "एफएफ" या "फाई")। एक टाइपफेस में वर्णों का सेट, जिसके लिए एक ग्लिफ़ डिज़ाइन किया गया है, इसलिए अक्सर प्रसिद्ध चरित्र सेटों में पात्रों के सेट से भिन्न होता है (टाइपफेस आमतौर पर ASCII नियंत्रण वर्णों के लिए ग्लिफ़ शामिल नहीं करते हैं)।

फोंट्स

कंप्यूटर के संदर्भ में, एक फ़ॉन्ट का अर्थ है एक फ़ाइल जिसमें कुछ नंबरिंग योजना के अनुसार ग्लिफ़ युक्त आदेश होता है (जो अक्सर किसी भी प्रसिद्ध चरित्र सेट में नंबरिंग के समान नहीं होता है)। ऐतिहासिक रूप से बिट-मैप किए गए फोंट थे जो एक टाइपफेस के एक विशिष्ट आकार (पिक्सेल या अंक में) का प्रतिनिधित्व करते थे। वर्तमान में अधिकांश फोंट ग्लिफ़ का वर्णन करने के लिए गणितीय घटता का उपयोग करते हैं और इसलिए टाइपफेस के किसी भी आकार का प्रतिनिधित्व करने के लिए स्केल किया जा सकता है।

यह सब एक साथ डालें

जब आप एक टेक्स्ट फ़ाइल प्रदर्शित करते हैं, तो कंप्यूटर को फ़ाइल में उपयोग किए गए एन्कोडिंग को बताया (या अनुमान) दिया जाता है। फिर यह मेमोरी में टेक्स्ट को दर्शाने के लिए एक अलग नंबरिंग (जैसे यूनिकोड का 16-बिट वेरिएंट) का उपयोग करेगा, फिर यह फ़ॉन्ट फाइल में उपयोग किए गए नंबरिंग (एन्कोडिंग) में आंतरिक प्रतिनिधित्व को मैप करने के लिए एक फ़ॉन्ट फ़ाइल में जानकारी का उपयोग करेगा।

— RedGrittyBrick
स्रोत

3

क्या एक फ़ॉन्ट को हर वर्ण एन्कोडिंग का समर्थन करना पड़ता है?

नहीं, मुझे नहीं पता कि क्या वास्तव में कोई ऐसा करता है।
इसका मतलब होगा कि उनके पास हर कल्पनाशील चरित्र "उनमें" होगा। पश्चिमी संस्कृतियों के एनकोडिंग (लैटिन) का समर्थन करने के लिए हमारे द्वारा उपयोग किए जाने वाले सबसे आम फ़ॉन्ट।

या एक चरित्र एन्कोडिंग हर फ़ॉन्ट का समर्थन करने के लिए है?

कैरेक्टर एन्कोडिंग किसी भी तरह से "समर्थन" नहीं करता है, इसलिए यह वास्तव में इसे देखने का गलत तरीका है।

यूनिकोड फोंट का क्या अर्थ है? क्या वे फोंट हैं जो केवल यूनिकोड का समर्थन करते हैं, और वे समर्थन नहीं करते हैं, कहते हैं, विंडोज़ -1252?

यूनिकोड एक मानक है (या कम से कम एक होने की कोशिश कर रहा है), जिसमें बड़ी संख्या में पात्रों का समर्थन है, इसलिए बहुत सारे एनकोडिंग स्वयं का एक उप-समूह बना रहे हैं। विंडोज 1252 या CP1252 एक एन्कोडिंग है जिसमें लैटिन वर्ण और कुछ केंद्रीय यूरोपीय वर्ण हैं। उनमें से अधिकांश यूनिकोड द्वारा "कवर" भी हैं। लगभग सभी यूनिकोड फोंट कवर CP1252 के रूप में अच्छी तरह से।

— कौआ
स्रोत

1

Unicode unambiguously एक मानक है, जिसका नाम ISO 10646 है।

— MSalters