एम्बेडेड सिस्टम प्रोजेक्ट के लिए एसई एशियाई वर्णमाला रखने के लिए पूर्ण, न्यूनतम आवश्यकता क्या है?


14

मैं एक कंपनी के लिए काम करता हूं जिसने हमारे उत्पादों में एम्बेडेड कंप्यूटर सिस्टम को एकीकृत करना शुरू कर दिया है जो हम निर्माण करते हैं। हमारे पास उत्पादों की एक विस्तृत श्रृंखला है और वे दुनिया भर में वितरित किए जाते हैं। इसके अतिरिक्त, हमने कुछ एकीकृत बोर्डों को डिज़ाइन किया है जो सिस्टम पर फ्लैश किए गए फ़र्मवेयर के आधार पर कई उद्देश्यों की पूर्ति कर सकते हैं। इस तरह हमें अपने विभिन्न उत्पादों के लिए अपने कंप्यूटर हार्डवेयर को नया स्वरूप नहीं देना पड़ता है- हमें केवल इतना करना है कि विशिष्ट उत्पाद की जरूरतों को पूरा करने के लिए फर्मवेयर परत को फिर से लिखना है।

इन हार्डवेयर सीमाओं के कारण, हमारे हार्डवेयर को बदलना कांग्रेस का कार्य करता है लेकिन नया सॉफ्टवेयर लिखना बहुत सरल है।

हमारे उत्पादों में से एक की एक नई आवश्यकता है जिसे हमें पहले लागू नहीं करना पड़ा है, जो उपयोगकर्ता-इनपुट वाले पाठ की आवश्यकता है।

वर्तमान में, हम संसाधनों में अंतर्राष्ट्रीय पाठ संग्रहीत करने में सक्षम हैं और केवल आवश्यक फ़ॉन्ट वर्ण बिट-मैप की गई छवियों के लिए संकलित हैं। इसका अर्थ है कि हम चीनी और जापानी पाठ जैसी अत्यधिक-वैचारिक भाषाओं को न्यूनतम स्थान पर संग्रहीत करने में सक्षम हैं क्योंकि हम केवल संपूर्ण भाषा सेट का बहुत कम प्रतिशत उपयोग करते हैं।

चूँकि इस नए उत्पाद के लिए यह आवश्यक होगा कि हमारे उपयोगकर्ता इनपुट पाठ करें, हमें एक व्यापक वर्ण सेट लागू करना होगा। मुख्य रूप से एक पीसी डेवलपर के रूप में, मैं एएससीआईआई, यूनिकोड, यूटीएफ -8, आदि से काफी परिचित हूं, हालांकि, इनमें से किसी भी भाषा के पूर्ण वर्ण सेट को लागू करना संभव नहीं है क्योंकि हमारे पास बोर्ड पर सीमित मात्रा में एफआरएएम है। फ़ॉन्ट डेटा संग्रहीत करने के लिए।

मेरा प्रबंधन उम्मीद कर रहा है कि एक न्यूनतम चरित्र सेट है जिसे अत्यधिक वैचारिक भाषाओं के लिए उपयोग किया जा सकता है। मेरा मानना ​​है कि जापानी (हीरागाना) के लिए एक ध्वन्यात्मक वर्णमाला है? क्या चीनी, कोरियाई, वियतनामी, आदि भाषाओं के लिए भी इसी तरह के ध्वन्यात्मक वर्णमाला हैं और यदि हां, तो क्या इन भाषाओं के बोलने वाले ऐसे संकीर्ण चरित्र सेट के साथ संवाद कर सकते हैं? मुझे पूरा यकीन है कि इस सवाल का जवाब "बिल्कुल, नहीं" है, लेकिन यह सवाल पूछने लायक है।

प्रबंधन ने एक "नरम" आवश्यकता निर्धारित की है कि हम सभी प्रमुख भाषाओं को सामान्य उपयोग में शामिल करने वाले लगभग 8,000 वर्णों का एक सीमित चरित्र सेट कर सकते हैं। यदि यह संभव नहीं है, तो हमें अपने सीमित हार्डवेयर संसाधनों के आधार पर अपनी आवश्यकताओं को पूरा करने के लिए वैकल्पिक विधि के कुछ रूपों की तलाश करनी होगी।

मुझे यकीन है कि यह समस्या पहले हल हो गई होगी। क्या किसी को एक व्यापक फ़ॉन्ट और वर्ण एन्कोडिंग सिस्टम की आवश्यकता के दौरान इस तरह की बाधाओं के भीतर काम करने का अनुभव है? यदि ऐसा है, तो ज्ञान की कौन सी डली आप पेश कर सकते हैं?


न तो कोरिया और न ही जापान एसई एशिया का हिस्सा हैं। वे ई एशिया से संबंधित हैं। यदि आपका मतलब एस, एसई और ई एशिया से है, तो कृपया लिखें।
lalala

जवाबों:


25

यह एक अच्छा सवाल है।

एक समय में अपने जवाब से निपटने के लिए एक भाषा;

वियतनामी

वियतनामी अब वैचारिक चरित्रों का उपयोग नहीं कर रहा है, लेकिन इसका लैटिन सेट काफी व्यापक है: उदाहरण के लिए देखें कि कितने डायटिक्स का उपयोग करता है:

टायंग विथ, हाय वीट एनकाउ, ला एनगॉन एनसी सी एनसीजी वीआईटी (ngư Kini Kinh) và là ngôn ngữ chính tứi ti Việt नाम। Đây là tiếng mĐ ủ c ka kho 85ng 85% dân cư Vi ,t Nam, cệng với gần ba triệu người Việt hải nạạại, mà phần làn là người Mỹ gốc Việt। टियांग विंट còn là ngôn ngứ thi hai c ca các dân tểc thiộu số tại Việt Nam।

इसका कारण यह है कि प्रत्येक Vietnames शब्दांश में छह टोन में से एक होता है जो उच्चारण को प्रभावित करता है - एक गैर-मानक व्यंजन ग्लिफ़ और छह गैर-मानक स्वर होने के अलावा।

यूनिकोड स्वरों पर टोन के निशान बनाता है; यदि आपके पास ग्लिफ़ की रचना करने की क्षमता है, तो आपको केवल वियतनामी के लिए 13 अतिरिक्त ग्लिफ़ की आवश्यकता होगी , लेकिन यदि नहीं, तो आपको 1 अतिरिक्त व्यंजन + 12 स्वर * 6 स्वर + 6 नए स्वरों को आज रात = 79 अतिरिक्त ग्लाइसेज़, डाउनकेस में और की आवश्यकता होगी अपरकेस।

कोरियाई

कोरियाई बुरी खबर है। कोरियाई हालांकि एक वर्णमाला कहा जाता है , जिसे हंगुल कहा जाता है , जो तकनीकी रूप से केवल 68 अक्षरों (जिसे जामो कहा जाता है) की वर्णमाला है, वास्तव में शब्दांश के आकार के ब्लॉकों में लिखा जाता है, जो जामो से निर्मित होता है।

कोरियाई पाठ कैसा दिखता है, इसका एक उदाहरण:

조선 한국어 조선 조선 조선 조선 조선 조선 43 43 46 또는 46 46 1446 조선 임금 임금 46 46 1446 조선 조선 하였다 하였다 46 1446 १년 ९ ४ से 년 을 을 을 을 을 년 년 되었고 되었고 १년 ९ ४ 을 94 을 을 을 을 사용 사용 이름 사용।

यूनिकोड में 11,172 पूर्ण ब्लॉक वर्ण हैं - लेकिन यदि आप अंतिम "ब्लॉक" की रचना करने के लिए तर्क को कोड करने के लिए तैयार हैं, तो आप वर्ण सेट पर बहुत बचत कर सकते हैं।

मूल रूप से, सभी सिलेबल्स को दो श्रेणियों में विभाजित किया जा सकता है - व्यंजन + स्वर और व्यंजन + स्वर + अंतिम, जहां अंतिम एक स्वर, एक व्यंजन या एक समग्र हो सकता है। सीवी सिलेबल्स सी के साथ बाईं ओर और वी दाईं ओर निर्मित हैं; सीवीएफ व्यंजन शीर्ष (बाएं से दाएं) पर सीवी ब्लॉक से बने होते हैं, और नीचे से अंतिम होते हैं।

तो, मूल रूप से, आपको आवश्यकता है:

  • 19 आद्याक्षर, दो रूपों में
  • 21 मेडल, दो रूपों में
  • 28 फाइनल

कुल 108 प्रतीकों के लिए । (मुझे पूरी तरह से यकीन नहीं है कि कोरियाई में "लिगर्स" नहीं हैं, ताकि कभी-कभी एक निर्मित ब्लॉक घटकों के संयोजन से अलग दिखता है, लेकिन यह सबसे अच्छा है जो हम अभी प्राप्त करेंगे)।

जापानी

जैसा कि आपने सही ढंग से देखा है, जापानी में ध्वन्यात्मक वर्णमाला है - लेकिन वास्तव में, केवल एक नहीं, बल्कि दो! हीरागाना और कटकाना शब्दांश हैं, दोनों एक ही शब्दांश के 48 के साथ हैं, लेकिन विभिन्न संदर्भों में इस्तेमाल किया जाता है (कटकाना विदेशी शब्दों के लिए प्रयोग किया जाता है, हिरागाना व्याकरण के लिए उपयोग किया जाता है)।

अफसोस की बात है (हमारे उद्देश्यों के लिए), जापानी केवल इन दो वर्णमालाओं का उपयोग करके पूरी तरह से लिखना असंभव है - चीनी वर्ण, या कांजी , जैसा कि वे इस संदर्भ में जानते हैं, किसी भी जापानी पाठ के लिए आवश्यक हैं।

अप्रचलित लेखन उदाहरण:

仮 名 (か な) と は, 漢字 を も と に し て 日本 で 作 ら れ た 文字 の こ と। 現在 一般 に は 平 仮 名 と 片 仮 名 の こ と を 指 す। 表音文字 の 一種 で あ り, 基本 的 に 1 字 が 1 音節 をあ ら わ す 音節 文字 に 分類 さ れ る। 漢字 に 対 し て 和 字 (わ じ) と も 言 う। た だ し 和 字 は 和 製 漢字 を 意味 す る 事 も あ る।

कांजी के अलावा, आपको दो ध्वन्यात्मक वर्णमाला + 7 आम कांजी में मैप करने के लिए 103 ग्लिफ़ की आवश्यकता होगी जो चीनी में मौजूद नहीं हैं।

CKJ विराम चिह्न

इस पर एक विशेषज्ञ नहीं, लेकिन चीनी और जापानी दोनों शास्त्रीय, पूर्वी एशियाई विराम चिह्न का उपयोग करते हैं। यूनिकोड में 64 प्रतीक हैं जो सीजेके विराम चिह्न और प्रतीकों को समर्पित हैं।

चीनी

इसलिए, हमारे पास "बजट" में 7631 अक्षर शेष हैं। क्या यह चीनी पात्रों को कवर करने के लिए पर्याप्त होगा?

漢字 為 上古 時代 的 華夏族 人 所 發明 創製 並 作 改進, 目前 确切 歷史 可 追溯 至 約 公元前 1300 年 商朝 的 甲骨文, 籀文, 金文। 再到 秦朝 的 小篆, 發展 至 漢朝 隸 變,至 唐代 楷 化為 今日 所 用 的 手寫 字體 標準 -। 正楷 汉字 是 迄今为止 连续 使用 时间 最长 的 主要 文字, 也是 上古 时期 各大 文字 体系 中 唯一 传承 至今 的 文字, 期間 ​​東亞 諸國 都有 一定 程度 地 自行創製 漢字।

अस्तित्व में 100,000 से अधिक वर्णों के साथ, चीनी वर्णमाला को पूरी तरह से कवर करना अनिवार्य रूप से असंभव है , सक्रिय रूप से उपयोग किया जाने वाला सबसेट बहुत छोटा है। 2000-3000 वर्णों को सामान्य साक्षरता के लिए पर्याप्त कहा जाता है (एचएसके, टीओईएफएल जैसे मंदारिन चीनी का परीक्षण, इसके उच्चतम स्तर, एचएसके एडवांस्ड के लिए 2800 पात्रों के ज्ञान की आवश्यकता होती है), 4000-5000 वर्ण एक शिक्षित व्यक्ति के लिए पर्याप्त हैं।

यह ध्यान में रखते हुए कि सरलीकृत और पारंपरिक चरित्र हैं (पूर्व में पीआरसी में उपयोग किए जाते हैं, बाद में - ताइवान में), जो कि बहुत सारे वर्णों के लिए अलग-अलग होते हैं , शेष 7600 प्रतीक हैं, मैं कहूंगा, ज्यादातर उपयोग मामलों को कवर करने के लिए बस पर्याप्त होगा दोनों वर्ण।

यदि आपके कोई प्रश्न हों तो बेझिझक पूछें!


5
वाह। यह संभवतः संभवतः सबसे अच्छा उत्तर है जो मैंने एसओ पर पोस्ट किए गए किसी भी प्रश्न के लिए प्राप्त किया है। मैंने इस प्रश्न को आज संशोधित किया क्योंकि यह बकाया था। हमारी आवश्यकताओं में थोड़ा बदलाव आया है, लेकिन मैं अपने उत्पादों की प्रकृति को भी जानता हूं और मैं भविष्य में कुछ अज्ञात समय में इसकी आवश्यकता का पूर्वाभास करता हूं। आपको +1 और उत्तर वोट मिलता है। काश मैं आपको इससे भी अधिक अंक दे पाता। धन्यवाद 1,000,000!
RLH

थाई के लिए कोई प्यार नहीं?
lalala
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.