ये वे कारण हैं जो मुझे याद हैं कि यूटीएफ -8 या एक और यूनिकोड प्रतिनिधित्व नहीं करने के लिए स्क्रिप्टिंग भाषा रूबी के लिए डिफ़ॉल्ट चरित्र एन्कोडिंग का प्रतिनिधित्व किया गया था, जिसे मुख्य रूप से जापान में विकसित किया गया है:
- कारण 1: हान एकीकरण । चरित्र सेट (निश्चित नहीं है कि "अक्षर" यहां सही होंगे) चीन, कोरिया और जापान सभी संबंधित हैं, सामान्य इतिहास से विकसित हुए हैं, विवरण के बारे में निश्चित नहीं। यूनिकोड कंसोर्टियम ने ऐतिहासिक एक ही चरित्र के सभी वेरिएंट (चीनी, जापानी और कोरियाई) को एन्कोड करने के लिए केवल एक यूनिकोड कोड बिंदु को बर्बाद करने का फैसला किया, भले ही उनका स्वरूप सभी 3 भाषाओं में भिन्न हो। उनका तर्क है, उपस्थिति को पाठ प्रदर्शित करने के लिए उपयोग किए जाने वाले फ़ॉन्ट द्वारा निर्धारित किया जाना चाहिए।
जाहिरा तौर पर, यह तर्क जापानी उपयोगकर्ताओं द्वारा उतना ही हास्यास्पद माना जाता है जितना कि अंग्रेजी पाठकों को यह तर्क देना होगा कि, क्योंकि लैटिन वर्णमाला ग्रीक वर्णमाला से विकसित हुई है, यह ग्रीक अल्फ़ा के लिए केवल एक ही कोड बिंदु होना पर्याप्त है। α "और लैटिन" ए ", और उपयोग में फ़ॉन्ट द्वारा उपस्थिति का फैसला किया जाए। ("Same" = "बी", "=" = "जी", आदि के लिए समान)
(ध्यान दें कि मैं स्टेक्सएक्सचेंज पर यहां ग्रीक वर्णों को शामिल नहीं कर पाऊंगा अगर ऐसा होता।)
- कारण 2: अक्षम चरित्र रूपांतरण।
यूनिकोड से लेगेसी जापानी एनकोडिंग और बैक में पात्रों को बदलने के लिए तालिकाओं की आवश्यकता होती है, यानी यूनिकोड कोड-पॉइंट वैल्यू से लेगेसी कोड पॉइंट वैल्यू और इसके विपरीत कोई सरल गणना नहीं है। परिवर्तित करते समय सूचना का कुछ नुकसान भी होता है क्योंकि एक एन्कोडिंग में सभी कोड-पॉइंट अन्य एन्कोडिंग में एक अद्वितीय प्रतिनिधित्व नहीं करते हैं।
और भी कारण दिए गए होंगे जो मुझे अब याद नहीं हैं।