वास्तविक उपयोग में सबसे आम गैर-बीएमपी यूनिकोड वर्ण क्या हैं? [बन्द है]


108

आपके अनुभव में यूएमकोड के चरित्र, कोडपॉइंट, पर्वतमाला के बाहर बीएमपी (बेसिक मल्टीलिंगुअल प्लेन) अब तक के सबसे आम हैं? ये वे हैं जिन्हें UTF-8 में 4 बाइट्स की आवश्यकता होती है या UTF-16 में सरोगेट होते हैं।

मुझे उम्मीद है कि उत्तर चीनी और जापानी वर्णों के नामों में इस्तेमाल किया जाएगा, लेकिन सबसे व्यापक सीजेके मल्टीबाइट चरित्र सेट में शामिल नहीं है, लेकिन परियोजना पर मैं सबसे अधिक काम करता हूं, अंग्रेजी विकिपीडिया, हमने पाया है कि गॉथिक वर्णमाला है अब तक आम है।

अपडेट करें

मैंने गैर-बीएमपी वर्णों के लिए संपूर्ण विकिपीडिया को स्कैन करने के लिए कुछ सॉफ्टवेयर टूल लिखे हैं और मुझे आश्चर्य हुआ कि जापानी विकिपीडिया गोथिक वर्णमाला में भी सबसे आम है। यह चीनी विकिपीडिया में भी सही है लेकिन इसमें कई चीनी वर्णों का उपयोग 50 या 70 बार तक किया जा रहा था, जिसमें "𠬠", "the" और "𩷶" शामिल हैं।


1
@ ह्पीपिट्रिल: मुख्य समस्या यह है कि उत्तर आपके द्वारा काम करने वाले ग्रंथों के प्रकार पर निर्भर करेगा। यदि आप एक पुरातत्व परियोजना पर काम करते हैं, रैखिक बी में ग्रंथों को सूचीबद्ध करते हैं , तो आप एक आधुनिक जापानी शब्दकोष पर काम करने के बजाय अलग-अलग गैर-बीएमपी वर्ण देखेंगे। तो कम से कम ग्रंथों के संकीर्ण होने के बिना, यह निश्चित रूप से बहुत व्यापक है।
sleske

जवाबों:


95

इमोजी अब तक के सबसे आम गैर-बीएमपी अक्षर हैं। U, अन्यथा U + 1F602 FACE with TEARS OF JOY के रूप में जाना जाता है, यह ट्विटर की सार्वजनिक धारा पर सबसे आम है। यह टिल्ड की तुलना में अधिक बार होता है!


5
यह वास्तव में सबसे आम गैर बीएमपी इमोजी है जो emojitracker.com के
Frédéric Grosshans

1
मैं कॉमन क्रॉल से वेब पर पाठ उपयोग के आँकड़े देख रहा हूं, और पाया कि इमोजी अब वेब पर सबसे आम गैर-बीएमपी वर्ण भी हैं। वे ट्विटर पर उतने सामान्य नहीं हैं, बेशक। Most अभी भी सबसे आम है।
rspeer

1
@Quuxplusone सोर्स: emojistats.org
niutech

62

बहुत बढ़िया सवाल!

इसका उत्तर गणितीय अक्षर हैं। इस पिछले दिसंबर में मैंने पूरे PubMed Open Access corpus का एक स्कैन किया, और इसमें सूक्ष्म पात्रों के लिए इन आंकड़ों के साथ आया।

नीचे दिए गए आंकड़ों में पहली संख्या यह है कि प्रत्येक दिए गए कोड बिंदु की कितनी प्रतियां मैंने पूरे कॉर्पस में पाई हैं। सबसे पहले, हालांकि, आपको रिश्तेदार आवृत्तियों पर एक धारणा देने के लिए, यहाँ उस टॉपस में शीर्ष दस ट्रांस-एएससीआईआई कोड बिंदु हैं:

 2663710 U+002013 ‹–›  GC=Pd    EN DASH
 1065594 U+0000A0 ‹ ›  GC=Zs    NO-BREAK SPACE
 1009762 U+0000B1 ‹±›  GC=Sm    PLUS-MINUS SIGN
  784139 U+002212 ‹−›  GC=Sm    MINUS SIGN
  602377 U+002003 ‹ ›  GC=Zs    EM SPACE
  528576 U+0003BC ‹μ›  GC=Ll    GREEK SMALL LETTER MU
  519669 U+0003B2 ‹β›  GC=Ll    GREEK SMALL LETTER BETA
  512312 U+0003B1 ‹α›  GC=Ll    GREEK SMALL LETTER ALPHA
  491842 U+00200A ‹ ›  GC=Zs    HAIR SPACE
  462505 U+0000B0 ‹°›  GC=So    DEGREE SIGN

और अब आवृत्ति के क्रम में ट्रांस-बीएमपी कोड बिंदु हैं:

     544 U+01D49E ‹𝒞›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL C
     450 U+01D4AF ‹𝒯›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL T
     385 U+01D4AE ‹𝒮›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL S
     292 U+01D49F ‹𝒟›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL D
     285 U+01D4B3 ‹𝒳›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL X
     262 U+01D4A9 ‹𝒩›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL N
     258 U+01D4AB ‹𝒫›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL P
     254 U+01D4A2 ‹𝒢›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL G
     185 U+01D49C ‹𝒜›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL A
     178 U+01D53C ‹𝔼›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL E
     137 U+01D4AA ‹𝒪›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL O
      56 U+01D4A5 ‹𝒥›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL J
      48 U+01D4A6 ‹𝒦›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL K
      44 U+01D4B1 ‹𝒱›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL V
      43 U+01D4B2 ‹𝒲›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL W
      42 U+01D4B4 ‹𝒴›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Y
      41 U+01D4B5 ‹𝒵›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Z
      35 U+01D4B0 ‹𝒰›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL U
      30 U+01D4AC ‹𝒬›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Q
      23 U+01D54A ‹𝕊›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL S
      21 U+01D539 ‹𝔹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL B
      19 U+01D5A7 ‹𝖧›  GC=Lu    MATHEMATICAL SANS-SERIF CAPITAL H
      18 U+01D517 ‹𝔗›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL T
      15 U+01D4C3 ‹𝓃›  GC=Ll    MATHEMATICAL SCRIPT SMALL N
      14 U+01D535 ‹𝔵›  GC=Ll    MATHEMATICAL FRAKTUR SMALL X
      13 U+01D4BF ‹𝒿›  GC=Ll    MATHEMATICAL SCRIPT SMALL J
      11 U+01D540 ‹𝕀›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL I
       9 U+01D465 ‹𝑥›  GC=Ll    MATHEMATICAL ITALIC SMALL X
       9 U+01D4CE ‹𝓎›  GC=Ll    MATHEMATICAL SCRIPT SMALL Y
       9 U+01D538 ‹𝔸›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL A
       8 U+01D4C2 ‹𝓂›  GC=Ll    MATHEMATICAL SCRIPT SMALL M
       8 U+01D54D ‹𝕍›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL V
       7 U+01D4B6 ‹𝒶›  GC=Ll    MATHEMATICAL SCRIPT SMALL A
       7 U+01D4BE ‹𝒾›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹𝓌›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹𝔖›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       7 U+01D4BE ‹𝒾›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹𝓌›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹𝔖›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       4 U+01D4CF ‹𝓏›  GC=Ll    MATHEMATICAL SCRIPT SMALL Z
       4 U+01D53B ‹𝔻›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL D
       4 U+01D54B ‹𝕋›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL T
       3 U+01D4BB ‹𝒻›  GC=Ll    MATHEMATICAL SCRIPT SMALL F
       3 U+01D4CA ‹𝓊›  GC=Ll    MATHEMATICAL SCRIPT SMALL U
       3 U+01D507 ‹𝔇›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL D
       3 U+01D542 ‹𝕂›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL K
       3 U+01D546 ‹𝕆›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL O
       2 U+01D4BD ‹𝒽›  GC=Ll    MATHEMATICAL SCRIPT SMALL H
       2 U+01D4C5 ‹𝓅›  GC=Ll    MATHEMATICAL SCRIPT SMALL P
       2 U+01D505 ‹𝔅›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL B
       2 U+01D50E ‹𝔎›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL K
       2 U+01D541 ‹𝕁›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL J
       2 U+01D543 ‹𝕃›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL L
       2 U+100002 ‹􀀂›  GC=Co    <private use character>
       1 U+01D4B8 ‹𝒸›  GC=Ll    MATHEMATICAL SCRIPT SMALL C
       1 U+01D4C1 ‹𝓁›  GC=Ll    MATHEMATICAL SCRIPT SMALL L
       1 U+01D53D ‹𝔽›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL F
       1 U+01D53E ‹𝔾›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL G
       1 U+01D54C ‹𝕌›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL U
       1 U+01D6A4 ‹𝚤›  GC=Ll    MATHEMATICAL ITALIC SMALL DOTLESS I
       1 U+01D7D9 ‹𝟙›  GC=Nd    MATHEMATICAL DOUBLE-STRUCK DIGIT ONE

मैं वास्तव में चाहता हूं कि मुझे पता था कि वे क्या करने के लिए U + 100002 का उपयोग कर रहे थे। :(

यदि वे आपके ब्राउज़र में दिखाई नहीं दे रहे हैं, तो आपको जॉर्ज डोरोस का सिंबोला फ़ॉन्ट स्थापित करना चाहिए । इसमें सभी मजेदार यूनिकोड 6.0.0 कोड पॉइंट भी हैं।


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.