लैटिन वर्णमाला के दृश्यमान और श्रव्य रूप से असंदिग्ध उपसमुच्चय?


13

कल्पना कीजिए कि आप उस पर "5SBDO0" कोड के साथ किसी को कार्ड देते हैं।

कुछ फोंट में, अक्षर "S" को संख्या पांच से दृष्टिगत रूप से अलग करना मुश्किल है, (जैसा कि संख्या शून्य और पत्र "O")।

कोड को ज़ोर से पढ़ना, "B" को "D" से अलग करना मुश्किल हो सकता है, "B as boy," "D as dog," या इसके बजाय " ध्वन्यात्मक वर्णमाला " का उपयोग करना आवश्यक है।

अक्षरों और संख्याओं का सबसे बड़ा सबसेट क्या है, जो ज्यादातर मामलों में, जब दोनों पढ़ते हैं तो स्पष्ट रूप से अस्पष्ट और ध्वनिहीन दिखाई देते हैं?


पृष्ठभूमि:

हम एक छोटी स्ट्रिंग उत्पन्न करना चाहते हैं जो संचार के लिए आसान होते हुए भी अधिक से अधिक मानों को एनकोड कर सके।

कल्पना कीजिए कि आपके पास 6-वर्ण का तार है, "123456"। बेस 10 में यह 10 ^ 6 मान को एन्कोड कर सकता है ।

हेक्स "1B23DF" में आप समान वर्णों में 16 ^ 6 मानों को एन्कोड कर सकते हैं , लेकिन जोर से पढ़ने पर यह अस्पष्ट लग सकता है। ("बी" बनाम "डी")

इसी तरह N अक्षर के किसी भी तार के लिए, आपको (वर्णमाला का आकार) ^ N मान मिलता है।

मानव कामकाजी स्मृति क्षमता के भीतर आसानी से फिट होने के कारण, स्ट्रिंग लगभग छह वर्णों की लंबाई तक सीमित है

इस प्रकार हम जो मानों की अधिकतम संख्या प्राप्त कर सकते हैं, उन्हें खोजने के लिए हमें अक्षरों / संख्याओं के उस सबसे बड़े स्पष्ट सेट को खोजने की आवश्यकता है। कोई कारण नहीं है कि हम अक्षरों को GZ, और कुछ सामान्य विराम चिह्न पर विचार नहीं कर सकते हैं, लेकिन मैं मैन्युअल रूप से जाना पसंद नहीं करता है "जी की तरह ध्वनि करता है?", "जी की तरह ध्वनि करता है बी?", " जी ध्वनि सी "खुद की तरह। जैसा कि हम जानते हैं कि यह ओ (n ^ 2) भाषाई कार्य करना होगा =) ...


6
ध्यान दें कि जो अक्षर समान हैं, वे भाषाओं के बीच बहुत भिन्न हो सकते हैं ...
माइकल बोर्गवर्ड

इसके अलावा, वास्तव में क्या है लैटिन वर्णमाला?
MSalters

संबंधित स्टैकऑवरफ्लो प्रश्न में मेरा उत्तर भी देखें ।
MSalters

दृश्य भेद के लिए, बेस 32 एक मानक एन्कोडिंग है जो प्रतीकों की समानता को सीमित करता है।
बरजक

@MSalters "लैटिन लिपि" एक भाषाविज्ञान विचार है, हमारे उद्देश्यों के लिए मेरा वास्तव में मतलब है "लैटिन लिपि के सबसेट से जो यूनिकोड में संहिताबद्ध है," जैसे en.wikipedia.org/wiki/ISO/IEC_8859-1
elliot42

जवाबों:


15

आपको दृश्य समानता द्वारा समूहों में अल्फ़ान्यूमेरिक्स के सेट को विभाजित करना चाहिए, और प्रत्येक समूह से "सबसे प्रतिष्ठित" प्रतिनिधि चुनना चाहिए। यह कुछ हद तक व्यक्तिपरक है, हालांकि आप इस पर उपयोगकर्ता परीक्षण चला सकते हैं। आपके द्वारा चुने गए विकल्प इस बात पर भी निर्भर करते हैं कि आंकड़े मुद्रित होंगे या हस्तलिखित। उदाहरण के लिए:

  • { O , 0 , Q , D }

  • { मैं , एल , 1 }

  • { बी , 8 }

  • { Z , 2 }

  • { एस , }

  • { 7 , टी }

  • { यू , वी , वाई }

इसी प्रकार, उनके नामों के उच्चारण की ध्वन्यात्मक समानता द्वारा विभाजन वर्ण:

  • { A [Aeɪ], 8 [ʔeʔ (] / t)]}
    = [ɪeʔ] से शुरू होता है

  • { P [pi:], B [bi:], V [vi:], D [di:], T [ti:], E [ʔi:]}
    = stop / fricative + [i]

  • { G []i:], C [si:], Z [zi:], [:i:]}
    = fricative / affricate (क्लस्टर) + [i]

  • { M []m], N [[n]}
    = [+] + नाक

  • { S []s], F [[f], X [}ks]}
    = [ɛ] + फ्रिकेटिव / एफ्रीकेट

  • { मैं [Iaɪ], Y [wa,], [faʔv], [naʔn]}
    = व्यंजन + [aɪ] + (व्यंजन)

  • { Q [kj Q :], U [j]:], 2 [t (j)]:]}
    = व्यंजन + [(j)]:]

निस्संदेह, केवल संभावित विभाजन नहीं हैं, बस इस समय मन में क्या आता है। भले ही, वे आपको आगे के परीक्षण के लिए शुरू करने के लिए पर्याप्त होना चाहिए। इसके अलावा, ये किसी भी पेशेवर स्रोतों द्वारा समर्थित नहीं हैं - मैं टाइपोग्राफी और ध्वन्यात्मकता में केवल अपनी हॉबीस्ट पृष्ठभूमि का हवाला देता हूं।


3
श्रवण समानता के साथ शुरुआत के लिए, रेडियो संचार जैसे एयर ट्रैफिक कंट्रोल ऑपरेशंस मैनुअल (जहां मौखिक संचार की सही व्याख्या की जानी चाहिए या लोग मर जाते हैं) और हैम रेडियो पर एक नज़र रखना चाहिए। उदाहरण के लिए 5 और 9 को मिलाना आसान है, इसलिए "पाँच" और "नौ-एक" के रूप में बोला जाता है
मट्टनज़

@mnnz: धन्यवाद, मैं 5 और 9 को भूल गया। ऑडियो क्वालिटी एक बड़ा कारक है: रेडियो, टेलीफोन, स्टूडियो रिकॉर्डिंग, और इन-पर्सन कम्युनिकेशंस सभी अपनी अनूठी समस्याओं का सामना करते हैं।
जॉन पुरडी

1
तकनीकी रूप से वह "निनेर," चार "फॉवर" है।
पैट्रिक ह्यूजेस

3

आप मैकेनिकल तुर्क का उपयोग कर सकते हैं कि वास्तविक लोगों को सभी 26 ^ 2 अक्षर के जोड़े को कर्ण और दृश्य समानता के लिए दर दें। लाभ यह है कि आप विभिन्न देशी भाषाओं के लिए भी डेटा प्राप्त कर सकते हैं।


1

अंग्रेजी के लिए, साउंडएक्स और मेटाफोन एल्गोरिदम सांकेतिक शब्दों में बदलना करते हैं जो लगता है कि अस्पष्ट हैं। साउंडेक्स शायद बहुत सरल है, लेकिन मेटाफोन में कुछ अच्छे बिंदु शामिल हैं। क्या आप "OU" अनुक्रम चाहते हैं? इसका कई अर्थों में उच्चारण किया जा सकता है, क्योंकि यह वाक्य लोकतंत्र है;)


0

ऊपर जॉन जॉन पेडी का जवाब सबसे सही लगता है। व्यावहारिक उद्देश्यों के लिए, मैं कोशिश कर रहा हूं z-base-32, एक गैर-मानक बेस 32 एनकोडिंग जिसे मन में संचार क्षमता के साथ डिजाइन किया गया है। यह कार्यात्मक दिखता है, हालांकि आदर्श नहीं - उदाहरण के लिए वे स्पष्ट रूप से बोले गए असंतुलन पर ध्यान केंद्रित नहीं करते हैं।

http://philzimmermann.com/docs/human-oriented-base-32-encoding.txt

http://pypi.python.org/pypi/zbase32/

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.