लैटिन वर्णमाला के दृश्यमान और श्रव्य रूप से असंदिग्ध उपसमुच्चय?

13

कल्पना कीजिए कि आप उस पर "5SBDO0" कोड के साथ किसी को कार्ड देते हैं।

कुछ फोंट में, अक्षर "S" को संख्या पांच से दृष्टिगत रूप से अलग करना मुश्किल है, (जैसा कि संख्या शून्य और पत्र "O")।

कोड को ज़ोर से पढ़ना, "B" को "D" से अलग करना मुश्किल हो सकता है, "B as boy," "D as dog," या इसके बजाय " ध्वन्यात्मक वर्णमाला " का उपयोग करना आवश्यक है।

अक्षरों और संख्याओं का सबसे बड़ा सबसेट क्या है, जो ज्यादातर मामलों में, जब दोनों पढ़ते हैं तो स्पष्ट रूप से अस्पष्ट और ध्वनिहीन दिखाई देते हैं?

पृष्ठभूमि:

हम एक छोटी स्ट्रिंग उत्पन्न करना चाहते हैं जो संचार के लिए आसान होते हुए भी अधिक से अधिक मानों को एनकोड कर सके।

कल्पना कीजिए कि आपके पास 6-वर्ण का तार है, "123456"। बेस 10 में यह 10 ^ 6 मान को एन्कोड कर सकता है ।

हेक्स "1B23DF" में आप समान वर्णों में 16 ^ 6 मानों को एन्कोड कर सकते हैं , लेकिन जोर से पढ़ने पर यह अस्पष्ट लग सकता है। ("बी" बनाम "डी")

इसी तरह N अक्षर के किसी भी तार के लिए, आपको (वर्णमाला का आकार) ^ N मान मिलता है।

मानव कामकाजी स्मृति क्षमता के भीतर आसानी से फिट होने के कारण, स्ट्रिंग लगभग छह वर्णों की लंबाई तक सीमित है ।

इस प्रकार हम जो मानों की अधिकतम संख्या प्राप्त कर सकते हैं, उन्हें खोजने के लिए हमें अक्षरों / संख्याओं के उस सबसे बड़े स्पष्ट सेट को खोजने की आवश्यकता है। कोई कारण नहीं है कि हम अक्षरों को GZ, और कुछ सामान्य विराम चिह्न पर विचार नहीं कर सकते हैं, लेकिन मैं मैन्युअल रूप से जाना पसंद नहीं करता है "जी की तरह ध्वनि करता है?", "जी की तरह ध्वनि करता है बी?", " जी ध्वनि सी "खुद की तरह। जैसा कि हम जानते हैं कि यह ओ (n ^ 2) भाषाई कार्य करना होगा =) ...

design

— elliot42
स्रोत

6

ध्यान दें कि जो अक्षर समान हैं, वे भाषाओं के बीच बहुत भिन्न हो सकते हैं ...

— माइकल बोर्गवर्ड

इसके अलावा, वास्तव में क्या है लैटिन वर्णमाला?

— MSalters

संबंधित स्टैकऑवरफ्लो प्रश्न में मेरा उत्तर भी देखें ।

— MSalters

दृश्य भेद के लिए, बेस 32 एक मानक एन्कोडिंग है जो प्रतीकों की समानता को सीमित करता है।

— बरजक

@MSalters "लैटिन लिपि" एक भाषाविज्ञान विचार है, हमारे उद्देश्यों के लिए मेरा वास्तव में मतलब है "लैटिन लिपि के सबसेट से जो यूनिकोड में संहिताबद्ध है," जैसे en.wikipedia.org/wiki/ISO/IEC_8859-1

— elliot42

15

आपको दृश्य समानता द्वारा समूहों में अल्फ़ान्यूमेरिक्स के सेट को विभाजित करना चाहिए, और प्रत्येक समूह से "सबसे प्रतिष्ठित" प्रतिनिधि चुनना चाहिए। यह कुछ हद तक व्यक्तिपरक है, हालांकि आप इस पर उपयोगकर्ता परीक्षण चला सकते हैं। आपके द्वारा चुने गए विकल्प इस बात पर भी निर्भर करते हैं कि आंकड़े मुद्रित होंगे या हस्तलिखित। उदाहरण के लिए:

{ O , 0 , Q , D }
{ मैं , एल , 1 }
{ बी , 8 }
{ Z , 2 }
{ एस , ५ }
{ 7 , टी }
{ यू , वी , वाई }

इसी प्रकार, उनके नामों के उच्चारण की ध्वन्यात्मक समानता द्वारा विभाजन वर्ण:

{ A [Aeɪ], 8 [ʔeʔ (] / t)]}
= [ɪeʔ] से शुरू होता है
{ P [pi:], B [bi:], V [vi:], D [di:], T [ti:], E [ʔi:]}
= stop / fricative + [i]
{ G []i:], C [si:], Z [zi:], ३ [:i:]}
= fricative / affricate (क्लस्टर) + [i]
{ M []m], N [[n]}
= [+] + नाक
{ S []s], F [[f], X [}ks]}
= [ɛ] + फ्रिकेटिव / एफ्रीकेट
{ मैं [Iaɪ], Y [wa,], ५ [faʔv], ९ [naʔn]}
= व्यंजन + [aɪ] + (व्यंजन)
{ Q [kj Q :], U [j]:], 2 [t (j)]:]}
= व्यंजन + [(j)]:]

निस्संदेह, केवल संभावित विभाजन नहीं हैं, बस इस समय मन में क्या आता है। भले ही, वे आपको आगे के परीक्षण के लिए शुरू करने के लिए पर्याप्त होना चाहिए। इसके अलावा, ये किसी भी पेशेवर स्रोतों द्वारा समर्थित नहीं हैं - मैं टाइपोग्राफी और ध्वन्यात्मकता में केवल अपनी हॉबीस्ट पृष्ठभूमि का हवाला देता हूं।

— जॉन प्यूरी
स्रोत

3

श्रवण समानता के साथ शुरुआत के लिए, रेडियो संचार जैसे एयर ट्रैफिक कंट्रोल ऑपरेशंस मैनुअल (जहां मौखिक संचार की सही व्याख्या की जानी चाहिए या लोग मर जाते हैं) और हैम रेडियो पर एक नज़र रखना चाहिए। उदाहरण के लिए 5 और 9 को मिलाना आसान है, इसलिए "पाँच" और "नौ-एक" के रूप में बोला जाता है

— मट्टनज़

@mnnz: धन्यवाद, मैं 5 और 9 को भूल गया। ऑडियो क्वालिटी एक बड़ा कारक है: रेडियो, टेलीफोन, स्टूडियो रिकॉर्डिंग, और इन-पर्सन कम्युनिकेशंस सभी अपनी अनूठी समस्याओं का सामना करते हैं।

— जॉन पुरडी

1

तकनीकी रूप से वह "निनेर," चार "फॉवर" है।

— पैट्रिक ह्यूजेस

3

आप मैकेनिकल तुर्क का उपयोग कर सकते हैं कि वास्तविक लोगों को सभी 26 ^ 2 अक्षर के जोड़े को कर्ण और दृश्य समानता के लिए दर दें। लाभ यह है कि आप विभिन्न देशी भाषाओं के लिए भी डेटा प्राप्त कर सकते हैं।

— माइकल बोर्गवर्ड
स्रोत

1

अंग्रेजी के लिए, साउंडएक्स और मेटाफोन एल्गोरिदम सांकेतिक शब्दों में बदलना करते हैं जो लगता है कि अस्पष्ट हैं। साउंडेक्स शायद बहुत सरल है, लेकिन मेटाफोन में कुछ अच्छे बिंदु शामिल हैं। क्या आप "OU" अनुक्रम चाहते हैं? इसका कई अर्थों में उच्चारण किया जा सकता है, क्योंकि यह वाक्य लोकतंत्र है;)

— MSalters
स्रोत

0

ऊपर जॉन जॉन पेडी का जवाब सबसे सही लगता है। व्यावहारिक उद्देश्यों के लिए, मैं कोशिश कर रहा हूं z-base-32, एक गैर-मानक बेस 32 एनकोडिंग जिसे मन में संचार क्षमता के साथ डिजाइन किया गया है। यह कार्यात्मक दिखता है, हालांकि आदर्श नहीं - उदाहरण के लिए वे स्पष्ट रूप से बोले गए असंतुलन पर ध्यान केंद्रित नहीं करते हैं।

http://philzimmermann.com/docs/human-oriented-base-32-encoding.txt

http://pypi.python.org/pypi/zbase32/

— elliot42
स्रोत