दिए गए नामों को याद करने के लिए कैसे मुश्किल है?

यहाँ एक प्रश्न है कि मेरा मानना है कि कुछ डेटा माइनिंग और एक परिष्कृत एल्गोरिदम के साथ हल किया जा सकता है, लेकिन मुझे यह नहीं पता कि कैसे। कोई भी संकेत क्या डेटा स्रोतों का उपयोग करने के लिए और क्या एल्गोरिथ्म लागू करने के लिए स्वागत है।

पृष्ठभूमि: मैं एक रोमानियाई-हंगेरियन हूं, जो पोलिश-यूक्रेनी के साथ एक बच्चे की उम्मीद कर रहा है और अपने दिमाग को उस देश में सेट नहीं किया है, जिस देश में हम बसना चाहते हैं। जैसा कि आप उम्मीद कर सकते हैं, किसी दिए गए नाम को चुनने का अत्यधिक महत्व है और एक गर्म बहस है। अपनी तरफ से, मैं अभी भी उन तमाम परेशानियों से त्रस्त हूँ जो मुझे तब झेलनी पड़ीं जब कोई मेरा नाम याद नहीं करता था क्योंकि मैं एक देश से दूसरे देश चला जाता था। उदाहरण के लिए, यदि आपको "एड्रियन" कहा जाता है, तो आपको रोमानिया में आशीर्वाद दिया जाएगा, केवल यह पता लगाने के लिए कि आपने "एड्री ई एन" कुछ आधिकारिक फ्रांसीसी दस्तावेज़ हैं। इसलिए मेरी आवश्यकता केवल यह है कि कुछ यूरोपीय देशों में बच्चे के नाम को गलत तरीके से रखा जाना संभव नहीं है।

समस्या कथन: देशों के एक सेट को देखते हुए, जैसे, फ्रांस, जर्मनी, स्वीडन, पोलैंड और रोमानिया, दिए गए नामों की सूची प्राप्त करते हैं, जो ठीक से उच्चारण किए जाने पर स्थानीय लोगों द्वारा गलत वर्तनी की संभावना नहीं है।

अधिक औपचारिक रूप से: Let पी (ग, एन) एक समारोह है कि रिटर्न नाम की संभावना हो n देश में गलत वर्तनी की जा रही सी । यह देखते हुए सी कुछ देशों का समूह और p₀ एक संभावना है, लगता है एन दिए गए नाम का एक सेट, जैसे कि

सभी के लिए n ∈ एन और सी ∈ सी , पी (ग, एन) <p₀

प्रारंभिक विचार : मूल समस्या यह है कि पी (सी, एन) को कैसे लागू किया जाए । कोई इसे एक अनुमान के साथ अनुमानित करने की कोशिश कर सकता है। स्पष्ट रूप से एक नाम दो मामलों में गलत होने की संभावना है:

इसका उपयोग उस देश में बहुत कम किया जाता है।
यह एक अलग नाम के समान है, इसका उस देश में बहुत कम उपयोग नहीं किया जाता है।

मुझे यकीन नहीं है कि मैं इन दो सवालों के कुशलता से जवाब देने के लिए इंटरनेट, जैसे, विकिपीडिया का उपयोग कैसे कर सकता हूं। किसी देश में केवल एक बार उपयोग किए जाने वाले नामों की सूची कैसे होगी? किसी के समान वर्तनी वाले को कैसे देखेंगे?

— user1202136
स्रोत

मुझे यकीन नहीं है कि लोकप्रियता को गलत वर्तनी की संभावना को प्रभावित करेगा, जब अन्य नामों से कम संपादित दूरी के साथ तुलना की जाती है। जैसे हन्ना हन्ना और अन्ना के समान / समान लगती है , और लुकास लुका और लुकास के समान है । एक बार जब आप अपने हाथों को प्रत्येक देश के नामों की सूची में ले सकते हैं, तो आप कम संपादित दूरी के आधार पर शुरू कर सकते हैं।

— आमोन

मुझे लगता है कि इसका लोकप्रियता से भी लेना-देना है। कोई भी अन्ना को रोमानियाई में नहीं सुनाएगा, क्योंकि डबल एन उस भाषा में अजीब है। इसी तरह, एक फ्रांसीसी व्यक्ति संभवतः ईसाई को लिखता है, भले ही आप इसे बिना एच उच्चारण करें । (

— पुं

एक GUID का उपयोग करने के लिए व्यावहारिक दृष्टिकोण होगा।

— toniedzwiedz

महान XKCD संदर्भ। लेकिन लिटिल बॉबी तालिकाओं को मत भूलना ;-) xkcd.com/327

— Mawg का कहना है कि मोनिका

मैं उन भाषाओं में स्वर ध्वनियों की तुलना करने पर विचार करूंगा। मेरी जर्मन धाराप्रवाह है, लेकिन मैं अभी भी

— is

जवाबों:

कुछ दृष्टिकोण हैं जो दूसरों की तुलना में कुछ भाषाओं के लिए बेहतर काम करेंगे। उदाहरण के लिए, साउंडेक्स (और एक और विवरण मुझे पसंद है ) को अंग्रेजी नामों के उच्चारण के लिए डिज़ाइन किया गया था। ध्वनि के साथ, MichaelM240 बन जाता है। इसके कई चरण हैं:

पहला अक्षर अलग-थलग है। ( Mऔर ichael)
सभी स्वर शेष ( Mऔर chl) से हटा दिए जाते हैं
व्यंजन प्रतिस्थापित किए जाते हैं
- c -> २
- l -> ४
बायाँ पैड ज़ीरो।

- व्यंजन रूपांतरण का समूह उनके ध्वन्यात्मक समानता पर आधारित होते हैं B, F, Pऔर Vसभी के लिए नक्शे 1।

और समय के साथ इस पर विविधताएं हैं । यह वंशावली में विशेष रूप से उपयोगी है जहां एक नाम की वर्तनी समय के साथ बदल सकती है, लेकिन उच्चारण समान रहता है।

मैच रेटिंग जैसे दृष्टिकोण भी हैं जो एयरलाइंस द्वारा नामों के बजाय (अमेरिकी वंशावली के बजाय) विकसित किए गए थे।

मैच रेटिंग दृष्टिकोण (MRA) की एन्कोडिंग है:

सभी गैर-प्रमुख स्वरों को हटाएं ( Michaelबन जाता है Mchlऔर Anthonyबन जाता है Anthny)
किसी भी डबल्स के दूसरे स्थिरांक को हटा दें
यदि स्ट्रिंग 6 वर्णों से अधिक लंबी है, तो पहले तीन और अंतिम तीनों को लेते हुए शेष स्ट्रिंग को 6 वर्णों तक कम करें।

इसके लिए पूरा विनिर्देश आर्काइव.ऑर्ग पर पाया जा सकता है - ध्यान दें कि यह "छोटा नहीं है" (मुद्रित रूप 214 पृष्ठ है)।

तुलना कब तक पाठ है के आधार पर एक मिलान सीमा है।

कर रहे हैं अन्य ध्वन्यात्मक एल्गोरिदम भी ।

इसलिए, मैं आपको जो करने के लिए प्रोत्साहित करूंगा, वह है या तो साउंडटेक्स ले लो, मैच रेटिंग दृष्टिकोण के अनुसार ले लो, या रोमानियाई व्यंजन और पोलिश व्यंजन के आधार पर साउंडेक्स को संशोधित करें ।

याद रखें कि soundex साथ, व्यंजन रहे हैं वर्गीकृत किया (में पॉलिश, m, n, ɲसब नाक व्यंजन समूह-बद्ध हो रहे हैं, और आप की संभावना समूह, ओष्ठ दंत चिकित्सा, और वायुकोशीय प्लोसिव्स होगा - वे मौन है या एक साथ आवाज उठाई - प्रदान की, मुझे नहीं पता पोलिश पता है तो पता नहीं अगर मैं सिर्फ बातें कह रहा हूँ जो वहाँ सच नहीं हैं)।

फिर बस डेटाबेस में दो अलग-अलग साउंडटेक्स सिस्टम के सभी नामों को कवर करें और पता करें कि अलग-अलग भाषाओं में टकरावों के सबसे कम सेट कौन से नाम हैं। यह आपको अलग नाम देता है। तो Smithयह नहीं दिखा Smyth।

यह, हालांकि, केवल "नाम अन्य नामों के साथ टकराने और मिशर्ड होने की संभावना को हल करता है।" यह "सही ढंग से सुना गया नाम, गलत तरीके से लिखा गया" के दूसरे तरीके को संबोधित नहीं करता है और इसके लिए, किसी को अपना ध्यान सामान्य नामों पर केंद्रित करना चाहिए।

उदाहरण के लिए, Michael1950 की शुरुआत से 1970 के अंत तक अमेरिका में एक बहुत ही सामान्य नाम था। यह वास्तव में लोकप्रिय था । हालांकि, किसी कारण के लिए, यह नाम Micheal1950 के दशक में लोकप्रिय था (अपने चरम पर 83 वें सबसे आम नाम तक)। और मुझे यकीन है कि Michealलगातार नाम रखने वाले लोगों को उनका नाम गलत मिला।

इस प्रकार, आपको उन नामों पर ध्यान केंद्रित करना चाहिए जहां एक नाम है जो किसी दिए गए उच्चारण के लिए नाम की लोकप्रियता पर हावी है। साल से नाम के लिए एक और डेटा उपभोक्ता पर एक नज़र में, आप देख सकते हैं कि नाम जाम के साथ शुरुआत ... एक लड़के के लिए एक मेस हैं के साथ Jamaal, Jamal, Jamarऔर अन्य। संयोग से, इन नामों के लिए थोड़ा अलग soundexes है अमेरिकी ( J540, J540और J560- lऔर rभले ही वे बारीकी से स्वर में संबंधित हैं अलग-अलग समूहों में हैं)। हालाँकि, जापान से किसी के लिए, ध्वन्यात्मक क्षेत्र में केवल एक ही ध्वनि है जहाँ lऔरrअमेरिकी अंग्रेजी में उच्चारण किया जाता है। यह साउंडेक्स का उपयोग करने वाले प्रमुख व्यंजन के साथ एक चुनौती भी पैदा कर सकता है, जिसके बारे में पता होना चाहिए (मैंने एक बार एक जापानी महिला के साथ काम किया था, जो लिसा के बजाय अपने जापानी नाम के रोमनकरण के रूप में खुद को रीसा ('आर' के साथ) कहती है।

आप ध्यान देंगे कि मेरे उदाहरण संयुक्त राज्य अमेरिका के लिए हैं। वह डेटा आसानी से सुलभ है। जाहिरा तौर पर पोलैंड और हंगेरियन के लिए कुछ चीजें हैं , और हंगेरियन नाम समानता पर केवल संकेत हैं ... मुझे संदेह है कि अंग्रेजी के अलावा किसी अन्य भाषा में खोज वहां सहायक हो सकती है।

तो, एक नाम के लिए साउंडटेक्स, कुछ टकरावों को देखते हुए और वास्तविक वर्तनी टकरावों के सेट में है। अधिमानतः, यह एक सामान्य नाम है। उस आयु सूची को देखते हुए, जाने की Krisztiánसंभावना Zoltánकम हो जाएगी, जबकि (# २०११ में हंगरी में २२ सबसे आम बच्चे का नाम!)। उस ने कहा, तुम गलत नहीं हो सकते Michael।

बहुत बढ़िया जवाब! मैं इसे लागू करने की कोशिश करूंगा और एक बार जब मैं करूंगा तो मैं कोड साझा करूंगा और आपका जवाब स्वीकार करूंगा।

— user1202136

इस विचार को लागू करने का प्रयास। काफी नहीं "उपयोगकर्ता परीक्षण" गुजर रहा है। :) github.com/cristiklein/idemscriptent-given-names

— user1202136

बहुत बढ़िया जवाब माइकल! @ user1202136 स्क्रिप्ट पर शानदार काम! मुझे परिणाम देखने में दिलचस्पी है :)

— क्रिस साइरफाइस

@ क्रिसहाइरफाइस: जबकि माइकल का जवाब बस भयानक है, मैंने पाया कि यह उन नामों का उत्पादन नहीं करता है जो "उपयोगकर्ता परीक्षण" पास करेंगे। मैं एक बहुत सरल एल्गोरिथ्म के लिए गया था, जो शीर्ष 100 नाम सूचियों में पहचान किए गए नामों को खोजने की कोशिश करता है। कृपया यहां परिणाम देखें: github.com/cristiklein/idemscriptent-given-names

— user1202136

आप शायद डबल मेटाफोन फोनेटिक एल्गोरिथ्म में देखना चाहते हैं, जिसे विभिन्न भाषाओं में शब्दों के उच्चारण को संभालने के लिए डिज़ाइन किया गया है। मेटाफोन 3 भी है, लेकिन इसका इस्तेमाल करने के लिए पैसे खर्च करने पड़ते हैं।

— जॉन स्मिथ
स्रोत