यहाँ एक प्रश्न है कि मेरा मानना है कि कुछ डेटा माइनिंग और एक परिष्कृत एल्गोरिदम के साथ हल किया जा सकता है, लेकिन मुझे यह नहीं पता कि कैसे। कोई भी संकेत क्या डेटा स्रोतों का उपयोग करने के लिए और क्या एल्गोरिथ्म लागू करने के लिए स्वागत है।
पृष्ठभूमि: मैं एक रोमानियाई-हंगेरियन हूं, जो पोलिश-यूक्रेनी के साथ एक बच्चे की उम्मीद कर रहा है और अपने दिमाग को उस देश में सेट नहीं किया है, जिस देश में हम बसना चाहते हैं। जैसा कि आप उम्मीद कर सकते हैं, किसी दिए गए नाम को चुनने का अत्यधिक महत्व है और एक गर्म बहस है। अपनी तरफ से, मैं अभी भी उन तमाम परेशानियों से त्रस्त हूँ जो मुझे तब झेलनी पड़ीं जब कोई मेरा नाम याद नहीं करता था क्योंकि मैं एक देश से दूसरे देश चला जाता था। उदाहरण के लिए, यदि आपको "एड्रियन" कहा जाता है, तो आपको रोमानिया में आशीर्वाद दिया जाएगा, केवल यह पता लगाने के लिए कि आपने "एड्री ई एन" कुछ आधिकारिक फ्रांसीसी दस्तावेज़ हैं। इसलिए मेरी आवश्यकता केवल यह है कि कुछ यूरोपीय देशों में बच्चे के नाम को गलत तरीके से रखा जाना संभव नहीं है।
समस्या कथन: देशों के एक सेट को देखते हुए, जैसे, फ्रांस, जर्मनी, स्वीडन, पोलैंड और रोमानिया, दिए गए नामों की सूची प्राप्त करते हैं, जो ठीक से उच्चारण किए जाने पर स्थानीय लोगों द्वारा गलत वर्तनी की संभावना नहीं है।
अधिक औपचारिक रूप से: Let पी (ग, एन) एक समारोह है कि रिटर्न नाम की संभावना हो n देश में गलत वर्तनी की जा रही सी । यह देखते हुए सी कुछ देशों का समूह और p₀ एक संभावना है, लगता है एन दिए गए नाम का एक सेट, जैसे कि
सभी के लिए n ∈ एन और सी ∈ सी , पी (ग, एन) <p₀
प्रारंभिक विचार : मूल समस्या यह है कि पी (सी, एन) को कैसे लागू किया जाए । कोई इसे एक अनुमान के साथ अनुमानित करने की कोशिश कर सकता है। स्पष्ट रूप से एक नाम दो मामलों में गलत होने की संभावना है:
- इसका उपयोग उस देश में बहुत कम किया जाता है।
- यह एक अलग नाम के समान है, इसका उस देश में बहुत कम उपयोग नहीं किया जाता है।
मुझे यकीन नहीं है कि मैं इन दो सवालों के कुशलता से जवाब देने के लिए इंटरनेट, जैसे, विकिपीडिया का उपयोग कैसे कर सकता हूं। किसी देश में केवल एक बार उपयोग किए जाने वाले नामों की सूची कैसे होगी? किसी के समान वर्तनी वाले को कैसे देखेंगे?