मेरे पास UTF-8 में एक फाइल है जिसमें कई भाषाओं के टेक्स्ट हैं। बहुत सारे लोग लोगों के नाम हैं। मुझे इसे ASCII में बदलने की आवश्यकता है और मुझे यथासंभव अच्छे परिणाम देखने की आवश्यकता है।
एक व्यापक एन्कोडिंग से एक संकीर्ण एक में परिवर्तित करने के लिए कई तरीके हैं। सबसे सरल परिवर्तन कुछ गैर-ASCII वर्णों को कुछ प्लेसहोल्डर के साथ बदलना होगा, जैसे '_'। अगर मुझे पता है कि फ़ाइल जिस भाषा में लिखी गई है, उसमें अतिरिक्त संभावनाएँ हैं, जैसे कि रोमानीकरण।
यूनिक्स पर उपलब्ध यूनिक्स टूल या प्रोग्रामिंग लैंग्वेज लाइब्रेरी मुझे UTF-8 से ASCII में एक सभ्य (सर्वोत्तम-प्रयास) रूपांतरण दे सकती है।
अधिकांश पाठ यूरोपीय, लैटिन प्रकार आधारित भाषाओं में है।
iconvऔर tr, वहाँ Unidecode है । मैं इससे परिचित नहीं हूं, लेकिन यह वही कर सकता है जो आप चाहते हैं, यदि आप पायथन का उपयोग कर सकते हैं।