मेरे पास UTF-8 में एक फाइल है जिसमें कई भाषाओं के टेक्स्ट हैं। बहुत सारे लोग लोगों के नाम हैं। मुझे इसे ASCII में बदलने की आवश्यकता है और मुझे यथासंभव अच्छे परिणाम देखने की आवश्यकता है।
एक व्यापक एन्कोडिंग से एक संकीर्ण एक में परिवर्तित करने के लिए कई तरीके हैं। सबसे सरल परिवर्तन कुछ गैर-ASCII वर्णों को कुछ प्लेसहोल्डर के साथ बदलना होगा, जैसे '_'। अगर मुझे पता है कि फ़ाइल जिस भाषा में लिखी गई है, उसमें अतिरिक्त संभावनाएँ हैं, जैसे कि रोमानीकरण।
यूनिक्स पर उपलब्ध यूनिक्स टूल या प्रोग्रामिंग लैंग्वेज लाइब्रेरी मुझे UTF-8 से ASCII में एक सभ्य (सर्वोत्तम-प्रयास) रूपांतरण दे सकती है।
अधिकांश पाठ यूरोपीय, लैटिन प्रकार आधारित भाषाओं में है।
iconv
और tr
, वहाँ Unidecode है । मैं इससे परिचित नहीं हूं, लेकिन यह वही कर सकता है जो आप चाहते हैं, यदि आप पायथन का उपयोग कर सकते हैं।