कई सादे पाठ फाइलें हैं, जिन्हें विभिन्न प्रकार के चार्ट में एन्कोड किया गया था।
मैं उन सभी को UTF-8 में परिवर्तित करना चाहता हूं, लेकिन iconv चलाने से पहले, मुझे इसकी मूल एन्कोडिंग जानने की आवश्यकता है। अधिकांश ब्राउज़रों के पास Auto Detectएनकोडिंग में एक विकल्प है, हालांकि, मैं एक-एक करके उन पाठ फ़ाइलों की जांच नहीं कर सकता क्योंकि बहुत सारे हैं।
केवल मूल एन्कोडिंग ज्ञात होने के बाद, मैं तब ग्रंथों को परिवर्तित कर सकता हूं iconv -f DETECTED_CHARSET -t utf-8।
क्या सादा पाठ फ़ाइलों के एन्कोडिंग का पता लगाने के लिए कोई उपयोगिता है? यह 100% सही होना जरूरी नहीं है, मुझे कोई आपत्ति नहीं है अगर 100 फाइलों को 1,000,000 फाइलों में गलत लिखा जाता है।
python-chardetउबंटू ब्रह्मांड रेपो में पैक है ।