कई सादे पाठ फाइलें हैं, जिन्हें विभिन्न प्रकार के चार्ट में एन्कोड किया गया था।
मैं उन सभी को UTF-8 में परिवर्तित करना चाहता हूं, लेकिन iconv चलाने से पहले, मुझे इसकी मूल एन्कोडिंग जानने की आवश्यकता है। अधिकांश ब्राउज़रों के पास Auto Detect
एनकोडिंग में एक विकल्प है, हालांकि, मैं एक-एक करके उन पाठ फ़ाइलों की जांच नहीं कर सकता क्योंकि बहुत सारे हैं।
केवल मूल एन्कोडिंग ज्ञात होने के बाद, मैं तब ग्रंथों को परिवर्तित कर सकता हूं iconv -f DETECTED_CHARSET -t utf-8
।
क्या सादा पाठ फ़ाइलों के एन्कोडिंग का पता लगाने के लिए कोई उपयोगिता है? यह 100% सही होना जरूरी नहीं है, मुझे कोई आपत्ति नहीं है अगर 100 फाइलों को 1,000,000 फाइलों में गलत लिखा जाता है।
python-chardet
उबंटू ब्रह्मांड रेपो में पैक है ।