file आपको "गैर-आईएसओ विस्तारित-एएससीआईआई पाठ" बताता है क्योंकि यह पता लगाता है कि यह है:
- नियंत्रण रेखाओं (बाइट मान 0–31) की कमी के कारण लाइन ब्रेक के अलावा "टेक्स्ट" फ़ाइल की सबसे अधिक संभावना है;
- "विस्तारित- ASCII" क्योंकि ASCII रेंज के बाहर वर्ण हैं (बाइट मान AS128);
- "नॉन-आईएसओ" क्योंकि 128-159 रेंज ( आईएसओ 8859 रिजर्व कंट्रोल कैरेक्टर्स के लिए इस रेंज में) वर्ण हैं।
आपको यह पता लगाना होगा कि यह फाइल किस एन्कोडिंग में लगती है। आप एन्का की स्वचालित पहचान की कोशिश कर सकते हैं । पाठ को किस भाषा में है, यह बताकर आपको इसे सही दिशा में प्रस्तुत करना होगा।
enca x.txt
enca -L polish x.txt
फ़ाइल को परिवर्तित करने के लिए, -xविकल्प पास करें :enca -L polish x.txt -x utf8 >x.utf8.txt
यदि आप Enca का उपयोग नहीं कर सकते हैं या नहीं करना चाहते हैं, तो आप मैन्युअल रूप से एन्कोडिंग का अनुमान लगा सकते हैं। चारों ओर देखने के एक बिट ने मुझे बताया कि यह पोलिश पाठ है और शब्द ट्रावेल, स्टैले, यूयूवा हैं, इसलिए हम एक अनुवाद की तलाश कर रहे हैं जहां ³→ łऔर æ→ ż। की तरह यह दिखता है लैटिन -2 या लैटिन-10 या अधिक होने की संभावना (दिए गए "गैर आईएसओ" CP1250 जो आप कर रहे हैं को देखने के रूप में latin1 । UTF-8 में फ़ाइल बदलने के लिए, आप उपयोग कर सकते हैं recode या iconv ।
recode CP1250..utf8 <x.txt >x.utf8.txt
iconv -f CP1250 -t UTF-8 <x.txt >x.utf8.txt