file
आपको "गैर-आईएसओ विस्तारित-एएससीआईआई पाठ" बताता है क्योंकि यह पता लगाता है कि यह है:
- नियंत्रण रेखाओं (बाइट मान 0–31) की कमी के कारण लाइन ब्रेक के अलावा "टेक्स्ट" फ़ाइल की सबसे अधिक संभावना है;
- "विस्तारित- ASCII" क्योंकि ASCII रेंज के बाहर वर्ण हैं (बाइट मान AS128);
- "नॉन-आईएसओ" क्योंकि 128-159 रेंज ( आईएसओ 8859 रिजर्व कंट्रोल कैरेक्टर्स के लिए इस रेंज में) वर्ण हैं।
आपको यह पता लगाना होगा कि यह फाइल किस एन्कोडिंग में लगती है। आप एन्का की स्वचालित पहचान की कोशिश कर सकते हैं । पाठ को किस भाषा में है, यह बताकर आपको इसे सही दिशा में प्रस्तुत करना होगा।
enca x.txt
enca -L polish x.txt
फ़ाइल को परिवर्तित करने के लिए, -x
विकल्प पास करें :enca -L polish x.txt -x utf8 >x.utf8.txt
यदि आप Enca का उपयोग नहीं कर सकते हैं या नहीं करना चाहते हैं, तो आप मैन्युअल रूप से एन्कोडिंग का अनुमान लगा सकते हैं। चारों ओर देखने के एक बिट ने मुझे बताया कि यह पोलिश पाठ है और शब्द ट्रावेल, स्टैले, यूयूवा हैं, इसलिए हम एक अनुवाद की तलाश कर रहे हैं जहां ³
→ ł
और æ
→ ż
। की तरह यह दिखता है लैटिन -2 या लैटिन-10 या अधिक होने की संभावना (दिए गए "गैर आईएसओ" CP1250 जो आप कर रहे हैं को देखने के रूप में latin1 । UTF-8 में फ़ाइल बदलने के लिए, आप उपयोग कर सकते हैं recode या iconv ।
recode CP1250..utf8 <x.txt >x.utf8.txt
iconv -f CP1250 -t UTF-8 <x.txt >x.utf8.txt