चरित्र सेट के बीच पाठ फ़ाइलों को परिवर्तित करने के लिए सबसे तेज़, सबसे आसान उपकरण या विधि क्या है?
विशेष रूप से, मुझे UTF-8 से ISO-8859-15 में बदलना होगा और इसके विपरीत।
सब कुछ चला जाता है: आपकी पसंदीदा स्क्रिप्टिंग भाषा, ओएस, वेब साइटों, आदि के लिए कमांड-लाइन टूल या अन्य उपयोगिताओं में एक-लाइनर।
अब तक के सर्वश्रेष्ठ समाधान:
लिनक्स / यूनिक्स / ओएस एक्स / साइबर पर:
ट्रून्स अरविन द्वारा सुझाए गए ग्नू आइकनव को एक फिल्टर के रूप में सबसे अच्छा उपयोग किया जाता है । यह सार्वभौमिक रूप से उपलब्ध लगता है। उदाहरण:
$ iconv -f UTF-8 -t ISO-8859-15 in.txt > out.txt
जैसा कि बेन ने कहा है , आइकॉन का उपयोग करने वाला एक ऑनलाइन कनवर्टर है ।
Gnu recode ( मैनुअल ) ने सुझाव दिया Cheekysoft में परिवर्तित कर देंगे यथा-स्थान एक या कई फ़ाइलें । उदाहरण:
$ recode UTF8..ISO-8859-15 in.txt
यह एक छोटे उपनाम का उपयोग करता है:
$ recode utf8..l9 in.txt
Recode उन सतहों का भी समर्थन करता है जिनका उपयोग विभिन्न प्रकार के अंत प्रकारों और एन्कोडिंगों के बीच परिवर्तित करने के लिए किया जा सकता है:
LF (यूनिक्स) से CR-LF (DOS) में नई रूपरेखाएँ बदलें:
$ recode ../CR-LF in.txt
बेस 64 एनकोड फाइल:
$ recode ../Base64 in.txt
आप उन्हें भी जोड़ सकते हैं।
बेस 64 एनकोडेड UTF8 फाइल को यूनिक्स लाइन एंडिंग के साथ बेस 64 में इनकोडेड लैटिन 1 फाइल के साथ डॉस लाइन एंडिंग्स में कनवर्ट करें:
$ recode utf8/Base64..l1/CR-LF/Base64 file.txt
Powershell ( Jay Bazuzi ) के साथ विंडोज पर :
PS C:\> gc -en utf8 in.txt | Out-File -en ascii out.txt
(हालांकि, कोई आईएसओ-8859-15 समर्थन नहीं करता है; यह कहता है कि समर्थित चार्ट्स यूनिकोड, यूटीएफ 7, यूटीएफ 8, यूटीएफ 32, एससीआई, बिगेंडियन्यूनिकोड, डिफॉल्ट और ओईएम हैं।)
संपादित करें
क्या आपका मतलब iso-8859-1 का समर्थन है? "स्ट्रिंग" का उपयोग यह इसके विपरीत के लिए करता है
gc -en string in.txt | Out-File -en utf8 out.txt
नोट: संभावित गणना मूल्य "अज्ञात, स्ट्रिंग, यूनिकोड, बाइट, बिगइंडियन यूनिकोड, यूटीएफ 8, यूटीएफ 7, एससीआई" हैं।
- CsCvt - Kalytta का कैरेक्टर सेट कन्वर्टर विंडोज के लिए एक और बेहतरीन कमांड लाइन आधारित रूपांतरण उपकरण है।
recode
एक फिल्टर के रूप में काम करेगा साथ ही अगर आप इसे किसी भी फाइलनाम से नहीं पास करते हैं, जैसे:recode utf8..l9 < in.txt > out.txt
enca
, तो आपको इनपुट एन्कोडिंग निर्दिष्ट करने की आवश्यकता नहीं है। यह अक्सर भाषा को निर्दिष्ट करने के लिए पर्याप्त है enca -L ru -x utf8 FILE.TXT
:।
iconv -f UTF-32 -t UTF-8 input.csv > output.csv
केवल एक तिहाई, केवल सात सौ हजार लाइनों को बचाने के लिए 2 मिलियन से अधिक लाइनों के साथ एक फ़ाइल परिवर्तित करना । इन-प्लेस संस्करण का उपयोग करके iconv -f UTF-32 -t UTF-8 file.csv
सभी 2 मिलियन से अधिक लाइनों को सफलतापूर्वक परिवर्तित किया गया।
gc -en Ascii readme.html | Out-File -en UTF8 readme.html
लेकिन यह फ़ाइल को utf-8 में कनवर्ट करता है, लेकिन फिर यह खाली है! नोटपैड ++ का कहना है कि फ़ाइल Ansi- प्रारूप है, लेकिन पढ़ने के रूप में मैं समझता हूँ कि यह भी एक वैध charset नहीं है ?? uk.answers.yahoo.com/question/index?qid=20100927014115AAiRExF