विंडोज ( जीबीके एन्कोडिंग) और लिनक्स ( यूटीएफ -8 एन्कोडिंग) के बीच बहुत सारे फ़ाइल विनिमय कार्यों के कारण , यह आसानी से चरित्र एन्कोडिंग मुद्दों का सामना करेगा, जैसे:
- zip / tar फाइलें जिनके नाम में विंडोज सिस्टम पर चीनी अक्षर हैं, लिनक्स सिस्टम में अनजिप / अनटार करें।
- माइग्रेटेड लीगेसी जावा वेब एप्लिकेशन (विंडोज सिस्टम पर डिज़ाइन किया गया है, जेएसपी में जीबीके एन्कोडिंग का उपयोग करके) जो डिस्क पर जीबीके-एन्कोडिंग-नाम वाली फाइलें लिखता है।
- FTP FTP / Windows- FTP सर्वर और लिनक्स क्लाइंट के बीच GBK- एनकोडिंग नाम की फाइलें डालते हैं।
- लिनक्स में LANG पर्यावरण स्विच करें।
पिछले उल्लेख के आम मुद्दे फ़ाइल का पता लगाने / नामकरण कर रहे हैं। गुग्ल होने के बाद, मुझे लिनक्स में यूनिकोड का उपयोग करके एक लेख मिला है http://www.linux.com/archive/feed/39912 , यह कहा गया है:
ऑपरेटिंग सिस्टम और कई उपयोगिताओं का एहसास नहीं है कि फ़ाइल नामों में बाइट्स किस वर्ण का प्रतिनिधित्व करते हैं।
इसलिए, विभिन्न एन्कोडिंग वाली 2 t .txt फाइलें रखना संभव है:
[root@fedora test]# ls
???? 中文
[root@fedora test]# ls | iconv -f GBK
中文
涓iconv: illegal input sequence at position 7
[root@fedora test]# ls 中文 && ls $'\xd6\xd0\xce\xc4'|iconv -f gbk
中文
中文
प्रशन:
- क्या LANG / LC_ALL वातावरण की परवाह किए बिना फ़ाइल नामों को संग्रहीत करने के लिए लिनक्स फाइल सिस्टम को निश्चित वर्ण एन्कोडिंग (जैसे NTFS उपयोग आंतरिक रूप से उपयोग करना) को कॉन्फ़िगर करना संभव है?
- या, क्या मैं वास्तव में पूछना चाहते हैं: जाने के लिए क्या यह संभव है फ़ाइल नाम中文.txt (
$'\xe4\xb8\xad\xe6\x96\x87.txt'
zh_CN.UTF -8 पर्यावरण और फ़ाइल नाम中文.txt (में)$'\xd6\xd0\xce\xc4.txt'
zh_CN.GBK वातावरण में) एक ही फाइल को देखें ? - यदि यह कॉन्फ़िगर करने योग्य नहीं है, तो क्या फ़ाइल-सिस्टम और वर्तमान वातावरण के बीच वर्ण एन्कोडिंग का अनुवाद करने के लिए कर्नेल को पैच करना संभव है (बस एक प्रश्न, कार्यान्वयन का अनुरोध नहीं)? और कितना संभव हो तो प्रदर्शन पर असर पड़े?