मेरे फाइलसिस्टम (विंडोज 7) पर मेरे पास कुछ टेक्स्ट फाइल्स हैं (ये SQL स्क्रिप्ट फाइल्स हैं, अगर ऐसा है तो)।
जब नोटपैड ++ के साथ खोला जाता है , तो "एन्कोडिंग" मेनू में उनमें से कुछ में "यूसीएस -2 लिटिल एंडियन" और कुछ "यूटीएफ -8 बिना बीओएम" के एन्कोडिंग होने की सूचना है।
यहाँ क्या अंतर है? वे सभी पूरी तरह से मान्य स्क्रिप्ट लगते हैं। मैं यह कैसे बता सकता हूं कि नोटपैड ++ के बिना फाइल में क्या एनकोडिंग है?
enca
और chardet
POSIX सिस्टम के लिए।
iconv
विशेष रूप से इस उद्देश्य के लिए उपयोगी है। अनिवार्य रूप से आप अलग-अलग एन्कोडिंग के माध्यम से भ्रष्ट वर्ण तार / पाठ को पुनरावृत्त करते हैं, यह देखने के लिए कि कौन सा काम करता है। आप तब जीतते हैं, जब पात्र भ्रष्ट नहीं होते हैं। मैं एक प्रोग्रामेटिक उदाहरण के साथ यहां जवाब देना पसंद करूंगा। लेकिन यह दुर्भाग्य से एक संरक्षित सवाल है।
chardet
या chardetect
आपके सिस्टम पर उपलब्ध नहीं है, तो आप अपने पैकेज प्रबंधक के माध्यम से पैकेज स्थापित कर सकते हैं (उदाहरण के लिए apt search chardet
- ubuntu / डेबियन पर पैकेज आमतौर पर कहा जाता है python-chardet
या python3-chardet
) या के माध्यम से पिप के साथ pip install chardet
(या pip install cchardet
के लिए तेजी से ग-अनुकूलित संस्करण)।