मेरे फाइलसिस्टम (विंडोज 7) पर मेरे पास कुछ टेक्स्ट फाइल्स हैं (ये SQL स्क्रिप्ट फाइल्स हैं, अगर ऐसा है तो)।
जब नोटपैड ++ के साथ खोला जाता है , तो "एन्कोडिंग" मेनू में उनमें से कुछ में "यूसीएस -2 लिटिल एंडियन" और कुछ "यूटीएफ -8 बिना बीओएम" के एन्कोडिंग होने की सूचना है।
यहाँ क्या अंतर है? वे सभी पूरी तरह से मान्य स्क्रिप्ट लगते हैं। मैं यह कैसे बता सकता हूं कि नोटपैड ++ के बिना फाइल में क्या एनकोडिंग है?
encaऔर chardetPOSIX सिस्टम के लिए।
iconvविशेष रूप से इस उद्देश्य के लिए उपयोगी है। अनिवार्य रूप से आप अलग-अलग एन्कोडिंग के माध्यम से भ्रष्ट वर्ण तार / पाठ को पुनरावृत्त करते हैं, यह देखने के लिए कि कौन सा काम करता है। आप तब जीतते हैं, जब पात्र भ्रष्ट नहीं होते हैं। मैं एक प्रोग्रामेटिक उदाहरण के साथ यहां जवाब देना पसंद करूंगा। लेकिन यह दुर्भाग्य से एक संरक्षित सवाल है।
chardetया chardetectआपके सिस्टम पर उपलब्ध नहीं है, तो आप अपने पैकेज प्रबंधक के माध्यम से पैकेज स्थापित कर सकते हैं (उदाहरण के लिए apt search chardet- ubuntu / डेबियन पर पैकेज आमतौर पर कहा जाता है python-chardetया python3-chardet) या के माध्यम से पिप के साथ pip install chardet(या pip install cchardetके लिए तेजी से ग-अनुकूलित संस्करण)।