यूटीएफ -8 एक चारसेट नहीं है, सिर्फ यूनिकोड के लिए एन्कोडिंग है। पहले 128 अक्षर ASCII के समान हैं लेकिन उच्च 128 बाइट्स में भिन्न हैं। उच्च बिट सेट (या> = 0x80) के साथ एक बाइट ASCII में एक विस्तारित चरित्र है जबकि UTF-8 में यह एक बहु-बाइट अनुक्रम के प्रारंभ बाइट को इंगित करता है। ऊपर 0x93 या 0x94 का मामला है। हालाँकि, मुझे फ़ाइल में कुछ भी अजीब नहीं दिख रहा है। वे स्मार्ट उद्धरण या उद्धरण और खोलने के लिए अलग-अलग रूपों के साथ उद्धरण हैं, जो आप अक्सर एमएस वर्ड जैसे समृद्ध पाठ संपादक का उपयोग करते समय देखते हैं
संपादित करें
सवाल संपादित किया है। मुझे लगता है कि ऐसा इसलिए है क्योंकि आपने गलत टूल चुना है। encode
मेनू आइटम एन्कोडिंग बदल रहा है, तो आप गलत चरित्र को प्रदर्शित करता है के लिए कर रहे हैं। यह सिर्फ डिस्क से पढ़े गए उसी बाइट अनुक्रम को एक और एन्कोडिंग के रूप में मानता है। चूंकि ASCII और UTF-8 अलग-अलग हैं, इसलिए आपके पास एक अनलॉक्ड UTF-8 बाइट अनुक्रम होगा और ऊपर परिणाम देखें। convert to UTF-8
पूरे इनपुट बाइट्स को बदलने के लिए आपको इसका चयन करने की आवश्यकता है
आपने ANSI और ASCII को भी भ्रमित किया है। ANSI अक्सर Windows-1252 को संदर्भित करता है, जो कि अंग्रेजी विंडोज और कुछ पश्चिमी यूरोप की भाषाओं में इस्तेमाल किया जाने वाला एक कैरेक्टर सेट है। यह ISO 8859-1 का सुपरसेट है, हालाँकि ISO 8859-1 को ANSI भी कहा जा सकता है। ISO 8859-1 भी यूनिकोड का पहला 256 कोडपॉइंट है, इसलिए यह यूनिकोड का सबसेट है, लेकिन यह UTF-8 एन्कोडिंग के अनुकूल नहीं है। ASCII एक 7-बिट वर्ण सेट है और ANSI का सबसेट है जो 8 बिट्स द्वारा एन्कोड किया गया है, लेकिन इसे कभी-कभी ANSI के रूप में भी संदर्भित किया जाता है, हालांकि बहुत सही नहीं है
https://en.wikipedia.org/wiki/ANSI_character_set
सामान्य तौर पर चरित्र सेट के बीच संबंध इस प्रकार है
ASCII < ISO 8859-1 < Windows-1252
^
Unicode