मुझे एक ऐसी फ़ाइल से निपटना है जिसमें बहुत सारे अदृश्य नियंत्रण वर्ण हैं, जैसे "दाएं से बाएं" या "शून्य चौड़ाई गैर-योजक", सामान्य स्थान की तुलना में अलग-अलग स्थान और इसी तरह, और मुझे इससे निपटने में परेशानी होती है।
अब, मैं किसी भी तरह से दिए गए फ़ाइल में सभी पत्रों को देखना चाहता हूं, पत्र द्वारा पत्र (मैं "बाएं से दाएं" कहना चाहूंगा, लेकिन मैं दुर्भाग्य से दाएं-बाएं भाषा से निपट रहा हूं) , यूनिकोड कोडपॉइंट्स के रूप में, केवल उपयोग करके बुनियादी बैश उपकरण (जैसे vi
, less
, cat
...)। क्या यह किसी तरह संभव है?
मुझे पता है कि मैं फ़ाइल को हेक्साडेसिमल में प्रदर्शित कर सकता हूं hexdump
, लेकिन मुझे कोडपॉइंट को फिर से लिखना होगा। मैं वास्तव में वास्तविक यूनिकोड कोडपॉइंट्स देखना चाहता हूं, इसलिए मैं उन्हें गूगल कर सकता हूं और पता लगा सकता हूं कि क्या हो रहा है।
संपादित करें: मैं यह जोड़ूंगा कि मैं इसे अलग-अलग एन्कोडिंग में ट्रांसकोड नहीं करना चाहता हूं (क्योंकि यही मैं ऑनलाइन पता लगा रहा हूं)। मेरे पास UTF8 में फाइल है और यह ठीक है। मैं सिर्फ सभी अक्षरों का सटीक कोडपॉइंट जानना चाहता हूं।