यूनिकोड में, कुछ चरित्र संयोजनों में एक से अधिक प्रतिनिधित्व होते हैं।
उदाहरण के लिए, चरित्र ä के रूप में प्रतिनिधित्व किया जा सकता है
- "ä", वह कोडपॉइंट U + 00E4 (
c3 a4
UTF-8 एन्कोडिंग में दो बाइट्स ), या के रूप में है - "ä", वह दो कोडपाइंट U + 0061 U + 0308 (
61 cc 88
UTF-8 में तीन बाइट्स ) है।
यूनिकोड मानक के अनुसार, दो अभ्यावेदन समतुल्य हैं लेकिन अलग-अलग "सामान्यीकरण रूपों" में, UAX # 15: यूनिकोड सामान्यीकरण प्रपत्र देखें ।
यूनिक्स टूलबॉक्स पाठ परिवर्तन उपकरण, के सभी प्रकार है sed , टीआर , iconv , पर्ल दिमाग में आते हैं। मैं कमांड-लाइन पर त्वरित और आसान एनएफ रूपांतरण कैसे कर सकता हूं?
perl -MUnicode::Normalization -e 'print NFC(
... एर अब यहाँ क्या आता है ...