जापानी (उदाहरण के लिए, एक चीनी या कोरियाई संस्करण) में उपयोग नहीं की जाने वाली हान विचारधारा से जापानी कांजी के अलावा यह बताना असंभव है (एक विशाल तालिका का उपयोग किए बिना)।
यदि आप मूल रेंज (\ u4e00 to \ u9fff) में किसी भी हान विचारधारा का पता लगाना चाहते हैं, तो वे 3 बाइट्स में एन्कोडेड होते हैं, पहला बाइट हमेशा 0xe4 और 0xe9 के बीच, दूसरा और तीसरा बाइट्स 0x80 और 0xbf के बीच होता है।
यहाँ दो कठिनाइयाँ हैं, पहले आपको grep बताना होगा जिसे आप बाइट्स के बाद देखना चाहते हैं और वर्णों को नहीं; फिर आपको उन्हें regexp एक्सप्रेशन में डालने के लिए 0xe4, 0xe9, 0x80 और 0xbf बाइट टाइप करना होगा।
मुझे पता चला -२ स्विच दोनों करता है; और जो लाइन आप चाहते हैं वह है:
grep -P "[\xe4-\xe9][\x80-\xbf][\x80-\xbf]"
और यदि आप काना चाहते हैं:
grep -P "[\xe4-\xe9][\x80-\xbf][\x80-\xbf]|\xe3[\x81-\x83][\x80-\xbf]"