यह एक-लाइनर समाधान का अनुरोध किया गया है (हाल के गोले के लिए "प्रक्रिया प्रतिस्थापन"):
grep -o "ef be ad de" <(hexdump -v -e '/1 "%02x "' infile.bin) | wc -l
यदि कोई "प्रक्रिया प्रतिस्थापन" <(…)
उपलब्ध नहीं है, तो बस फ़िल्टर के रूप में grep का उपयोग करें:
hexdump -v -e '/1 "%02x "' infile.bin | grep -o "ef be ad de" | wc -l
नीचे समाधान के प्रत्येक भाग का विस्तृत विवरण दिया गया है।
हेक्स संख्या से बाइट मान:
आपकी पहली समस्या को हल करना आसान है:
उन \ Xnn बच अनुक्रम केवल मछली के खोल में काम करते हैं।
ऊपरी X
को निचले हिस्से में बदलें x
और प्रिंटफ़ (अधिकांश गोले के लिए) का उपयोग करें:
$ printf -- '\xef\xbe\xad\xde'
या उपयोग करें:
$ /usr/bin/printf -- '\xef\xbe\xad\xde'
उन गोले के लिए जो '\ x' प्रतिनिधित्व को लागू नहीं करना चुनते हैं।
बेशक, हेक्स को अष्टक में अनुवाद करना किसी भी खोल पर (लगभग) काम करेगा:
$ "$sh" -c 'printf '\''%b'\'' "$(printf '\''\\0%o'\'' $((0xef)) $((0xbe)) $((0xad)) $((0xde)) )"'
जहां "$ श" कोई (उचित) शेल है। लेकिन इसे सही ढंग से उद्धृत किया जाना काफी कठिन है।
बाइनरी फाइलें।
सबसे मजबूत समाधान फ़ाइल और बाइट अनुक्रम (दोनों) को कुछ एन्कोडिंग में बदलना है जिसमें विषम चरित्र मानों (नई लाइन) 0x0A
या (नल बाइट) के साथ कोई समस्या नहीं है 0x00
। दोनों को "टेक्स्ट फ़ाइलों" को संसाधित करने के लिए डिज़ाइन किए गए औज़ारों के साथ सही ढंग से प्रबंधित करना काफी कठिन है।
बेस 64 जैसा एक परिवर्तन एक वैध लग सकता है, लेकिन यह इस मुद्दे को प्रस्तुत करता है कि प्रत्येक इनपुट बाइट में तीन आउटपुट प्रतिनिधित्व तक हो सकते हैं यदि यह मॉड 24 (बिट्स) की स्थिति का पहला, दूसरा या तीसरा बाइट है।
$ echo "abc" | base64
YWJjCg==
$ echo "-abc" | base64
LWFiYwo=
$ echo "--abc" | base64
LS1hYmMK
$ echo "---abc" | base64 # Note that YWJj repeats.
LS0tYWJjCg==
हेक्स परिवर्तन।
यही कारण है कि सबसे मजबूत परिवर्तन एक होना चाहिए जो प्रत्येक बाइट सीमा पर शुरू होता है, जैसे कि साधारण एचईएक्स प्रतिनिधित्व।
हम इस उपकरण में से किसी एक के साथ फ़ाइल के हेक्स प्रतिनिधित्व के साथ एक फ़ाइल प्राप्त कर सकते हैं:
$ od -vAn -tx1 infile.bin | tr -d '\n' > infile.hex
$ hexdump -v -e '/1 "%02x "' infile.bin > infile.hex
$ xxd -c1 -p infile.bin | tr '\n' ' ' > infile.hex
खोज के लिए बाइट अनुक्रम इस मामले में पहले से ही हेक्स में है।
:
$ var="ef be ad de"
लेकिन इसे रूपांतरित भी किया जा सकता था। गोल यात्रा हेक्स-बिन-हेक्स का एक उदाहरण इस प्रकार है:
$ echo "ef be ad de" | xxd -p -r | od -vAn -tx1
ef be ad de
खोज स्ट्रिंग को बाइनरी प्रतिनिधित्व से सेट किया जा सकता है। Od, hexdump, या xxd के ऊपर प्रस्तुत तीन विकल्पों में से कोई भी समकक्ष है। बाइट सीमाओं पर मैच सुनिश्चित करने के लिए रिक्त स्थान शामिल करने के लिए बस सुनिश्चित करें (कोई नीच पारी की अनुमति नहीं है):
$ a="$(printf "\xef\xbe\xad\xde" | hexdump -v -e '/1 "%02x "')"
$ echo "$a"
ef be ad de
यदि बाइनरी फ़ाइल इस तरह दिखती है:
$ cat infile.bin | xxd
00000000: 5468 6973 2069 7320 efbe adde 2061 2074 This is .... a t
00000010: 6573 7420 0aef bead de0a 6f66 2069 6e70 est ......of inp
00000020: 7574 200a dead beef 0a66 726f 6d20 6120 ut ......from a
00000030: 6269 0a6e 6172 7920 6669 6c65 2e0a 3131 bi.nary file..11
00000040: 3232 3131 3232 3131 3232 3131 3232 3131 2211221122112211
00000050: 3232 3131 3232 3131 3232 3131 3232 3131 2211221122112211
00000060: 3232 0a
फिर, एक साधारण grep खोज मिलान किए गए अनुक्रमों की सूची देगी:
$ grep -o "$a" infile.hex | wc -l
2
एक पंक्ति?
यह सब एक पंक्ति में किया जा सकता है:
$ grep -o "ef be ad de" <(xxd -c 1 -p infile.bin | tr '\n' ' ') | wc -l
उदाहरण के लिए, 11221122
एक ही फ़ाइल में खोज करने के लिए इस दो चरणों की आवश्यकता होगी:
$ a="$(printf '11221122' | hexdump -v -e '/1 "%02x "')"
$ grep -o "$a" <(xxd -c1 -p infile.bin | tr '\n' ' ') | wc -l
4
मैच देखने के लिए:
$ grep -o "$a" <(xxd -c1 -p infile.bin | tr '\n' ' ')
3131323231313232
3131323231313232
3131323231313232
3131323231313232
$ grep "$a" <(xxd -c1 -p infile.bin | tr '\n' ' ')
… 0a 3131323231313232313132323131323231313232313132323131323231313232 313132320a
बफरिंग
एक चिंता है कि grep पूरी फ़ाइल को बफ़र कर देगा, और, यदि फ़ाइल बड़ी है, तो कंप्यूटर के लिए एक भारी लोड बनाएं। उसके लिए, हम एक अप्रयुक्त सीड समाधान का उपयोग कर सकते हैं:
a='ef be ad de'
hexdump -v -e '/1 "%02x "' infile.bin |
sed -ue 's/\('"$a"'\)/\n\1\n/g' |
sed -n '/^'"$a"'$/p' |
wc -l
पहली सीड अनबर्डर्ड ( -u
) है और इसका उपयोग प्रति मेल स्ट्रिंग के स्ट्रीम पर दो नईलाइनों को इंजेक्ट करने के लिए किया जाता है। दूसरा sed
केवल छोटी (छोटी) मिलान रेखाएँ मुद्रित करेगा। Wc -l मिलान लाइनों को गिनेगा।
यह केवल कुछ छोटी लाइनों को बफ़र करेगा। दूसरे सेड में मैचिंग स्ट्रिंग (एस)। उपयोग किए गए संसाधनों में यह काफी कम होना चाहिए।
या, समझने के लिए कुछ अधिक जटिल है, लेकिन एक सेड में एक ही विचार:
a='ef be ad de'
hexdump -v -e '/1 "%02x "' infile.bin |
sed -u '/\n/P;//!s/'"$a"'/\n&\n/;D' |
wc -l
grep -o