180 बाइट्स, मशीन कोड (16-बिट x 86)
मैंने देखा कि अधिकांश उत्तर बिलियन एनकोड / डिकोड (जो मुझे लगता है कि पूरी तरह से ठीक है) का उपयोग करते हैं, लेकिन मुझे लगा कि मैं अपनी 16-बिट खोज जारी रखूंगा ।
पिछले वाले के साथ, यह संकलक के बिना ज्यादातर एचटी हेक्सिडिटर और आईसीवाई के हेक्सप्लेयर का उपयोग करके किया गया था ।
00000000: eb40 ac20 0000 1a20 9201 1e20 2620 2020 .@. ... ... &
00000010: 2120 c602 3020 6001 3920 5201 0000 7d01 ! ..0 `.9 R...}.
00000020: 0000 0000 1820 1920 1c20 1d20 2220 1320 ..... . . . " .
00000030: 1420 dc02 2221 6101 3a20 5301 0000 7e01 . .."!a.: S...~.
00000040: 7801 89f7 4646 89fa 89d9 4143 4bb4 3fcd x...FF....ACK.?.
00000050: 2185 c074 288a 053c 8073 05e8 1700 ebec !..t(..<.s......
00000060: 3ca0 721a d440 0d80 c050 86c4 e806 0058 <.r..@...P.....X
00000070: e802 00eb d7b4 4088 05b3 01cd 21c3 2c80 ......@.....!.,.
00000080: d0e0 89c3 8b00 89cb 85c0 74c0 3dff 0773 ..........t.=..s
00000090: 08c1 c002 c0e8 02eb cd50 c1e8 0c0c e0e8 .........P......
000000a0: d3ff 5825 ff0f c1c0 02c0 e802 0d80 8050 ..X%...........P
000000b0: 86c4 ebb8 ....
विच्छेदन
कार्यान्वयन बहुत सीधा है, हालांकि मैंने बहुत आगे बढ़ने के लिए विचार नहीं किया है, इसलिए वहां कुछ स्पेगेटी है।
मैं ऑर्डर को थोड़ा मिलाऊंगा, इसका पालन करना आसान बनाने के लिए ...
0000 eb40 jmp 0x42
उस तालिका को छोड़ दें जिसमें कोड्स> = 0x80 <0xa0 हैं, जो यूनिकोड कोड को दर्शाता है।
data db ACh,20h, 00h,00h, 1Ah,20h, ...
अमान्य लोगों को 0 के रूप में एन्कोड किया गया है, उन्हें कुछ भी मैप नहीं किया गया है
0075 b440 mov ah, 0x40
0077 8805 mov [di], al
0079 b301 mov bl, 0x1
007b cd21 int 0x21
007d c3 ret
हेल प्रिंट फ़ंक्शन का उपयोग चार प्रिंट करने के लिए al
किया जाता है, कुछ समय के लिए कहा जाएगा।
0042 89f7 mov di, si
0044 46 inc si
0045 46 inc si
0046 89fa mov dx, di
0048 89d9 mov cx, bx
004a 41 inc cx
004b 43 inc bx
रजिस्टर तैयार करें। डेटा 0x100 में पढ़ा जाएगा, si
ऊपर दिए गए अनुवाद तालिका में इंगित करें।
004c 4b dec bx
004d b43f mov ah, 0x3f
004f cd21 int 0x21
0051 85c0 test ax, ax
0053 7428 jz 0x7d
स्टड से चार पढ़ें, 0x7d पर कूदें यदि ईओएफ।
सिडेनोट: यह वास्तव में एक छोटी (लेकिन बहुत अच्छी तरह से ज्ञात) चाल है, 0x7d शामिल है ret
, यह कारण होगा pop sp
, sp
एक सेगमेंट के अंत में प्रारंभ बिंदुओं पर, वहां है 00 00
, और cs:0
डॉस में शामिल है CD 20
, जो आवेदन से बाहर निकलने का कारण बनता है।
0055 8a05 mov al, [di]
0057 3c80 cmp al, 0x80
0059 7305 jnc 0x60
005b e81700 call 0x75
005e ebec jmp 0x4c
यदि चार <0x80 है, तो इसे प्रिंट करें, और लूप की शुरुआत में जाएं (क्योंकि हेल्पर फ़ंक्शन BX को 1 पर सेट कर रहा है - stdout, कूदता है dec bx
)
0060 3ca0 cmp al, 0xa0
0062 721a jc 0x7e
0064 d440 aam 0x40
0066 0d80c0 or ax, c080
0069 50 push ax
006a 86c4 xchg ah, al
006c e80600 call 0x75
006f 58 pop ax
0070 e80200 call 0x75
0073 ebd7 jmp 0x4c
यह भाग वर्णों के साथ व्यवहार करता है> = 0xa0, "उच्च" दो बिट्स और "कम" 6 बिट्स में ascii कोड को विभाजित करता है और दो बाइट्स के लिए utf-8 मास्क c080 लागू करता है, फिर दोनों को प्रिंट करता है
007e 2c80 sub al, 0x80
0080 d0e0 shl al, 0x1
0082 89c3 mov bx, ax
0084 8b00 mov ax, [bx+si]
0086 89cb mov bx, cx
0088 85c0 test ax, ax
008a 74c0 jz 0x4c
008c 3dff07 cmp ax, 07ff
008f 7308 jnc 0x99
0091 c1c002 rol ax, 0x2
0094 c0e802 shr al, 0x2
0097 ebcd jmp 0x66
यह हिस्सा वर्णों के साथ संबंधित है> = 0x80 <0xa0, यह शीर्ष पर तालिका में उचित utf-8 कोड पाता है, यदि कोड 0 के बराबर है, तो बस शुरुआत करने के लिए छोड़ दें, अगर यह 0x7ff (ergo: दो UTF-8 बाइट्स के नीचे आता है) , बस मान समायोजित करें और पिछले कोड को 0x166 पर फिर से उपयोग करें।
0099 50 push ax
009a c1e80c shr ax, 0xc
009d 0ce0 or al, e0
009f e8d3ff call 0x75
00a2 58 pop ax
00a3 25ff0f and ax, 0fff
00a6 c1c002 rol ax, 0x2
00a9 c0e802 shr al, 0x2
00ac 0d8080 or ax, 8080
00af 50 push ax
00b0 86c4 xchg ah, al
00b2 ebb8 jmp 0x6c
अंतिम भाग, उन कोडों से संबंधित है जो 0x7FF से ऊपर हैं, कम 12 बिट्स गिराएं, 0xE0 लागू करें ( संदर्भ के लिए UTF-8 एन्कोडिंग विवरण देखें ) और इसे प्रिंट करें, निचले 12 बिट्स को समायोजित करें और 8080 मास्क को लागू करें और फिर से उस हिस्से का पुनः उपयोग करें जो दो वर्णों को बाहर निकालता है ।