प्रतिशत-एनकोड एक स्ट्रिंग


14

परिचय

जैसा कि आप में से कुछ लोग जानते हैं, URL में वास्तव में ऐसे पात्रों की एक सूची होती है जो विशेष चीजें करते हैं। उदाहरण के लिए, /चरित्र यूआरएल के कुछ हिस्सों को अलग करती है, और ?, &और =वर्ण सर्वर से क्वेरी पैरामीटर पारित करने के लिए उपयोग किया जाता है। वास्तव में, विशेष कार्यों के साथ वर्णों का एक समूह है $&+,/:;=?@:। जब आपको विशेष कार्यों के अलावा किसी अन्य कारण से URL में इन वर्णों का उपयोग करने की आवश्यकता होती है, तो आपको प्रतिशत-एन्कोडिंग नामक कुछ करना होगा ।

प्रतिशत एन्कोडिंग तब होती है जब आप किसी वर्ण का षोडश मान लेते हैं और किसी %वर्ण को उसके आरंभ में प्रस्तुत करते हैं। उदाहरण के लिए, चरित्र ?को एन्कोड किया जाएगा %3F, और चरित्र &को एन्कोड किया जाएगा %26। विशेष रूप से URL में, यह आपको इन वर्णों को पार्सिंग समस्याओं के कारण URL के माध्यम से डेटा के रूप में भेजने की अनुमति देता है। आपकी चुनौती एक स्ट्रिंग लेने की होगी, और सभी वर्णों को प्रतिशत-सांकेतिक शब्दों में बदलना होगा, जिन्हें इनकोड करने की आवश्यकता है।

चुनौती

आप एक प्रोग्राम या फ़ंक्शन लिखेंगे जिसमें एक ही स्ट्रिंग में कोडपॉइंट्स 00-FF (ASCII और विस्तारित ASCII वर्ण) के साथ वर्ण होते हैं। फिर आपको यदि आवश्यक हो तो प्रत्येक वर्ण प्रतिशत-एन्कोडेड के साथ एक ही स्ट्रिंग को आउटपुट या वापस करना होगा। बिल्ट-इन जो इस कार्य को पूरा करते हैं, उन्हें अनुमति नहीं है, न ही मानक कमियां हैं। संदर्भ के लिए, यहां प्रत्येक वर्ण की एक सूची दी गई है, जिसे प्रतिशत एनकोडेड करने की आवश्यकता है:

  • नियंत्रण वर्ण (कोडपॉइंट 00-1F और 7F)
  • विस्तारित ASCII वर्ण (कोडपॉइंट 80-FF)
  • आरक्षित वर्ण ( $&+,/:;=?@अर्थात कोडपॉइंट्स 24, 26, 2B, 2C, 2F, 3A, 3B, 3D, 3B, 40)
  • असुरक्षित वर्ण ( " <>#%{}|\^~[]`अर्थात, कोड 20, 22, 3C, 3E, 23, 25, 7B, 7D, 7C, 5C, 5E, 7E, 5B, 5D, 60)

यहां एक ही सूची है, लेकिन दशमलव कोडपॉइंट की सूची के रूप में:

0-31, 32, 34, 35, 36, 37, 38, 43, 44, 47, 58, 59, 60, 62, 61, 63, 64, 91, 92, 93, 94, 96, 123, 124, 125, 126, 127, 128-255

यह कोड गोल्फ है, इसलिए बाइट्स (या स्वीकृत वैकल्पिक स्कोरिंग विधि) में सबसे छोटा कोड जीतता है!

परीक्षण के मामलों

http://codegolf.stackexchange.com/  =>  http%3A%2F%2Fcodegolf.stackexchange.com%2F
[@=>]{#}  =>  %5B%40%3D%3E%5D%7B%23%7D
Test String  =>  Test%20String
ÑÉÐÔ®  =>  %D1%C9%D0%D4%AE
  =>  %0F%16%7F (Control characters 0F, 16, and 7F)
 ¡¢£¤¥¦§¨©ª«¬­®¯°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖרÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõö÷øùúûüýþÿ  =>  %80%81%82%83%84%85%86%87%88%89%8A%8B%8C%8D%8E%8F%90%91%92%93%94%95%96%97%98%99%9A%9B%9C%9D%9E%9F%A0%A1%A2%A3%A4%A5%A6%A7%A8%A9%AA%AB%AC%AD%AE%AF%B0%B1%B2%B3%B4%B5%B6%B7%B8%B9%BA%BB%BC%BD%BE%BF%C0%C1%C2%C3%C4%C5%C6%C7%C8%C9%CA%CB%CC%CD%CE%CF%D0%D1%D2%D3%D4%D5%D6%D7%D8%D9%DA%DB%DC%DD%DE%DF%E0%E1%E2%E3%E4%E5%E6%E7%E8%E9%EA%EB%EC%ED%EE%EF%F0%F1%F2%F3%F4%F5%F6%F7%F8%F9%FA%FB%FC%FD%FE%FF (Extended ASCII characters 80-FF)
 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~  =>  %20!%22%23%24%25%26'()*%2B%2C-.%2F0123456789%3A%3B%3C%3D%3E%3F%40ABCDEFGHIJKLMNOPQRSTUVWXYZ%5B%5C%5D%5E_%60abcdefghijklmnopqrstuvwxyz%7B%7C%7D%7E

क्या आपके पास एक टेस्टकेस होगा जो नियंत्रण वर्ण दिखाता है?
लीक

@LeakyNun ने किया।
GamrCorps

मुझे यकीन है कि कोडपॉइंट EFमें प्रश्न चिह्न नहीं है।
user48538

@ zyabin101 आपको ऐसा कहां मिला? मैं इसे नहीं देख रहा हूँ।
GamrCorps

"उदाहरण के लिए, चरित्र?% EF के रूप में कूटबद्ध किया जाएगा ..."
user48538

जवाबों:


2

पायथ, 30 28 26 बाइट्स

L?hx+G+rG1CGbb+\%.HCbsmydz

इसे ऑनलाइन आज़माएं

व्याख्या

L?hx+G+rG1CGbb+\%.HCbsmydz
L?hx+G+rG1CGbb+\%.HCb       First part, L defines the function y(b)
 ?hx+G+rG1CGbb+\%.HCb       ? is the ternary operator
  hx+G+rG1CGb               This part will be evaluated
  hx                        x will find the first occurence of a
                            character in a list. If it doesn't
                            find one, it will return -1. hx then
                            equals 0 (or false).
    +G+rG1CG                The list of allowed characters, a
                            concetanation (+) of the alphabet (G),
                            uppercase alphabet (rG1) and numbers
                            (CG, see below for details)
            b               The character to find in the list
             b              True branch of the ternary operator,
                            the character is allowed and returned.
              +\%.HCb       False branch, convert to hex and add %
                     smydz  The actual program
                      mydz  Map every character in the input (z)
                            using the function y on every d
                     s      Join the array, and implicit print.

CGहै इस चाल है कि एक बड़ी संख्या है कि सभी संभव अंक हैं उत्पन्न करते हैं। यह सही है, क्योंकि हम डुप्लिकेट के लिए परवाह नहीं करते हैं जब यह जांचता है कि क्या एक स्ट्रिंग दूसरे में है।


यह उत्तर प्रश्न में कल्पना को पूरा नहीं करता है। अधिक स्वीकार्य चरित्र हैं A-Za-z0-9। उदाहरण के लिए, .अनुवाद करने के बजाय संरक्षित किया जाना चाहिए %2E। (cc: @GamrCorps)
DLosc

3

विम, 67 बाइट्स / कीस्ट्रोक्स

:s/\c[^a-z!'()*0-9._-]/\='%'.printf("%02x",char2nr(submatch(0)))/g<cr>

ध्यान दें कि <cr>दर्ज कुंजी का प्रतिनिधित्व करता है, उदाहरण के लिए 0x0Dजो एक एकल बाइट है।

यह एक बहुत ही सीधा उपाय है। स्पष्टीकरण:

:s/                                                                    "Search and replace
   \c                                                                  "Case-insensitive
     [^a-z!'()*0-9._-]/                                                "A negative range. Matches any character not alphabetc, numeric or in "!'()*0-9._-"
                       \=                                              "Evaluate
                         '%'                                           "a percent sign string
                            .                                          "Concatenated with
                             printf("%02x",char2nr(submatch(0)))       "The hex value of the character we just matched
                                                                /g     "Make this apply to ever match
                                                                  <cr> "Actually run the command

वह printf("%02x",char2nr(submatch(0)))कचरा बहुत अस्वाभाविक है


"वह printf("%02x",char2nr(submatch(0)))कचरा बहुत अस्वाभाविक है" और बेहद हैक
लीक

2

पर्ल, 40 बाइट्स

39 बाइट्स कोड + -p

थोड़ा लंगड़ा, लेकिन मुझे लगता है कि यह सबसे छोटा उपाय है ...

s/[^!'()*-.\w]/sprintf'%%%02x',ord$&/ge

प्रयोग

echo -n ' !"#$%&'\''()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqstuvwxyz{|}~' | perl -pe "s/[^'()*-.\w]/sprintf'%%%02x',ord$&/ge"
%20%21%22%23%24%25%26'()*+,-.%2f0123456789%3a%3b%3c%3d%3e%3f%40ABCDEFGHIJKLMNOPQRSTUVWXYZ%5b%5c%5d%5e_%60abcdefghijklmnopqstuvwxyz%7b%7c%7d%7e


1

पायथन 3, 92 बाइट्स

5 बाइट्स ऑरलपी के लिए धन्यवाद।

1 बाइट Sp3000 के लिए धन्यवाद।

import re;lambda s:''.join(re.match("[!'-*.0-9\w-]",c,256)and c or'%%%02X'%ord(c)for c in s)

Ideone यह!


re.match("[!'()*.0-9A-Za-z_-]",c)and c or'%%%02X'%ord(c)
orlp

@ Sp3000 \wमें विस्तारित ASCII
लीक

इसके अलावा, '()*->'-*
Sp3000

मुझे लगता है कि ( ) विकल्प: आइडोन के\w साथ काम करता है । यह निश्चित रूप से ideone पर पायथन 3 में काम करता है, और यह चाहिए के साथ काम अजगर 2 में तार, लेकिन ideone बाद के फंकी काम करने के लिए लगता है (उदाहरण के लिए पर 10 देता है ideone पर लेकिन 5 repl.it और अपने कंप्यूटर, सभी की जा रही 2.7 के बावजूद। 10)256re.ASCIIu"..."print len(u"ÑÉÐÔ®")
Sp3000

1

सी, 83 बाइट्स

f(char*p){for(;*p;++p)printf(isalnum(*p)||strchr("!'()*-._",*p)?"%c":"%%%02X",*p);}

1

पायथन, 86 बाइट्स

lambda s:"".join(["%%%02X"%ord(c),c][c<"{"and c.isalnum()or c in"!'()*-._"]for c in s)

मेरे C उत्तर का पोर्ट।


1

रूबी, 37 + 3 = 40 बाइट्स

-p(3 अतिरिक्त बाइट्स) के साथ चलाएँ , जैसे $ ruby -p percent_encode.rb:

gsub(/[^\w!'()*-.]/){"%%%02X"%$&.ord}

1

जेली , 28 27 बाइट्स

ḟØWḟ©“!'()*-.”Od⁴‘ịØH”%p®,y

यह एक अद्वैत कड़ी है। इसे ऑनलाइन आज़माएं!

यह काम किस प्रकार करता है

ḟØWḟ©“!'()*-.”Od⁴‘ịØH”%p®,y  Monadic link. Argument: s (string)

 ØW                          Yield “0...9A...Z_a...z”.
ḟ                            Remove these characters from s.
     “!'()*-.”               Yield “!'()*-.”.
   ḟ                         Remove these characters from s.
    ©                        Copy the result to the register.
              O              Ordinal; get the code point of each character.
               d⁴            Divmod 16; yield quotient and remainder modulo 16.
                 ’           Decrement the results.
                  ịØH        Index into “0123456789ABCDEF”.
                     ”p%     Perform Cartesian product with ”%, prepending it to
                             each pair of hexadecimal digits.
                        ®,   Yield [t, r], where t is the string in the register
                             and r the result of the Cartesian product.
                          y  Use this pair to perform transliteration on s.

1

हास्केल, 201 179 178 127 119 बाइट्स

import Data.Char;import Numeric;f=(=<<)(\c->if isAlphaNum c&&isAscii c||elem c"-_.~"then[c]else '%':(showHex$ord c)"")

Ungolfed:

import Data.Char
import Numeric

f=(=<<) e
e c = if isAlphaNum c && isAscii c && c `elem` "-_.~" then [c] else '%' : (showHex $ ord c) ""

क्या आप रिक्त स्थान का एक गुच्छा निकाल सकते हैं?
19

आप ढीले कर सकते हैं where, ifगार्ड में बदल सकते हैं , ई को आंशिक बना सकते हैं showHex, इनलाइन p, इनलाइन के अंतिम तर्क को sढीला कर सकते हैं, हस्ताक्षर को ढीला कर सकते हैं , फिर से चालू कर सकते हैं elemऔर यहां तक ​​कि अधिक व्हाट्सएप भी ढीला कर सकते हैं। पहले सन्निकटन के रूप में मैं इस तरह से 118 पर आ गया।
मर्लिन

कोड को ट्रिम करने पर अच्छे सुझावों के एक समूह के लिए @MarLinn धन्यवाद। हालाँकि, मुझे कुछ सुझावों से थोड़ी परेशानी हुई। सबसे पहले, अगर मैं हस्ताक्षर हटाता हूं, तो जीएचसी शिकायत करेगा No instance for (Foldable t0) arising from a use of ‘foldr’। यह कहता है कि फ़ंक्शन का प्रकार अस्पष्ट है, जिसके परिणामस्वरूप अनुमान लगाया जाता है f :: t0 Char -> [Char]। और सबसे दूसरी बात, मैं शोकेस के खाली स्ट्रिंग तर्क को हटा नहीं सका क्योंकि यह एक शो लौटाता है, जो String -> Stringइस प्रकार खाली स्ट्रिंग की जरूरत के लिए एक प्रकार है ।
शाम 1

@ sham1, हाँ, ShowSएक स्ट्रिंग लेता है ... लेकिन आपके पास एक है: एक जिसे आप जोड़ रहे हैं (++)। तो आप एक ही समय में दोनों को ढीला कर सकते हैं। वास्तव में ऐसा क्यों ShowSदिखता है। मुझे टाइप त्रुटि नहीं मिलती है, इसलिए मुझे लगता है कि यह एक संस्करण बात है? अब तक जिन दो अन्य चीजों पर मैंने ध्यान दिया है: otherwiseउन्हें हमेशा के लिए 1<2(एक शॉर्टहैंड True) द्वारा प्रतिस्थापित किया जा सकता है , लेकिन यदि आप ifइसके बजाय वापस आते हैं तो आप eसभी नामों को इनलाइन और ड्रॉप कर सकते हैं । और यहां तक ​​कि एक में गुना मोड़ concatMap, यानी (>>=)। बहुत कुछ नहीं बचाता है, लेकिन कम से कम थोड़ा। टाइप त्रुटि को हल कर सकते हैं, भी।
मैरलिन

0

पायथन 2, 78 बाइट्स

lambda s:"".join(["%%%02x"%ord(c),c][c.isalnum()or c in"!'()*-._"]for c in s)

अधिक अच्छी तरह से स्वरूपित:

lambda s:
    "".join(["%%%02x" % ord(c), c][c.isalnum() or c in"!'()*-._"] for c in s)

0

एसक्यूएफ , 199 176

फंक्शन-ए-ए-फाइल फॉर्मेट का उपयोग करना:

i="";a="0123456789ABCDEF!'()*-.GHIJKLMNOPQRSTUVWXYZ_";{i=i+if((toUpper _x)in a)then{_x}else{x=(toArray[_x])select 0;"%"+(a select floor(x/16))+(a select(x%16))}}forEach _this;i

के रूप में बुलाओ "STRING" call NAME_OF_COMPILED_FUNCTION


0

PowerShell v2 +, 146 बाइट्स

param($n)37,38+0..36+43,44,47+58..64+91,93+96+123..255-ne33|%{$n=$n-replace"[$([char]$_)]",("%{0:x2}"-f$_)};$n-replace'\\','%5c'-replace'\^','%5e'

लंबे समय से क्योंकि मैं एक ही regex स्ट्रिंग को कॉपी-पेस्ट करने के बजाय एक अलग दृष्टिकोण दिखाना चाहता था जिसे हर कोई उपयोग कर रहा है।

यहां के बजाय, हम प्रत्येक कोड बिंदु के माध्यम से लूप करते हैं जो प्रतिशत-एन्कोडेड होना चाहिए, और -replaceइनपुट स्ट्रिंग पर $nप्रत्येक पुनरावृत्ति (फिर से वापस सहेजना $n) पर एक शाब्दिक करना चाहिए । फिर हमें उन दो विशेष पात्रों के लिए खाते की आवश्यकता है जो भागने की जरूरत है, \और ^, इसलिए वे -replaceअंत में अलग-अलग तत्वों में हैं। चूंकि हमने उस अंतिम तार को फिर से नहीं सहेजा है, इसलिए इसे पाइप लाइन पर छोड़ दिया गया है और छपाई निहित है।


0

16/32-बिट x86 असेंबली, 73 बाइट्स

बाइट कोड:

AC 3C 21 72 2A 74 3E 3C 26 76 24 3C 2B 72 36 3C
2C 76 1C 3C 2F 72 2E 74 16 3C 3A 72 28 74 10 3C
5F 74 22 50 0C 60 3C 60 74 02 3C 7B 58 72 16 D4
10 3C 09 1C 69 2F 86 E0 3C 09 1C 69 2F 92 B0 25
AA 92 AA 86 E0 AA E2 B8 C3

disassembly:

l0: lodsb         ;fetch a character
    cmp  al, 21h
    jb   l1       ;encode 0x00-0x20
    je   l2       ;store 0x21
    cmp  al, 26h
    jbe  l1       ;encode 0x22-0x26
    cmp  al, 2bh
    jb   l2       ;store 0x27-0x2A
    cmp  al, 2ch
    jbe  l1       ;encode 0x2B-0x2C
    cmp  al, 2fh
    jb   l2       ;store 0x2D-0x2E
    je   l1       ;encode 0x2F
    cmp  al, 3ah
    jb   l2       ;store 0x30-0x39
    je   l1       ;encode 0x3A
    cmp  al, 5fh
    je   l2       ;store 0x5F
    push eax
    or   al, 60h  ;merge ranges
    cmp  al, 60h
    je   l3       ;encode 0x40, 0x60
    cmp  al, 7bh
l3: pop  eax
    jb   l2       ;store 0x41-0x5A, 0x61-0x7A
                  ;encode 0x3B-0x3F, 0x5B-0x5E, 0x7B-0xFF

l1: aam  10h      ;split byte to nibbles
    cmp  al, 9    ;convert 0x0A-0x0F 
    sbb  al, 69h  ;to
    das           ;0x41-0x46 ('A'-'F')
    xchg ah, al   ;swap nibbles
    cmp  al, 9    ;do
    sbb  al, 69h  ;other
    das           ;half
    xchg edx, eax ;save in edx
    mov  al, '%'
    stosb         ;emit '%'
    xchg edx, eax
    stosb         ;emit high nibble
    xchg ah, al

l2: stosb         ;emit low nibble or original character
    loop l0       ;until end of string
    ret

साथ कॉल करें:
- esi = पॉइंटर को बफर जो कि स्रोत स्ट्रिंग रखता है;
- edi = pointer to बफर जो एन्कोडेड स्ट्रिंग प्राप्त करता है;
- ecx = स्रोत स्ट्रिंग की लंबाई।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.