रेगेक्स: एक समतावादी श्रृंखला से मेल खाता है


18

परिचय

मुझे यहाँ पर कई रेगेक्स चुनौतियाँ नहीं दिखती हैं, इसलिए मैं इस भ्रामक सरल को प्रस्तुत करना चाहूँगा जिसे कई प्रकार से किया जा सकता है, जिसमें कई प्रकार के रीजेक्स फ्लेवर हैं। मुझे उम्मीद है कि यह थोड़ा मज़ेदार गोल्फिंग समय के साथ रेगेक्स उत्साही प्रदान करता है।

चुनौती

चुनौती यह है कि मैंने एक "समतावादी" श्रृंखला को बहुत शिथिल किया है: विभिन्न पात्रों की समान संख्या की एक श्रृंखला। यह उदाहरणों के साथ सबसे अच्छा वर्णित है।

मिलान करें:

aaabbbccc
xyz 
iillppddff
ggggggoooooollllllffffff
abc
banana

मेल न करें:

aabc
xxxyyzzz
iilllpppddff
ggggggoooooollllllfff
aaaaaabbbccc
aaabbbc
abbaa
aabbbc

सामान्यीकरण करने के लिए, हम फ़ॉर्म के एक विषय ( किसी भी वर्ण की सूची के लिए , जहाँ सभी के लिए) का मिलान करना चाहते हैंc1)n(c2)n(c3)n...(ck)nc1ckci != ci+1i, k > 1, and n > 0.

स्पष्टीकरण:

  • इनपुट खाली नहीं होगा।

  • एक चरित्र बाद में खुद को स्ट्रिंग में दोहरा सकता है (जैसे। "केला")

  • k > 1, इसलिए स्ट्रिंग में हमेशा कम से कम 2 अलग-अलग वर्ण होंगे।

  • आप मान सकते हैं कि केवल ASCII वर्ण इनपुट के रूप में पारित किए जाएंगे और कोई भी वर्ण लाइन टर्मिनेटर नहीं होगा।

नियम

(नियमों के इस उत्कृष्ट रूप से वर्णित ब्लॉक के लिए मार्टिन एंडर को धन्यवाद)

आपके उत्तर में एकल रेगेक्स शामिल होना चाहिए, बिना किसी अतिरिक्त कोड के (सिवाय, वैकल्पिक रूप से, आपके समाधान कार्य करने के लिए आवश्यक रेगेक्स संशोधक की सूची)। आपको अपनी भाषा के regex स्वाद की विशेषताओं का उपयोग नहीं करना चाहिए जो आपको होस्टिंग भाषा (जैसे पर्ल के eसंशोधक) में कोड को लागू करने की अनुमति देता है ।

आप इस चुनौती से पहले मौजूद किसी भी रेगेक्स स्वाद का उपयोग कर सकते हैं, लेकिन कृपया स्वाद निर्दिष्ट करें।

यह मत समझो कि regex को एंकरिंग किया गया है, जैसे कि यदि आप Python का उपयोग कर रहे हैं, तो मान लें कि आपका regex re.search के साथ प्रयोग किया गया है न कि re.match के साथ। आपका रेगेक्स वैध समतावादी तार के लिए पूरे स्ट्रिंग से मेल खाना चाहिए और अमान्य तारों के लिए कोई मिलान नहीं होना चाहिए। आप अपनी इच्छानुसार कई कैप्चरिंग समूहों का उपयोग कर सकते हैं।

आप मान सकते हैं कि इनपुट हमेशा दो या दो से अधिक ASCII वर्णों का एक स्ट्रिंग होगा जिसमें कोई भी लाइन-टर्मिनेटर नहीं होगा।

यह रेगेक्स गोल्फ है, इसलिए बाइट्स में सबसे छोटा रेगेक्स जीतता है। यदि आपकी भाषा को /.../नियमित अभिव्यक्तियों को निरूपित करने के लिए सीमांकक (आमतौर पर ) की आवश्यकता होती है , तो परिसीमनकर्ता स्वयं को न गिनें। यदि आपके समाधान में संशोधक की आवश्यकता है, तो प्रति संशोधक एक बाइट जोड़ें।

मानदंड

यह अच्छा ol 'फ़ैशन वाला गोल्फ है, इसलिए दक्षता को भूल जाओ और अपने रेगेक्स को यथासंभव छोटा करने की कोशिश करो।

कृपया उल्लेख करें कि आपने कौन सा रेगेक्स फ्लेवर इस्तेमाल किया है और यदि संभव हो तो, एक्शन में अपनी अभिव्यक्ति का ऑनलाइन डेमो दिखाने वाला लिंक शामिल करें।


क्या यह विशेष रूप से एक रेगेक्स गोल्फ है? आपको संभवतः इसके लिए नियमों के साथ, यह स्पष्ट करना चाहिए। इस साइट पर अधिकांश चुनौतियां मिश्रित प्रोग्रामिंग भाषाओं के गोल्फ हैं।
LyricLy

@LyricLy सलाह के लिए धन्यवाद! हां, मैं चाहूंगा कि यह शुद्ध रूप से रेगेक्स हो, यानी। प्रस्तुतकर्ता की पसंद के रेगेक्स स्वाद में एक एकल नियमित अभिव्यक्ति। क्या कोई अन्य नियम हैं जिनमें मुझे शामिल होने का ध्यान रखना चाहिए?
ज्येष्ठ

मैं "समतावादी" की आपकी परिभाषा को नहीं समझता, जैसे कि bananaसमतावादी।
msh210

@ msh210 जब मैं श्रृंखला का वर्णन करने के लिए "समतावादी" शब्द के साथ आया, तो मैंने इस बात पर विचार नहीं किया कि मैं पात्रों को बाद में श्रृंखला में दोहराया जाऊंगा (जैसे "केला", या "आबाजबक्का", आदि)। । मुझे इस विचार का प्रतिनिधित्व करने के लिए एक शब्द चाहिए था कि दोहराया वर्णों का हर हिस्सा समान आकार का हो। चूंकि "केला" में कोई दोहराए जाने वाले वर्ण नहीं हैं, यह परिभाषा इसके लिए सही है।
ज्येष्ठ

जवाबों:


11

.NET स्वाद, 48 बाइट्स

^(.)\1*((?<=(\5())*(.))(.)(?<-4>\6)*(?!\4|\6))+$

इसे ऑनलाइन आज़माएं! ( रेटिना का उपयोग करके )

खैर, पता चला है कि तर्क को नकारना सरल नहीं है। मैं इसे एक अलग उत्तर दे रहा हूं, क्योंकि दोनों दृष्टिकोण पूरी तरह से अलग हैं।

व्याख्या

^            # Anchor the match to the beginning of the string.
(.)\1*       # Match the first run of identical characters. In principle, 
             # it's possible that this matches only half, a quarter, an 
             # eighth etc of of the first run, but that won't affect the 
             # result of the match (in other words, if the match fails with 
             # matching this as the entire first run, then backtracking into
             # only matching half of it won't cause the rest of the regex to
             # match either).
(            # Match this part one or more times. Each instance matches one
             # run of identical letters.
  (?<=       #   We start with a lookbehind to record the length
             #   of the preceding run. Remember that the lookbehind
             #   should be read from the bottom up (and so should
             #   my comments).
    (\5())*  #     And then we match all of its adjacent copies, pushing an
             #     empty capture onto stack 4 each time. That means at the
             #     end of the lookbehind, we will have n-1 captures stack 4, 
             #     where n is the length of the preceding run. Due to the 
             #     atomic nature of lookbehinds, we don't have to worry 
             #     about backtracking matching less than n-1 copies here.
    (.)      #     We capture the character that makes up the preceding
             #     run in group 5.
  )
  (.)        #   Capture the character that makes up the next run in group 6.
  (?<-4>\6)* #   Match copies of that character while depleting stack 4.
             #   If the runs are the same length that means we need to be
             #   able to get to the end of the run at the same time we
             #   empty stack 4 completely.
  (?!\4|\6)  #   This lookahead ensures that. If stack 4 is not empty yet,
             #   \4 will match, because the captures are all empty, so the
             #   the backreference can't fail. If the stack is empty though,
             #   then the backreference will always fail. Similarly, if we
             #   are not at the end of the run yet, then \6 will match 
             #   another copy of the run. So we ensure that neither \4 nor
             #   \6 are possible at this position to assert that this run
             #   has the same length das the previous one.
)+
$            # Finally, we make sure that we can cover the entire string
             # by going through runs of identical lengths like this.

मुझे लगता है कि तुम दोनों तरीकों के बीच में प्यार करता हूँ! मैंने यह भी सोचा कि नकारात्मक दृष्टिकोण को तब तक कम होना चाहिए जब तक कि मैं वास्तव में इसका प्रयास नहीं करता और इसे बहुत अधिक अजीब पाया (भले ही ऐसा लगता है कि यह सरल होना चाहिए)। मेरे पास PCRE में 48b, और पर्ल में 49b एक पूरी तरह से अलग विधि के साथ है, और आपके 3rd मेथड में .NET के साथ एक ही आकार में है; मैं कहूंगा कि यह काफी अच्छा
रीगेक्स

@ संजय मुझे वो देखना पसंद करेंगे। यदि कोई एक या एक सप्ताह के लिए कुछ भी नहीं आता है, तो मुझे आशा है कि आप उन्हें खुद पोस्ट करेंगे। :) और हाँ सहमत हुए, यह अच्छा है कि दृष्टिकोण बाइट गिनती में इतने करीब हैं।
मार्टिन एंडर

शायद मैं! इसके अलावा, पर्ल एक को 46b तक नीचे गिराया गया है;)
jaytea

इसलिए मुझे लगा कि आप अब ये देखना चाहते हैं! यहाँ PCRE में 48b: ((^.|\2(?=.*\4\3)|\4(?!\3))(?=\2*+((.)\3?)))+\3$मैं इसे 45b बनाने के \3*स्थान पर प्रयोग कर रहा था, (?!\3)लेकिन "aabbbc" पर यह विफल रहता है :( Perl संस्करण को समझना आसान है, और यह अब 45b तक नीचे है: ^((?=(.)\2*(.))(?=(\2(?4)?\3)(?!\3))\2+)+\3+$- इसका कारण यह है कि मैं Perl को कॉल करता हूँ ऐसा प्रतीत होता है कि PCRE वैध है, ऐसा लगता है कि PCRE सोचता है कि (\2(?4)?\3)अनिश्चित काल के लिए फिर से जाग सकता है, जबकि पर्ल थोड़ा चालाक / क्षमा करने वाला है!
jaytea

@ संजय आह, वे वास्तव में साफ समाधान हैं। आपको वास्तव में उन्हें एक अलग उत्तर में पोस्ट करना चाहिए। :)
मार्टिन एंडर

9

.NET स्वाद, 54 बाइट्स

^(?!.*(?<=(\2)*(.))(?!\2)(?>(.)(?<-1>\3)*)(?(1)|\3)).+

इसे ऑनलाइन आज़माएं! ( रेटिना का उपयोग करके)

मुझे पूरा यकीन है कि यह सब-अफीम है, लेकिन यह सबसे अच्छा है जो मैं अभी समूहों को संतुलित करने के लिए आ रहा हूं। मुझे एक ही बाइट काउंट पर एक विकल्प मिला है, जो ज्यादातर एक ही है:

^(?!.*(?<=(\3())*(.))(?!\3)(?>(.)(?<-2>\4)*)(\2|\4)).+

व्याख्या

मुख्य विचार समस्या को उलटना है, गैर-समतावादी तारों से मेल खाता है और परिणाम को नकारात्मक करने के लिए पूरी चीज़ को नकारात्मक रूप में डाल दिया है। लाभ यह है कि हमें पूरे स्ट्रिंग में n का ट्रैक रखने की आवश्यकता नहीं है (क्योंकि संतुलन समूहों की प्रकृति के कारण, आप आमतौर पर इसे चेक करते समय n का उपभोग करते हैं ), यह जांचने के लिए कि सभी रन समान लंबाई के हैं। इसके बजाय, हम बस आसन्न रन की एक जोड़ी की तलाश करते हैं जिसमें समान लंबाई नहीं है। इस तरह, मुझे केवल n का उपयोग करने की आवश्यकता है एक बार ।

यहाँ रेगेक्स का एक टूटना है।

^(?!.*         # This negative lookahead means that we will match
               # all strings where the pattern inside the lookahead
               # would fail if it were used as a regex on its own.
               # Due to the .* that inner regex can match from any
               # position inside the string. The particular position
               # we're looking for is between two runs (and this
               # will be ensured later).

  (?<=         #   We start with a lookbehind to record the length
               #   of the preceding run. Remember that the lookbehind
               #   should be read from the bottom up (and so should
               #   my comments).
    (\2)*      #     And then we match all of its adjacent copies, capturing
               #     them separately in group 1. That means at the
               #     end of the lookbehind, we will have n-1 captures
               #     on stack 1, where n is the length of the preceding
               #     run. Due to the atomic nature of lookbehinds, we
               #     don't have to worry about backtracking matching
               #     less than n-1 copies here.
    (.)        #     We capture the character that makes up the preceding
               #     run in group 2.
  )
  (?!\2)       #   Make sure the next character isn't the same as the one
               #   we used for the preceding run. This ensures we're at a
               #   boundary between runs.
  (?>          #   Match the next stuff with an atomic group to avoid
               #   backtracking.
    (.)        #     Capture the character that makes up the next run
               #     in group 3.
    (?<-1>\3)* #     Match as many of these characters as possible while
               #     depleting the captures on stack 1.
  )
               #   Due to the atomic group, there are three two possible
               #   situations that cause the previous quantifier to stopp
               #   matching. 
               #   Either the run has ended, or stack 1 has been depleted.
               #   If both of those are true, the runs are the same length,
               #   and we don't actually want a match here. But if the runs
               #   are of different lengths than either the run ended but
               #   the stack isn't empty yet, or the stack was depleted but
               #   the run hasn't ended yet.
  (?(1)|\3)    #   This conditional matches these last two cases. If there's
               #   still a capture on stack 1, we don't match anything,
               #   because we know this run was shorter than the previous
               #   one. But if stack 1, we want to match another copy of 
               #   the character in this run to ensure that this run is 
               #   longer than the previous one.
)
.+             # Finally we just match the entire string to comply with the
               # challenge spec.

मैं इस पर विफल करने की कोशिश की: banana, aba, bbbaaannnaaannnaaa, bbbaaannnaaannnaaaaaa, The Nineteenth Byte, 11, 110, ^(?!.*(?<=(\2)*(.))(?!\2)(?>(.)(?<-1>\3)*)(?(1)|\3)).+, bababa। यह मैं हूँ जो असफल रहा। :( +1
निकोलफर

1
वह क्षण जब आप अपनी व्याख्या समाप्त करते हैं और फिर यह पता लगाते हैं कि आप सटीक विपरीत दृष्टिकोण का उपयोग करके 1 बाइट बचा सकते हैं ... मुझे लगता है कि मैं थोड़ा और जवाब दूंगा ...: |
मार्टिन एंडर

@MartinEnder ... और फिर एहसास होता है कि आप इसे 2 बाइट्स में पा सकते हैं haha: P
Mr. Xcoder

@ Mr.Xcoder को अब 7 बाइट्स करने होंगे, इसलिए मुझे आशा है कि मैं सुरक्षित हूं। ;)
मार्टिन एंडर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.