पायथन 3 में लाखों रेगेक्स प्रतिस्थापन को गति दें


127

मैं पायथन 3.5.2 का उपयोग कर रहा हूं

मेरी दो सूचियाँ हैं

  • लगभग 750,000 "वाक्यों" की एक सूची (लंबे तार)
  • लगभग 20,000 "शब्दों" की एक सूची जिसे मैं अपने 750,000 वाक्यों से हटाना चाहूंगा

इसलिए, मुझे sentences५०,००० वाक्यों के माध्यम से लूप करना है और लगभग २०,००० प्रतिस्थापन करने हैं, लेकिन केवल तभी जब मेरे शब्द वास्तव में "शब्द" हैं और वर्णों के एक बड़े स्ट्रिंग का हिस्सा नहीं हैं।

मैं द्वारा यह कर रहा हूं पूर्व संकलन मेरे शब्दों को इतना है कि वे से घिरे रहे हैं \bmetacharacter

compiled_words = [re.compile(r'\b' + word + r'\b') for word in my20000words]

फिर मैं अपने "वाक्यों" के माध्यम से लूप करता हूं

import re

for sentence in sentences:
  for word in compiled_words:
    sentence = re.sub(word, "", sentence)
  # put sentence into a growing list

यह नेस्टेड लूप प्रति सेकंड लगभग 50 वाक्यों को प्रोसेस कर रहा है , जो अच्छा है, लेकिन मेरे सभी वाक्यों को प्रोसेस करने में अभी भी कई घंटे लगते हैं।

  • क्या str.replaceविधि का उपयोग करने का एक तरीका है (जो मेरा मानना ​​है कि तेज है), लेकिन फिर भी यह आवश्यक है कि प्रतिस्थापन केवल शब्द सीमाओं पर हो ?

  • वैकल्पिक रूप से, क्या re.subविधि को गति देने का एक तरीका है? re.subयदि मेरे शब्द की लंबाई> मेरे वाक्य की लंबाई से अधिक है, तो मैंने पहले ही स्किप करके गति में सुधार कर दिया है , लेकिन यह ज़्यादा सुधार नहीं है।

किसी भी सुझाव के लिए आपका धन्यवाद।


1
यहां पहले उत्तर में कुछ अच्छे नमूना कोड हैं: stackoverflow.com/questions/2846653/… बस अपने वाक्य सरणी को सीपीयू कोर की संख्या से विभाजित करें जो आपने तब कई थ्रेड चलाए हैं
मोहम्मद अली

4
आप एक गैर-रेगेक्स कार्यान्वयन की भी कोशिश कर सकते हैं - अपने इनपुट शब्द को शब्द से बदल दें और हर सेट के साथ मिलान करें। यह सिंगल पास है और हैश लुकिंग बहुत जल्दी हैं।
pvg

2
संयोगवश ये वाक्य कितने लंबे हैं? 750k लाइनें एक डेटासेट की तरह नहीं लगती हैं, जिसे प्रोसेस करने में घंटों लगने चाहिए।
pvg

2
@ मोहम्मदअली: सीपीयू-बाउंड काम के लिए उस उदाहरण से परेशान न हों। पायथन में एक बड़ा ताला है जिसे बायटेकोड (ग्लोबल इंटरप्रेटर लॉक) को निष्पादित करते समय लगता है, इसलिए आप सीपीयू के काम के लिए थ्रेड्स से लाभ नहीं उठा सकते हैं। आपको multiprocessing(यानी कई पायथन प्रक्रियाओं) का उपयोग करने की आवश्यकता होगी ।
केविन

1
ऐसा करने के लिए आपको एक औद्योगिक शक्ति उपकरण की आवश्यकता होती है। स्ट्रिंग्स की सूची के टर्नरी ट्री से एक रेगेक्स ट्राइ उत्पन्न होता है। इस प्रकार के मिलान करने के लिए सबसे तेज़ विधि बनाने में विफलता के 5 से अधिक चरण कभी नहीं हैं। उदाहरण: 175,000 शब्द शब्दकोश या अपने पर प्रतिबंध लगा दिया सूची के लिए इसी तरह सिर्फ 20,000 एस शब्द
x15

जवाबों:


123

एक चीज जो आप आजमा सकते हैं, वह है एक एकल पैटर्न को संकलित करना "\b(word1|word2|word3)\b"

क्योंकि reवास्तविक मिलान करने के लिए सी कोड पर निर्भर करता है, बचत नाटकीय हो सकती है।

जैसा कि @pvg ने टिप्पणियों में बताया है, यह सिंगल पास मिलान से भी लाभान्वित होता है।

यदि आपके शब्द रेगेक्स नहीं हैं, तो एरिक का उत्तर तेज है।


4
यह सिर्फ C इम्प्लान्ट नहीं है (जो एक बड़ा अंतर है) लेकिन आप सिंगल पास से भी मेल खा रहे हैं। इस सवाल के वेरिएंट बहुत बार आते हैं, यह थोड़ा अजीब है (या शायद वहाँ है, कहीं छिपा है?) इस सुंदर समझदार विचार के साथ इसके लिए एक विहित एसओ उत्तर।
pvg

40
@ आपके सुझाव ने 4 घंटे की नौकरी को 4 मिनट की नौकरी में बदल दिया! मैं सभी 20,000+ रेगेक्स को एक एकल विशाल रेक्सक्स में शामिल करने में सक्षम था और मेरे लैपटॉप ने आंख नहीं खोली। एक बार फिर धन्यवाद।
पद्दानीस

2
@Bakuriu: s/They actually use/They actually could in theory sometimes use/। क्या आपके पास यह मानने का कोई कारण है कि पायथन का कार्यान्वयन यहां एक लूप के अलावा कुछ भी कर रहा है?
user541686

2
@ बकुरीउ: मैं वास्तव में यह जानना चाहूंगा कि क्या ऐसा है, लेकिन मुझे नहीं लगता कि रेगेक्स समाधान में रैखिक समय लगता है। अगर यह यूनियन से बाहर ट्राय नहीं करता है, तो मैं यह नहीं देखता कि यह कैसे हो सकता है।
एरिक डुमिनील

2
@ बकुरीउ: यह एक कारण नहीं है। मैं पूछ रहा था कि क्या आपके पास विश्वास करने का एक कारण है कि कार्यान्वयन वास्तव में उस तरह से व्यवहार करता है, न कि आपके पास यह विश्वास करने का एक कारण है कि क्या वह उस तरह से व्यवहार कर सकता है । व्यक्तिगत रूप से मुझे अभी तक एक ही मुख्यधारा की प्रोग्रामिंग भाषा के रेगेक्स कार्यान्वयन के बारे में पता चला है जो रैखिक समय में उसी तरह से काम करता है जिस तरह से आप शास्त्रीय रेगेक्स की उम्मीद करेंगे, इसलिए यदि आप जानते हैं कि पायथन ऐसा करता है, तो आपको कुछ सबूत दिखाने चाहिए।
user541686

123

TLDR

यदि आप सबसे तेज़ समाधान चाहते हैं, तो इस विधि का उपयोग करें (सेट लुकअप के साथ)। ओपी के समान एक डेटासेट के लिए, यह स्वीकृत उत्तर की तुलना में लगभग 2000 गुना तेज है।

यदि आप लुकअप के लिए एक रेगेक्स का उपयोग करने पर जोर देते हैं, तो इस ट्राई-आधारित संस्करण का उपयोग करें , जो अभी भी एक रेक्सक्स यूनियन की तुलना में 1000 गुना तेज है।

सिद्धांत

यदि आपके वाक्य विनम्र तार नहीं हैं, तो संभवतः 50 से अधिक प्रति सेकंड की प्रक्रिया करना संभव है।

यदि आप सभी प्रतिबंधित शब्दों को एक सेट में सहेजते हैं, तो यह जांचना बहुत तेज़ होगा कि क्या कोई अन्य शब्द उस सेट में शामिल है।

एक फ़ंक्शन में तर्क पैक करें, इस फ़ंक्शन को तर्क के रूप में दें re.subऔर आपका काम हो गया!

कोड

import re
with open('/usr/share/dict/american-english') as wordbook:
    banned_words = set(word.strip().lower() for word in wordbook)


def delete_banned_words(matchobj):
    word = matchobj.group(0)
    if word.lower() in banned_words:
        return ""
    else:
        return word

sentences = ["I'm eric. Welcome here!", "Another boring sentence.",
             "GiraffeElephantBoat", "sfgsdg sdwerha aswertwe"] * 250000

word_pattern = re.compile('\w+')

for sentence in sentences:
    sentence = word_pattern.sub(delete_banned_words, sentence)

परिवर्तित वाक्य हैं:

' .  !
  .
GiraffeElephantBoat
sfgsdg sdwerha aswertwe

ध्यान दें कि:

  • खोज केस-असंवेदनशील है (धन्यवाद lower())
  • एक शब्द के साथ ""दो स्थान छोड़ने पर (आपके कोड में)
  • Python3 के साथ, \w+उच्चारण पात्रों (जैसे "ångström") से भी मेल खाता है ।
  • कोई भी गैर-शब्द वर्ण (टैब, स्पेस, न्यूलाइन, चिह्न, ...) अछूता रहेगा।

प्रदर्शन

एक लाख वाक्य हैं, banned_wordsलगभग 100000 शब्द हैं और स्क्रिप्ट 7 से कम समय में चलती है।

इसकी तुलना में, लाइटे के जवाब में 10 हजार वाक्यों के लिए 160 की जरूरत थी।

nशब्दों की कुल mसंख्या और प्रतिबंधित शब्दों की मात्रा होने के साथ , ओपी और लाइटे के कोड हैं O(n*m)

इसकी तुलना में, मेरे कोड में चलना चाहिए O(n+m)। यह देखते हुए कि प्रतिबंधित शब्दों की तुलना में कई अधिक वाक्य हैं, एल्गोरिदम बन जाता है O(n)

रेगेक्स यूनियन टेस्ट

एक '\b(word1|word2|...|wordN)\b'पैटर्न के साथ रेगेक्स खोज की जटिलता क्या है ? यह है O(N)या O(1)?

रीजेक्स इंजन के काम करने के तरीके को समझना बहुत कठिन है, तो चलिए एक सरल परीक्षा लिखते हैं।

यह कोड 10**iयादृच्छिक अंग्रेजी शब्दों को एक सूची में निकालता है । यह संबंधित रेगेक्स यूनियन बनाता है, और विभिन्न शब्दों के साथ इसका परीक्षण करता है:

  • एक स्पष्ट रूप से एक शब्द नहीं है (इसके साथ शुरू होता है #)
  • एक सूची में पहला शब्द है
  • एक सूची में अंतिम शब्द है
  • एक शब्द जैसा दिखता है, लेकिन ऐसा नहीं है


import re
import timeit
import random

with open('/usr/share/dict/american-english') as wordbook:
    english_words = [word.strip().lower() for word in wordbook]
    random.shuffle(english_words)

print("First 10 words :")
print(english_words[:10])

test_words = [
    ("Surely not a word", "#surely_NöTäWORD_so_regex_engine_can_return_fast"),
    ("First word", english_words[0]),
    ("Last word", english_words[-1]),
    ("Almost a word", "couldbeaword")
]


def find(word):
    def fun():
        return union.match(word)
    return fun

for exp in range(1, 6):
    print("\nUnion of %d words" % 10**exp)
    union = re.compile(r"\b(%s)\b" % '|'.join(english_words[:10**exp]))
    for description, test_word in test_words:
        time = timeit.timeit(find(test_word), number=1000) * 1000
        print("  %-17s : %.1fms" % (description, time))

यह आउटपुट:

First 10 words :
["geritol's", "sunstroke's", 'fib', 'fergus', 'charms', 'canning', 'supervisor', 'fallaciously', "heritage's", 'pastime']

Union of 10 words
  Surely not a word : 0.7ms
  First word        : 0.8ms
  Last word         : 0.7ms
  Almost a word     : 0.7ms

Union of 100 words
  Surely not a word : 0.7ms
  First word        : 1.1ms
  Last word         : 1.2ms
  Almost a word     : 1.2ms

Union of 1000 words
  Surely not a word : 0.7ms
  First word        : 0.8ms
  Last word         : 9.6ms
  Almost a word     : 10.1ms

Union of 10000 words
  Surely not a word : 1.4ms
  First word        : 1.8ms
  Last word         : 96.3ms
  Almost a word     : 116.6ms

Union of 100000 words
  Surely not a word : 0.7ms
  First word        : 0.8ms
  Last word         : 1227.1ms
  Almost a word     : 1404.1ms

तो ऐसा लगता है कि '\b(word1|word2|...|wordN)\b'पैटर्न वाले एकल शब्द की खोज है:

  • O(1) सबसे अच्छा मामला
  • O(n/2) औसत मामला, जो अभी भी है O(n)
  • O(n) सबसे खराब मामला

ये परिणाम एक साधारण लूप खोज के अनुरूप हैं।

रेगेक्स यूनियन का एक अधिक तेज़ विकल्प एक ट्राइ से रेगेक्स पैटर्न बनाना है ।


1
आप सही थे। मेरा इंडेंटेशन गलत था। मैंने इसे मूल प्रश्न में तय किया। इस टिप्पणी के लिए कि 50 वाक्य / सेकंड धीमा है, मैं बस इतना कह सकता हूं कि मैं एक सरलीकृत उदाहरण प्रदान कर रहा हूं। वास्तविक डेटा-सेट जितना मैं वर्णन कर रहा हूं, उससे अधिक जटिल है, लेकिन यह प्रासंगिक प्रतीत नहीं हुआ। इसके अलावा, एक एकल रेक्सक्स में मेरे "शब्दों" के व्यापक रूप से गति में सुधार हुआ। इसके अलावा, मैं प्रतिस्थापन के बाद डबल-स्पेस को "निचोड़" रहा हूं।
pdanese

1
@ user36476 प्रतिक्रिया के लिए धन्यवाद, मैंने इसी भाग को हटा दिया। क्या आप कृपया मेरे सुझाव को आज़मा सकते हैं? मैं कहता हूं कि यह स्वीकृत उत्तर की तुलना में बहुत तेज है।
एरिक डुमिनील

1
चूंकि आपने उस भ्रामक O(1)दावे को हटा दिया है , इसलिए आपका जवाब निश्चित रूप से एक अप वोट का हकदार है।
इदमीन

1
@idmean: सच, यह बहुत स्पष्ट नहीं था। यह केवल लुकअप की बात कर रहा था: "क्या यह शब्द एक प्रतिबंधित शब्द है?"।
एरिक डुमिनील

1
@ EricDuminil: शानदार काम! काश मैं दूसरी बार उत्थान कर पाता।
मैथ्यू एम।

105

TLDR

यदि आप सबसे तेज़ रेगेक्स-आधारित समाधान चाहते हैं तो इस विधि का उपयोग करें। ओपी के समान एक डेटासेट के लिए, यह स्वीकृत उत्तर की तुलना में लगभग 1000 गुना तेज है।

यदि आप रेगेक्स के बारे में परवाह नहीं करते हैं, तो इस सेट-आधारित संस्करण का उपयोग करें , जो रेगेक्स यूनियन की तुलना में 2000 गुना तेज है।

तीनों के साथ अनुकूलित रेगेक्स

एक सरल रेगेक्स यूनियन दृष्टिकोण कई प्रतिबंधित शब्दों के साथ धीमा हो जाता है, क्योंकि रेगेक्स इंजन पैटर्न के अनुकूलन का बहुत अच्छा काम नहीं करता है

सभी प्रतिबंधित शब्दों के साथ एक ट्राय बनाना और संबंधित रेगेक्स लिखना संभव है । परिणामी trie या regex वास्तव में मानव-पठनीय नहीं हैं, लेकिन वे बहुत तेज़ी से देखने और मिलान करने की अनुमति देते हैं।

उदाहरण

['foobar', 'foobah', 'fooxar', 'foozap', 'fooza']

रेगेक्स यूनियन

सूची को तिकड़ी में बदल दिया गया है:

{
    'f': {
        'o': {
            'o': {
                'x': {
                    'a': {
                        'r': {
                            '': 1
                        }
                    }
                },
                'b': {
                    'a': {
                        'r': {
                            '': 1
                        },
                        'h': {
                            '': 1
                        }
                    }
                },
                'z': {
                    'a': {
                        '': 1,
                        'p': {
                            '': 1
                        }
                    }
                }
            }
        }
    }
}

और फिर इस regex पैटर्न के लिए:

r"\bfoo(?:ba[hr]|xar|zap?)\b"

रेगेक्स ट्राई

बहुत बड़ा फायदा यह है कि यदि zooमैच होता है तो परीक्षण करने के लिए , रेगेक्स इंजन को केवल 5 शब्दों की कोशिश करने के बजाय पहले चरित्र (यह मेल नहीं खाता) की तुलना करने की आवश्यकता है । यह 5 शब्दों के लिए एक प्रीप्रोसेस ओवरकिल है, लेकिन यह कई हजार शब्दों के लिए आशाजनक परिणाम दिखाता है।

ध्यान दें कि (?:)गैर-कैप्चरिंग समूहों का उपयोग किया जाता है क्योंकि:

कोड

यहाँ थोड़ा संशोधित जिप है , जिसे हम trie.pyलाइब्रेरी के रूप में उपयोग कर सकते हैं :

import re


class Trie():
    """Regex::Trie in Python. Creates a Trie out of a list of words. The trie can be exported to a Regex pattern.
    The corresponding Regex should match much faster than a simple Regex union."""

    def __init__(self):
        self.data = {}

    def add(self, word):
        ref = self.data
        for char in word:
            ref[char] = char in ref and ref[char] or {}
            ref = ref[char]
        ref[''] = 1

    def dump(self):
        return self.data

    def quote(self, char):
        return re.escape(char)

    def _pattern(self, pData):
        data = pData
        if "" in data and len(data.keys()) == 1:
            return None

        alt = []
        cc = []
        q = 0
        for char in sorted(data.keys()):
            if isinstance(data[char], dict):
                try:
                    recurse = self._pattern(data[char])
                    alt.append(self.quote(char) + recurse)
                except:
                    cc.append(self.quote(char))
            else:
                q = 1
        cconly = not len(alt) > 0

        if len(cc) > 0:
            if len(cc) == 1:
                alt.append(cc[0])
            else:
                alt.append('[' + ''.join(cc) + ']')

        if len(alt) == 1:
            result = alt[0]
        else:
            result = "(?:" + "|".join(alt) + ")"

        if q:
            if cconly:
                result += "?"
            else:
                result = "(?:%s)?" % result
        return result

    def pattern(self):
        return self._pattern(self.dump())

परीक्षा

यहाँ एक छोटे से परीक्षण (के रूप में ही है इस एक ):

# Encoding: utf-8
import re
import timeit
import random
from trie import Trie

with open('/usr/share/dict/american-english') as wordbook:
    banned_words = [word.strip().lower() for word in wordbook]
    random.shuffle(banned_words)

test_words = [
    ("Surely not a word", "#surely_NöTäWORD_so_regex_engine_can_return_fast"),
    ("First word", banned_words[0]),
    ("Last word", banned_words[-1]),
    ("Almost a word", "couldbeaword")
]

def trie_regex_from_words(words):
    trie = Trie()
    for word in words:
        trie.add(word)
    return re.compile(r"\b" + trie.pattern() + r"\b", re.IGNORECASE)

def find(word):
    def fun():
        return union.match(word)
    return fun

for exp in range(1, 6):
    print("\nTrieRegex of %d words" % 10**exp)
    union = trie_regex_from_words(banned_words[:10**exp])
    for description, test_word in test_words:
        time = timeit.timeit(find(test_word), number=1000) * 1000
        print("  %s : %.1fms" % (description, time))

यह आउटपुट:

TrieRegex of 10 words
  Surely not a word : 0.3ms
  First word : 0.4ms
  Last word : 0.5ms
  Almost a word : 0.5ms

TrieRegex of 100 words
  Surely not a word : 0.3ms
  First word : 0.5ms
  Last word : 0.9ms
  Almost a word : 0.6ms

TrieRegex of 1000 words
  Surely not a word : 0.3ms
  First word : 0.7ms
  Last word : 0.9ms
  Almost a word : 1.1ms

TrieRegex of 10000 words
  Surely not a word : 0.1ms
  First word : 1.0ms
  Last word : 1.2ms
  Almost a word : 1.2ms

TrieRegex of 100000 words
  Surely not a word : 0.3ms
  First word : 1.2ms
  Last word : 0.9ms
  Almost a word : 1.6ms

जानकारी के लिए, रेगेक्स इस तरह शुरू होता है:

(: एक (: (: \ की | एक (: \ '??? रों | chen | Liyah (: \ के) | आर (? Dvark (: (? \ की | रों )) | पर)) | ख? (: \ की | एक (? ग (: हमें (: (: \?? 's | ते)) | [इक]) | फीट | अकेला (? : (: \ की | s)?) | ndon (? :( ?: एड | ing | जाहिर (: \ के) |?? s)) | s (: ई (? :( ?:? जाहिर: | [डी एस])) | ज (? :( ?: ई [डी एस] | ing)) | ing) | टी ((\ की?):????? ई (? :( ?: जाहिर ( ?: \ के) | [डी एस])) | ing | Toir (? (: \? 's | s)))) | ख (: के रूप में (?? आईडी) | ई (? : एस एस (: (? \ की | ते)) |? y (: (: \? '|) | OT (रों s)): (?? \ की | टी (: \ 'रों) | s)) | reviat? (: ई [डी एस] | मैं (? एनजी | पर (: (: \?' s | s)))) | y (? \ ' ? रों) | \ é (: (? \ की | s)?)) | घ (: ICAT (: ई [डी एस] | मैं (?? एनजी | पर (?? (: \ की | s)))) | ओम (: एन (: (: \?? 's | s)) | inal) | यू (?? सीटी (? :( ?: एड | मैं (?: एनजी | पर (: (: \? 's | s))) | या? (: (? \ की | s)???) | s)) | एल (: \ की)) ) | ई (: (? \ की | बजे | एल (: (? \ की | अर्द | बेटा (?? \ के))) | आर (? दीन (: \ 'रों) | Nathy? (: \ के) | ra (?? NT | tion (: (: \ की | s))?)) | टी (? :( ?: टी (?: ई (: आर (: (: \? 's | s)) | घ?) | ing | या (? (: \'रों | s))) | s)) | yance (? \ के) | घ)) | होर (? :( ?: आर (???? ई (: n (: ce (?? : \ के) | टी) | घ) | ing) | s)) | मैं (?? घ (: ई [डी एस] | ing | जनवरी (?? \ '? रों)) | गेल | एल (: ene | यह (? एँ | y (: \ के))?) | j | उर ((: ect (ly?):??? समझना (: (: \?) ' रों | s)) | ई [डी एस] | ing)) | एल (??? एक (: ेश्य (: (??? \ की | s)) | Ze) | ई (:(? : सेंट | र)) | oom | संविधान (? (??? \ '? रों | s)) | वाई) | मीटर \ की | n (: ई (: Gat (: ई [डी एस] ? | मैं (: एनजी | पर (: \ की)?) | आर (?: \?) के)) | ormal (? :( ?: यह (? एँ | y (? \ ' रों)) | ly))) | ओ (?? अर्द | डे (: (??? \ की | s)) | ली (: श (? :( ?: ई [डी एस] | आईएनजी )) | tion? (? (: \ की | IST (: (: \? 's | s))))) | मीना (?? बीएल [ey] | टी (: ई [ डी एस] | मैं? (: एनजी | पर (?? (: \ की | s))?))) | आर (??? igin (: अल (: (: \ की | s) ) | ई? (? (: \ की | s))) | टी (? :( ?: एड | मैं (? एनजी | पर (: (? \ की | IST (?: ) |)) एस | ve) | s))) | यू (|: (\ की है?):????? nd (? :( ?: एड | ing | s)) | टी) | ve (: (? \ की | बोर्ड))) | आर (?? एक (: Cadabra (: \? 'रों) | घ (?? ई [डी एस] | ing) | हैम (? : \ '? रों) | मीटर (: (? \ की | s)?) | si (: पर (: (?? \ की | s)) |? ve (? :( ?:?\ की | ly | सत्ता (: \? '| S)))) | पूर्व | IDG (रों)?? ई (? :( ?: जाहिर (: (?? \ की | s)) ? | [डी एस])) | ing | जाहिर (?? (: \ की | s))) | ओ (? विज्ञापन | Gat (: ई [डी एस] | मैं (?? एनजी | पर (: (: \??? 's | s))))) | upt (? :( ?: ई (??? सेंट | r) | ly | सत्ता (: \' रों)))) | रों (? आलम | ग (: ईएसएस (: (: \ की | ई [डी एस] | ing)) | Issa (? (? \ '?? रों | [es])) | दूसरी)) | एन (? :( ?: एड | | ing है?)? (? ce (: (? \ की | s)??) | टी (? :( ?: ई (: ई ( ?: (: \ की | वाद (: \? 'रों) | है?)) | घ) | ing | ly | s))) | inth (? (? \ की | ई ( ?: \ के))) | ओ? (?? एल (: ut (: ई (: (: \? 's | ly | सेंट)?) | मैं (? पर (?: \ '? रों) | एसएम (: \'? रों))) | v (: ई [डी एस] | ing)) | आर (?? ख (? :( ?: ई (: n (?? : cy (: \? '| टी रों)? (: (? \ की | s))?) | घ) | ing | s)) | PTI ...रों | [es])) | दूसरी (? :( ?: एड | ing | s))) | एन (??? ce (: (?? \ की | s)) | टी (?: (: ई (: ई (: (??? \ '? रों | वाद (: \'? रों) | s)) | घ) | ing | ly | s))) | inth (?: (: \ की | ई (: \? 'रों)?)) | ओ (? एल (: ut (: ई (: (: \ की | ly | सेंट))????? | मैं (: पर (: \ के) | एसएम (? \ '?? रों))?) | v (: ई [डी एस] | ing)) | आर (?? ख (:( ?: ई (: n (: cy (: \ के) | टी (: (? \ '??? रों | s))) | घ) |? ing | s)) | PTI .. ।रों | [es])) | दूसरी (? :( ?: एड | ing | s))) | एन (??? ce (: (?? \ की | s)) | टी (?: (: ई (: ई (: (??? \ '? रों | वाद (: \'? रों) | s)) | घ) | ing | ly | s))) | inth (?: (: \ की | ई (: \? 'रों)?)) | ओ (? एल (: ut (: ई (: (: \ की | ly | सेंट))????? | मैं (: पर (: \ के) | एसएम (? \ '?? रों))?) | v (: ई [डी एस] | ing)) | आर (?? ख (:( ?: ई (: n (: cy (: \ के) | टी (: (? \ '??? रों | s))) | घ) |? ing | s)) | PTI .. ।

यह वास्तव में अपठनीय है, लेकिन 100000 प्रतिबंधित शब्दों की सूची के लिए, यह ट्राइ रेगेक्स एक साधारण रेगेक्स यूनियन की तुलना में 1000 गुना तेज है!

यहाँ पूरी तिकड़ी का आरेख है, जिसे त्रि-पायथन-ग्राफविज़ और ग्राफविज़ के साथ निर्यात किया गया है twopi:

यहां छवि विवरण दर्ज करें


लगता है कि मूल उद्देश्य के लिए, गैर-कैप्चरिंग समूह की आवश्यकता नहीं है। कम से कम गैर-कैप्चरिंग समूह के अर्थ का उल्लेख किया जाना चाहिए
जेवियर कॉम्बेल

3
@XavierCombelle: आप सही हैं कि मुझे कैप्चरिंग ग्रुप का उल्लेख करना चाहिए: उत्तर अपडेट कर दिया गया है। मैं इसे दूसरे तरीके से देखता हूं, हालांकि: रेगेक्स अल्टरनेशन के लिए पैरेंस की जरूरत होती है, |लेकिन हमारे उद्देश्य के लिए ग्रुप कैप्चरिंग की जरूरत नहीं होती है। वे बस प्रक्रिया को धीमा कर देंगे और लाभ के बिना अधिक मेमोरी का उपयोग करेंगे।
एरिक डुमिनील

3
@EricDuminil यह पोस्ट एकदम सही है, बहुत बहुत धन्यवाद :)
मोहम्मद AL ANI

1
@MohamedALANI: किस समाधान की तुलना में?
एरिक डुमिनील

1
@ PV8: यह केवल पूर्ण शब्दों से मेल खाना चाहिए, हां, \b( शब्द सीमा ) के लिए धन्यवाद । यदि सूची है ['apple', 'banana'], तो यह उन शब्दों को बदल देगा जो वास्तव में हैं appleया bananaनहीं nana, लेकिन नहीं , banaया pineapple
एरिक डुमिनील

15

एक चीज़ जिसे आप आज़माना चाहते हैं, वह है शब्द-सीमाओं को कूटबद्ध करने के लिए वाक्यों को पूर्व-प्रसंस्करण करना। मूल रूप से प्रत्येक वाक्य को शब्द सीमाओं पर विभाजित करके शब्दों की सूची में बदल दें।

यह तेज होना चाहिए, क्योंकि एक वाक्य को संसाधित करने के लिए, आपको बस प्रत्येक शब्द के माध्यम से कदम रखना होगा और जांचना होगा कि क्या यह एक मैच है।

वर्तमान में रेगेक्स खोज को प्रत्येक बार फिर से पूरी स्ट्रिंग से गुजरना पड़ रहा है, शब्द सीमाओं की तलाश में है, और फिर अगले पास से पहले इस काम का परिणाम "त्याग" कर रहा है।


8

खैर, यहाँ परीक्षण सेट के साथ एक त्वरित और आसान समाधान है।

जीत की रणनीति:

re.sub ("\ w +", उत्तर, वाक्य) शब्दों के लिए खोज करता है।

"उत्तर" एक कॉल करने योग्य हो सकता है। मैंने एक फ़ंक्शन का उपयोग किया था जो एक तानाशाही लुकअप करता है, और हुकुम में शब्दों को खोजना और बदलना होता है।

यह सबसे सरल और सबसे तेज़ समाधान है (नीचे दिए गए उदाहरण कोड में फ़ंक्शन रिप्लेस 4 देखें)।

दूसरा सबसे अच्छा

विचार वाक्य को शब्दों में विभाजित करने के लिए है, पुन: ssplit का उपयोग करते हुए, जबकि बाद में वाक्यों को फिर से संगठित करने के लिए विभाजकों का संरक्षण। फिर, प्रतिस्थापन एक साधारण तानाशाह के साथ किया जाता है।

(नीचे दिए गए उदाहरण कोड में फ़ंक्शन को बदलें 3)।

उदाहरण कार्यों के लिए समय:

replace1: 0.62 sentences/s
replace2: 7.43 sentences/s
replace3: 48498.03 sentences/s
replace4: 61374.97 sentences/s (...and 240.000/s with PyPy)

... और कोड:

#! /bin/env python3
# -*- coding: utf-8

import time, random, re

def replace1( sentences ):
    for n, sentence in enumerate( sentences ):
        for search, repl in patterns:
            sentence = re.sub( "\\b"+search+"\\b", repl, sentence )

def replace2( sentences ):
    for n, sentence in enumerate( sentences ):
        for search, repl in patterns_comp:
            sentence = re.sub( search, repl, sentence )

def replace3( sentences ):
    pd = patterns_dict.get
    for n, sentence in enumerate( sentences ):
        #~ print( n, sentence )
        # Split the sentence on non-word characters.
        # Note: () in split patterns ensure the non-word characters ARE kept
        # and returned in the result list, so we don't mangle the sentence.
        # If ALL separators are spaces, use string.split instead or something.
        # Example:
        #~ >>> re.split(r"([^\w]+)", "ab céé? . d2eéf")
        #~ ['ab', ' ', 'céé', '? . ', 'd2eéf']
        words = re.split(r"([^\w]+)", sentence)

        # and... done.
        sentence = "".join( pd(w,w) for w in words )

        #~ print( n, sentence )

def replace4( sentences ):
    pd = patterns_dict.get
    def repl(m):
        w = m.group()
        return pd(w,w)

    for n, sentence in enumerate( sentences ):
        sentence = re.sub(r"\w+", repl, sentence)



# Build test set
test_words = [ ("word%d" % _) for _ in range(50000) ]
test_sentences = [ " ".join( random.sample( test_words, 10 )) for _ in range(1000) ]

# Create search and replace patterns
patterns = [ (("word%d" % _), ("repl%d" % _)) for _ in range(20000) ]
patterns_dict = dict( patterns )
patterns_comp = [ (re.compile("\\b"+search+"\\b"), repl) for search, repl in patterns ]


def test( func, num ):
    t = time.time()
    func( test_sentences[:num] )
    print( "%30s: %.02f sentences/s" % (func.__name__, num/(time.time()-t)))

print( "Sentences", len(test_sentences) )
print( "Words    ", len(test_words) )

test( replace1, 1 )
test( replace2, 10 )
test( replace3, 1000 )
test( replace4, 1000 )

संपादित करें: यदि आप वाक्यों की निचली सूची को पारित करते हैं और उत्तर को संपादित करते हैं तो आप लोअरकेस को अनदेखा कर सकते हैं

def replace4( sentences ):
pd = patterns_dict.get
def repl(m):
    w = m.group()
    return pd(w.lower(),w)

1
परीक्षणों के लिए Upvote। replace4और मेरे कोड में समान प्रदर्शन हैं।
एरिक डुमिनील

यकीन नहीं है कि क्या repl(m):कर रहा है और आप कैसे कर रहे हैं mकार्य को प्रतिस्थापित कर रहे हैं 4
स्टेटग्यूसर

इसके अलावा मैं error: unbalanced parenthesisलाइन के लिए त्रुटि हो रही हैpatterns_comp = [ (re.compile("\\b"+search+"\\b"), repl) for search, repl in patterns ]
StatguyUser

जबकि रिप्ले 3 और रिप्लेस 4 फ़ंक्शन मूल मुद्दे (शब्दों को बदलने के लिए) को संबोधित करते हैं, प्रतिस्थापन 1 और रिप्लेस 2 अधिक सामान्य-उद्देश्य हैं, क्योंकि वे काम करते हैं भले ही सुई एक वाक्यांश (शब्दों का एक क्रम) हो और न कि केवल एक शब्द।
ज़ोल्टन फेडर

7

शायद अजगर यहां सही उपकरण नहीं है। यहाँ यूनिक्स टूलकिन के साथ एक है

sed G file         |
tr ' ' '\n'        |
grep -vf blacklist |
awk -v RS= -v OFS=' ' '{$1=$1}1'

अपनी ब्लैकलिस्ट फ़ाइल को संभालने के लिए शब्द सीमाएँ जोड़ी गई हैं। चरण हैं: फ़ाइल को डबल स्पेस में कनवर्ट करें, प्रत्येक वाक्य को एक शब्द प्रति पंक्ति में विभाजित करें, मास फ़ाइल से ब्लैकलिस्ट शब्दों को हटा दें, और लाइनों को वापस मर्ज करें।

इसे कम से कम परिमाण का क्रम तेजी से चलाना चाहिए।

ब्लैक लिस्ट फ़ाइल को शब्दों से हटाने के लिए (प्रति पंक्ति एक शब्द)

sed 's/.*/\\b&\\b/' words > blacklist

4

इस बारे में कैसा है:

#!/usr/bin/env python3

from __future__ import unicode_literals, print_function
import re
import time
import io

def replace_sentences_1(sentences, banned_words):
    # faster on CPython, but does not use \b as the word separator
    # so result is slightly different than replace_sentences_2()
    def filter_sentence(sentence):
        words = WORD_SPLITTER.split(sentence)
        words_iter = iter(words)
        for word in words_iter:
            norm_word = word.lower()
            if norm_word not in banned_words:
                yield word
            yield next(words_iter) # yield the word separator

    WORD_SPLITTER = re.compile(r'(\W+)')
    banned_words = set(banned_words)
    for sentence in sentences:
        yield ''.join(filter_sentence(sentence))


def replace_sentences_2(sentences, banned_words):
    # slower on CPython, uses \b as separator
    def filter_sentence(sentence):
        boundaries = WORD_BOUNDARY.finditer(sentence)
        current_boundary = 0
        while True:
            last_word_boundary, current_boundary = current_boundary, next(boundaries).start()
            yield sentence[last_word_boundary:current_boundary] # yield the separators
            last_word_boundary, current_boundary = current_boundary, next(boundaries).start()
            word = sentence[last_word_boundary:current_boundary]
            norm_word = word.lower()
            if norm_word not in banned_words:
                yield word

    WORD_BOUNDARY = re.compile(r'\b')
    banned_words = set(banned_words)
    for sentence in sentences:
        yield ''.join(filter_sentence(sentence))


corpus = io.open('corpus2.txt').read()
banned_words = [l.lower() for l in open('banned_words.txt').read().splitlines()]
sentences = corpus.split('. ')
output = io.open('output.txt', 'wb')
print('number of sentences:', len(sentences))
start = time.time()
for sentence in replace_sentences_1(sentences, banned_words):
    output.write(sentence.encode('utf-8'))
    output.write(b' .')
print('time:', time.time() - start)

ये समाधान शब्द सीमाओं पर विभाजित होते हैं और एक सेट में प्रत्येक शब्द को देखते हैं। वे शब्द विकल्प (लाइटीज़ 'समाधान) के re.sub की तुलना में तेज़ होना चाहिए क्योंकि ये समाधान सेट लुकअप के O(n)कारण इनपुट का आकार n है amortized O(1), जबकि रेगेक्स वैकल्पिक का उपयोग करने से रेगेक्स इंजन को शब्द मिलानों की जांच करनी होगी केवल शब्द सीमाओं पर बजाय हर वर्ण पर। मेरा सॉल्यूशन मूल पाठ में उपयोग किए जाने वाले व्हाट्सएप को संरक्षित करने के लिए अतिरिक्त देखभाल करता है (यानी यह व्हाट्सएप को संपीड़ित नहीं करता है और टैब, न्यूलाइन्स और अन्य व्हाट्सएप वर्णों को संरक्षित करता है), लेकिन अगर आप तय करते हैं कि आप इसकी परवाह नहीं करते हैं, तो यह उन्हें आउटपुट से हटाने के लिए काफी सीधा होना चाहिए।

मैंने corpus.txt पर परीक्षण किया, जो कि गुटेनबर्ग प्रोजेक्ट से डाउनलोड किए गए कई ई-बुक्स का एक संयोजन है, और banned_words.txt को उबंटू की वर्डलिस्ट (/ usr / शेयर / तानाशाही / अंग्रेजी-अंग्रेजी) से यादृच्छिक रूप से 20000 शब्द लिए गए हैं। 862462 वाक्यों (और PyPy पर आधा) को संसाधित करने में लगभग 30 सेकंड लगते हैं। मैंने वाक्यों को "द्वारा अलग किए गए" के रूप में परिभाषित किया है। "

$ # replace_sentences_1()
$ python3 filter_words.py 
number of sentences: 862462
time: 24.46173644065857
$ pypy filter_words.py 
number of sentences: 862462
time: 15.9370770454

$ # replace_sentences_2()
$ python3 filter_words.py 
number of sentences: 862462
time: 40.2742919921875
$ pypy filter_words.py 
number of sentences: 862462
time: 13.1190629005

PyPy विशेष रूप से दूसरे दृष्टिकोण से अधिक लाभ उठाता है, जबकि CPython ने पहले दृष्टिकोण पर बेहतर प्रदर्शन किया। उपरोक्त कोड पायथन 2 और 3 दोनों पर काम करना चाहिए।


अजगर 3 प्रश्न में दिया गया है। मैंने इसे अपडाउन किया लेकिन मुझे लगता है कि इस कोड में विस्तार और 'इष्टतम' कार्यान्वयन में से कुछ को कम करने के लिए इसे त्यागने के लायक हो सकता है।
pvg

अगर मैं इसे सही ढंग से समझता हूं, तो यह मूल रूप से मेरे उत्तर के समान सिद्धांत है, लेकिन अधिक क्रिया है? विभाजन करना और इसमें शामिल \W+होना मूल रूप से पसंद subहै \w+, है ना?
एरिक डुमिनील

मुझे आश्चर्य है कि अगर मेरा समाधान नीचे (फंक्शन रिप्लेस 4) पेपी की तुलना में तेज है;) मैं आपकी फाइलों पर परीक्षण करना चाहूंगा!
बॉबफ्लक्स

3

प्रायोगिक प्रयास

नीचे वर्णित एक समाधान सभी पाठ को एक ही स्ट्रिंग पर संग्रहीत करने और जटिलता स्तर को कम करने के लिए बहुत सारी मेमोरी का उपयोग करता है। अगर रैम एक मुद्दा है तो इसे इस्तेमाल करने से पहले दो बार सोचें।

join/ splitचाल के साथ आप उन सभी छोरों से बच सकते हैं जिन्हें एल्गोरिथ्म को गति देना चाहिए।

  • एक विशेष परिधि वाले वाक्यों को समाप्‍त करें जो कि वाक्यों में सम्‍मिलित नहीं है:
  • merged_sentences = ' * '.join(sentences)

  • उन सभी शब्दों के लिए एक एकल रेगेक्स संकलित करें, जिन्हें आपको |"या रेगेक्स स्टेटमेंट" का उपयोग करके वाक्यों से छुटकारा पाना है :
  • regex = re.compile(r'\b({})\b'.format('|'.join(words)), re.I) # re.I is a case insensitive flag

  • संकलित regex के साथ शब्दों को सब्सक्राइब करें और विशेष सीमांकक वर्ण द्वारा अलग-अलग वाक्यों में विभाजित करें:
  • clean_sentences = re.sub(regex, "", merged_sentences).split(' * ')

    प्रदर्शन

    "".joinजटिलता O (n) है। यह बहुत सहज है, लेकिन वैसे भी एक स्रोत से छोटा उद्धरण है:

    for (i = 0; i < seqlen; i++) {
        [...]
        sz += PyUnicode_GET_LENGTH(item);

    इसलिए join/splitआपके पास O (शब्द) + 2 * O (वाक्य) हैं जो प्रारंभिक दृष्टिकोण के साथ अभी भी 2 * O (N 2 ) रैखिक जटिलता है ।


    btw मल्टीथ्रेडिंग का उपयोग न करें। GIL प्रत्येक ऑपरेशन को रोक देगा क्योंकि आपका कार्य सख्ती से CPU बाध्य है इसलिए GIL को रिलीज़ होने का कोई मौका नहीं है, लेकिन प्रत्येक थ्रेड समवर्ती रूप से टिक भेजेगा जो अतिरिक्त प्रयास का कारण बनता है और यहां तक ​​कि ऑपरेशन को अनंत तक ले जाता है।


    यदि किसी पाठ फ़ाइल में वाक्यों को संग्रहीत किया जाता है, तो वे पहले ही एक नई पंक्ति से अलग हो जाते हैं। तो पूरी फ़ाइल को एक बड़े स्ट्रिंग (या बफर), हटाए गए शब्दों के रूप में पढ़ा जा सकता है, और फिर वापस फिर से लिखा जा सकता है (या यह सीधे मेमोरी मैपिंग का उपयोग करके फ़ाइल में किया जा सकता है)। ओटोह, एक शब्द को हटाने के लिए, शेष स्ट्रिंग को अंतराल को भरने के लिए वापस ले जाना पड़ता है, ताकि एक बहुत बड़ी स्ट्रिंग के साथ एक समस्या हो। एक विकल्प यह होगा कि शब्दों के बीच के भागों को एक और स्ट्रिंग या फाइल (जिसमें नईलाइन शामिल होंगी) के बीच लिखें - या सिर्फ उन हिस्सों को एक mmped फ़ाइल में स्थानांतरित करें (1) ..
    Danny_ds

    एरिक ड्यूमिनिल के सेट लुकअप के साथ संयुक्त अंतिम दृष्टिकोण (शब्दों के बीच के हिस्सों को हिलाना / लिखना) वास्तव में तेज़ हो सकता है, शायद रेगेक्स का उपयोग किए बिना भी। (२)
    डैनी_ड्स

    .. या हो सकता है कि रेगेक्स पहले से ही केवल उन भागों को स्थानांतरित करने के लिए अनुकूलित है जब कई शब्दों को प्रतिस्थापित किया जाता है, मुझे नहीं पता।
    Danny_ds

    0

    अपने सभी वाक्यों को एक दस्तावेज़ में समेटें। अपने सभी "बुरे" शब्दों का पता लगाने के लिए अहो-कोरासिक एल्गोरिथ्म ( यहां एक ) के किसी भी कार्यान्वयन का उपयोग करें । फ़ाइल को पीछे छोड़ें, प्रत्येक बुरे शब्द को प्रतिस्थापित करें, पाए गए शब्दों के ऑफसेट को अपडेट करें आदि।

    हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
    Licensed under cc by-sa 3.0 with attribution required.