पायथन में स्ट्रिंग स्लगिफिकेशन

Question 1

मैं "स्लगिफ़" स्ट्रिंग का सबसे अच्छा तरीका खोज रहा हूं कि "स्लग" क्या है , और मेरा वर्तमान समाधान इस नुस्खा पर आधारित है

मैंने इसे थोड़ा बदल दिया है:

s = 'String to slugify'

slug = unicodedata.normalize('NFKD', s)
slug = slug.encode('ascii', 'ignore').lower()
slug = re.sub(r'[^a-z0-9]+', '-', slug).strip('-')
slug = re.sub(r'[-]+', '-', slug)

किसी को भी इस कोड के साथ कोई समस्या देखते हैं? यह ठीक काम कर रहा है, लेकिन शायद मुझे कुछ याद आ रहा है या आप एक बेहतर तरीका जानते हैं?

Question 2

नाम का एक अजगर पैकेज है python-slugify, जो बहुत अच्छा काम करता है:

pip install python-slugify

इस तरह काम करता है:

from slugify import slugify

txt = "This is a test ---"
r = slugify(txt)
self.assertEquals(r, "this-is-a-test")

txt = "This -- is a ## test ---"
r = slugify(txt)
self.assertEquals(r, "this-is-a-test")

txt = 'C\'est déjà l\'été.'
r = slugify(txt)
self.assertEquals(r, "cest-deja-lete")

txt = 'Nín hǎo. Wǒ shì zhōng guó rén'
r = slugify(txt)
self.assertEquals(r, "nin-hao-wo-shi-zhong-guo-ren")

txt = 'Компьютер'
r = slugify(txt)
self.assertEquals(r, "kompiuter")

txt = 'jaja---lol-méméméoo--a'
r = slugify(txt)
self.assertEquals(r, "jaja-lol-mememeoo-a")

अधिक उदाहरण देखें

यह पैकेज आपके द्वारा पोस्ट किए जाने से थोड़ा अधिक है (स्रोत पर एक नज़र डालें, यह सिर्फ एक फ़ाइल है)। परियोजना अभी भी सक्रिय है (मूल रूप से उत्तर देने के 2 दिन पहले अपडेट हो गई, सात साल बाद (अंतिम बार 2020-06-30 की जांच की गई), यह अभी भी अपडेट हो गई है)।

सावधान : नाम के आसपास एक दूसरा पैकेज है slugify। यदि आपके पास दोनों हैं, तो आपको समस्या हो सकती है, क्योंकि उनके पास आयात के लिए समान नाम है। एक बस नामित slugifyसब मैं जल्दी जाँच नहीं किया: "Ich heiße"बन गया "ich-heie"(होना चाहिए "ich-heisse"), इसलिए का उपयोग करते समय, सही एक लेने के लिए सुनिश्चित हो pipया easy_install।

Question 3

यूनिकोड समर्थन के लिए यहाँ से यूनिडॉब फॉर्म को स्थापित करें

पाइप स्थापित करें

# -*- coding: utf-8 -*-
import re
import unidecode

def slugify(text):
    text = unidecode.unidecode(text).lower()
    return re.sub(r'[\W_]+', '-', text)

text = u"My custom хелло ворлд"
print slugify(text)

>>> मेरी-प्रथा-खालो-वचन

Question 4

अजब-गजब नाम का अजगर पैकेज है :

pip install awesome-slugify

इस तरह काम करता है:

from slugify import slugify

slugify('one kožušček')  # one-kozuscek

भयानक-सुस्त गितूब पेज

Question 5

यह Django में अच्छा काम करता है , इसलिए मैं यह नहीं देखता कि यह एक अच्छा सामान्य उद्देश्य क्यों नहीं होगा।

क्या आपको इससे कोई समस्या है?

Question 6

समस्या एससीआई सामान्यीकरण लाइन के साथ है:

slug = unicodedata.normalize('NFKD', s)

इसे यूनिकोड सामान्यीकरण कहा जाता है जो बहुत सारे पात्रों को असिसी के लिए विघटित नहीं करता है। उदाहरण के लिए, यह निम्नलिखित तार से गैर-अस्की अक्षर खींचेगा:

Mørdag -> mrdag
Æther -> ther

इसका एक बेहतर तरीका यह है कि यूनिडॉस्कोप मॉड्यूल का उपयोग किया जाए जो कि स्ट्रैस को ascii में बदलने की कोशिश करता है। इसलिए यदि आप उपरोक्त लाइन को इसके साथ बदलते हैं:

import unidecode
slug = unidecode.unidecode(s)

उपरोक्त तार के लिए और कई ग्रीक और रूसी पात्रों के लिए भी आपको बेहतर परिणाम मिले:

Mørdag -> mordag
Æther -> aether

Question 7

def slugify(value):
    """
    Converts to lowercase, removes non-word characters (alphanumerics and
    underscores) and converts spaces to hyphens. Also strips leading and
    trailing whitespace.
    """
    value = unicodedata.normalize('NFKD', value).encode('ascii', 'ignore').decode('ascii')
    value = re.sub('[^\w\s-]', '', value).strip().lower()
    return mark_safe(re.sub('[-\s]+', '-', value))
slugify = allow_lazy(slugify, six.text_type)

यह django.utils.text में मौजूद slugify फ़ंक्शन है। यह आपकी आवश्यकता को पूरा करना चाहिए।

Question 8

यूनिडॉस्कोप अच्छा है; हालाँकि, सावधान रहें: यूनिडॉब्लॉस GPL है। यदि यह लाइसेंस फिट नहीं है तो इस का उपयोग करें

Question 9

GitHub पर कुछ विकल्प:

प्रत्येक अपने एपीआई के लिए थोड़ा अलग मापदंडों का समर्थन करता है, इसलिए आपको यह देखने की आवश्यकता होगी कि आप क्या पसंद करते हैं।

विशेष रूप से, गैर-एएससीआईआई पात्रों से निपटने के लिए उनके द्वारा प्रदान किए जाने वाले विभिन्न विकल्पों पर ध्यान दें। Pydanny ने एक बहुत ही उपयोगी ब्लॉग पोस्ट लिखी जिसमें इन slugify'ing पुस्तकालयों में कुछ यूनिकोड हैंडलिंग अंतरों को दर्शाया गया है: http://www.pydanny.com/awesome-slugify-human-readable-url-slugs-from-any-string.html यह ब्लॉग पोस्ट थोड़ा पुराना है क्योंकि मोज़िला हैunicode-slugify अब Django- विशिष्ट नहीं है।

यह भी ध्यान दें कि वर्तमान awesome-slugifyमें GPLv3 है, हालांकि एक खुला मुद्दा है जहां लेखक कहता है कि वे एमआईटी / बीएसडी के रूप में रिलीज़ करना पसंद करेंगे, बस वैधता के बारे में सुनिश्चित नहीं है: https://github.com/dimka665/awesome-slugetET/issues/ 24

Question 10

आप अंतिम पंक्ति को बदलने पर विचार कर सकते हैं

slug=re.sub(r'--+',r'-',slug)

चूंकि पैटर्न [-]+से अलग नहीं है -+, और आप वास्तव में केवल एक हाइफ़न, केवल दो या अधिक मिलान के बारे में परवाह नहीं करते हैं।

लेकिन, ज़ाहिर है, यह काफी मामूली है।

Question 11

एक और विकल्प है boltons.strutils.slugify। बोल्टों के पास कुछ अन्य उपयोगी कार्य भी हैं, और एक BSDलाइसेंस के तहत वितरित किया जाता है ।