वहाँ स्ट्रिंग प्राकृतिक प्रकार के लिए एक समारोह में बनाया गया है?


281

पायथन 3.x का उपयोग करते हुए, मेरे पास स्ट्रिंग्स की एक सूची है, जिसके लिए मैं एक प्राकृतिक वर्णमाला प्रकार करना चाहूंगा।

प्राकृतिक प्रकार: विंडोज में जिस क्रम से फाइल को क्रमबद्ध किया जाता है।

उदाहरण के लिए, निम्न सूची स्वाभाविक रूप से क्रमबद्ध है (मुझे क्या चाहिए):

['elm0', 'elm1', 'Elm2', 'elm9', 'elm10', 'Elm11', 'Elm12', 'elm13']

और यहाँ उपरोक्त सूची का "क्रमबद्ध" संस्करण है (मेरे पास क्या है):

['Elm11', 'Elm12', 'Elm2', 'elm0', 'elm1', 'elm10', 'elm13', 'elm9']

मैं एक प्रकार्य फ़ंक्शन की तलाश में हूं जो पहले वाले की तरह व्यवहार करता है।


13
एक प्राकृतिक सॉर्ट की परिभाषा "ऑर्डर विंडोज सॉर्ट फाइलें" नहीं है।
ग्लेन मेनार्ड


इस साइट पर सभी जवाब गलत परिणाम देंगे यदि आप चाहते हैं कि 'विंडोज-एक्सप्लोरर-जैसे' कई मामलों में छँटाई जाए, उदाहरण के लिए छँटाई !1, 1, !a, a। विंडोज की तरह छँटाई करने का एकमात्र तरीका विंडोज StrCmpLogicalW फ़ंक्शन का उपयोग करना प्रतीत होता है, क्योंकि कोई भी इस फ़ंक्शन को सही तरीके से कार्यान्वित नहीं करता है (स्रोत की सराहना की जाएगी)। हल: stackoverflow.com/a/48030307/2441026
user136036

जवाबों:


235

PyPI पर इसके लिए एक थर्ड पार्टी लाइब्रेरी है जिसे natsort कहा जाता है (पूर्ण प्रकटीकरण, मैं पैकेज का लेखक हूं)। अपने मामले के लिए, आप निम्न में से कोई भी कर सकते हैं:

>>> from natsort import natsorted, ns
>>> x = ['Elm11', 'Elm12', 'Elm2', 'elm0', 'elm1', 'elm10', 'elm13', 'elm9']
>>> natsorted(x, key=lambda y: y.lower())
['elm0', 'elm1', 'Elm2', 'elm9', 'elm10', 'Elm11', 'Elm12', 'elm13']
>>> natsorted(x, alg=ns.IGNORECASE)  # or alg=ns.IC
['elm0', 'elm1', 'Elm2', 'elm9', 'elm10', 'Elm11', 'Elm12', 'elm13']

आपको ध्यान देना चाहिए कि natsortएक सामान्य एल्गोरिथ्म का उपयोग करता है इसलिए इसे किसी भी इनपुट के बारे में काम करना चाहिए जो आप इसे फेंकते हैं। यदि आप अपने स्वयं के फ़ंक्शन को रोल करने के बजाय ऐसा करने के लिए एक पुस्तकालय का चयन कर सकते हैं, तो इसके बारे में अधिक विवरण चाहते हैं , विशेष रूप से विशेष मामलों में, natsortप्रलेखन के हाउ इट वर्क्स पेज की जांच करें ! अनुभाग।


यदि आपको सॉर्टिंग फ़ंक्शन के बजाय सॉर्टिंग कुंजी की आवश्यकता है, तो नीचे दिए गए सूत्रों में से किसी एक का उपयोग करें।

>>> from natsort import natsort_keygen, ns
>>> l1 = ['elm0', 'elm1', 'Elm2', 'elm9', 'elm10', 'Elm11', 'Elm12', 'elm13']
>>> l2 = l1[:]
>>> natsort_key1 = natsort_keygen(key=lambda y: y.lower())
>>> l1.sort(key=natsort_key1)
>>> l1
['elm0', 'elm1', 'Elm2', 'elm9', 'elm10', 'Elm11', 'Elm12', 'elm13']
>>> natsort_key2 = natsort_keygen(alg=ns.IGNORECASE)
>>> l2.sort(key=natsort_key2)
>>> l2
['elm0', 'elm1', 'Elm2', 'elm9', 'elm10', 'Elm11', 'Elm12', 'elm13']

5
मुझे भी लगता है कि यह काफी दिलचस्प है कि नंबर के अंत में नॉट्सर्ट भी सही होता है: जैसा कि अक्सर फ़ाइल नाम के लिए होता है। निम्नलिखित उदाहरण को शामिल करने के लिए स्वतंत्र महसूस करें: pastebin.com/9cwCLdEK
मार्टिन थोमा

1
Natsort एक बेहतरीन लाइब्रेरी है, इसे पायथन स्टैंडर्ड लाइब्रेरी में जोड़ा जाना चाहिए! :-)
मिच मैकमाबर्स

natsortस्ट्रिंग्स में कई अलग-अलग संख्याओं के मामले को 'स्वाभाविक रूप से' संभालता है। उत्तम सामग्री!
फ्लोरियनएच

182

इसे इस्तेमाल करे:

import re

def natural_sort(l): 
    convert = lambda text: int(text) if text.isdigit() else text.lower() 
    alphanum_key = lambda key: [ convert(c) for c in re.split('([0-9]+)', key) ] 
    return sorted(l, key = alphanum_key)

आउटपुट:

['elm0', 'elm1', 'Elm2', 'elm9', 'elm10', 'Elm11', 'Elm12', 'elm13']

यहाँ से अनुकूलित कोड: मानवों के लिए छँटाई: प्राकृतिक क्रम क्रम


2
तुम return sorted(l, key)इसके बजाय क्यों इस्तेमाल करते हो l.sort(key)? यह किसी भी प्रदर्शन लाभ के लिए है या सिर्फ अधिक पायथोनिक होने के लिए?
जपेली

12
@ जेरेपेली मुझे लगता है कि कॉल करने वाले में मूल सूची बदल जाएगी। लेकिन सबसे अधिक संभावना है कि कॉलर सूची की एक और उथली प्रति चाहता है।
5

3
केवल रिकॉर्ड के लिए, यह सभी इनपुट्स को संभाल नहीं सकता है: str / int स्प्लिट्स को लाइन अप करना होगा, अन्यथा आप इनपुट के लिए ["foo", 0] <[0, "foo"] जैसी तुलना करेंगे [foo0] "," 0foo "], जो एक टाइप इयरर को उठाता है।
user19087

4
@ user19087: वास्तव में यह काम करता है, क्योंकि re.split('([0-9]+)', '0foo')रिटर्न ['', '0', 'foo']। उस वजह से, स्ट्रिंग हमेशा अनुक्रमणिका और पूर्णांक पर विषम अनुक्रमित पर भी होगी।
फ्लोरियन कुश

प्रदर्शन के बारे में सोच रहे किसी के लिए, यह अजगर के मूल प्रकार की तुलना में काफी धीमा है। यानी 25 -50x धीमा। और यदि आप हमेशा [elm1, elm2, Elm2, elm2] को [elm1, Elm2, elm2, elm2] के रूप में छांटना चाहते हैं (कम होने से पहले कैप्स), तो आप बस कॉल कर सकते हैं_sort (सॉर्टेड (lst))। अधिक अक्षम, लेकिन एक दोहराने योग्य प्रकार प्राप्त करने के लिए बहुत आसान है। ~ 50% स्पीडअप के लिए regex संकलित करें। जैसा कि क्लाउडीयू के उत्तर में देखा गया है।
चार्ली हेली

100

यहाँ मार्क बायर्स के उत्तर के बहुत अधिक पायथनिक संस्करण दिए गए हैं:

import re

def natural_sort_key(s, _nsre=re.compile('([0-9]+)')):
    return [int(text) if text.isdigit() else text.lower()
            for text in _nsre.split(s)]    

अब इस समारोह किसी भी समारोह में यह का उपयोग करता है, की तरह में एक महत्वपूर्ण के रूप में इस्तेमाल किया जा सकता list.sort, sorted, max, आदि

लंबोदर के रूप में:

lambda s: [int(t) if t.isdigit() else t.lower() for t in re.split('(\d+)', s)]

9
फिर मॉड्यूल compiles और कैश स्वतः regexes, तो precompile करने के लिए कोई जरूरत नहीं है
विम

1
@wim: यह अंतिम एक्स usages को कैश करता है, इसलिए यह तकनीकी रूप से X + 5 रेग्जेस का उपयोग करना संभव है और फिर एक प्राकृतिक प्रकार को बार-बार करते हैं, जिस बिंदु पर यह कैश नहीं किया जाएगा। लेकिन शायद लंबे समय में नगण्य है
क्लाउडीयू

मैंने ऐसा नहीं किया, लेकिन शायद कारण यह था कि यह नियमित रूप से अजगर की तरह ट्यूपल्स को संभाल नहीं सकता था।
द अनफिन कैट

1
@Claudiu द्वारा बताए गए एक्स usages Python 2.7 पर 100 और Python 3.4 पर 512 लगते हैं । और यह भी ध्यान दें कि जब सीमा समाप्त हो जाती है तो कैश पूरी तरह से साफ हो जाता है (इसलिए यह न केवल सबसे पुराना है जिसे फेंक दिया जाता है)।
Zitrax

@Zitrax कैश को पूरी तरह से साफ़ करने के लिए क्यों / कैसे समझ में आता है?
जोसुआ

19

मैंने http://www.codinghorror.com/blog/2007/12/sorting-for-humans-natural-sort-order.html पर आधारित एक समारोह लिखा था, जो अभी भी आपके 'कुंजी' पैरामीटर में पास होने की क्षमता जोड़ता है। मुझे एक प्राकृतिक प्रकार की सूचियों को निष्पादित करने के लिए इसकी आवश्यकता है जिसमें अधिक जटिल वस्तुएं हैं (न कि केवल तार)।

import re

def natural_sort(list, key=lambda s:s):
    """
    Sort the list into natural alphanumeric order.
    """
    def get_alphanum_key_func(key):
        convert = lambda text: int(text) if text.isdigit() else text 
        return lambda s: [convert(c) for c in re.split('([0-9]+)', key(s))]
    sort_key = get_alphanum_key_func(key)
    list.sort(key=sort_key)

उदाहरण के लिए:

my_list = [{'name':'b'}, {'name':'10'}, {'name':'a'}, {'name':'1'}, {'name':'9'}]
natural_sort(my_list, key=lambda x: x['name'])
print my_list
[{'name': '1'}, {'name': '9'}, {'name': '10'}, {'name': 'a'}, {'name': 'b'}]

ऐसा करने का एक सरल तरीका परिभाषित करना होगा natural_sort_key, और फिर एक सूची को सॉर्ट करते समय आप अपनी कुंजियों को श्रृंखलाबद्ध कर सकते हैं, जैसे:list.sort(key=lambda el: natural_sort_key(el['name']))
क्लाउडी

17
data = ['elm13', 'elm9', 'elm0', 'elm1', 'Elm11', 'Elm2', 'elm10']

आइए डेटा का विश्लेषण करते हैं। सभी तत्वों की अंक क्षमता 2. है और सामान्य शाब्दिक भाग में 3 अक्षर हैं 'elm'

तो, तत्व की अधिकतम लंबाई 5. हम यह सुनिश्चित करने के लिए इस मूल्य को बढ़ा सकते हैं (उदाहरण के लिए, 8)।

इस बात को ध्यान में रखते हुए, हमें एक-लाइन समाधान मिल गया है:

data.sort(key=lambda x: '{0:0>8}'.format(x).lower())

नियमित अभिव्यक्ति और बाहरी पुस्तकालयों के बिना!

print(data)

>>> ['elm0', 'elm1', 'Elm2', 'elm9', 'elm10', 'Elm11', 'elm13']

स्पष्टीकरण:

for elm in data:
    print('{0:0>8}'.format(elm).lower())

>>>
0000elm0
0000elm1
0000elm2
0000elm9
000elm10
000elm11
000elm13

1
यह डायनेमिक / अज्ञात लंबाई डेटा को हैंडल नहीं करता है। यह डेटा के लिए अन्य समाधानों की तुलना में अलग-अलग तरह से होता है जिनके अंत में विरोध किए गए डेटा के भीतर नंबर होते हैं। * यह अनिवार्य रूप से अवांछनीय नहीं है, लेकिन मुझे लगता है कि यह इंगित करना अच्छा है।
जेरोडगैस

1
यदि आपको गतिशील लंबाई डेटा को संभालने की आवश्यकता है, तो आप width = max(data, key=len)गणना कर सकते हैं कि इसके लिए क्या उप का उपयोग करें8 उपर्युक्त के और फिर इसे प्रारूप स्ट्रिंग में उप में '{0:0>{width}}'.format(x, width=width)
जोड़ सकते हैं

1
बस इस मंच पर अन्य सभी की तुलना में एक समयबद्ध परीक्षण करके, यह समाधान दूर तक है डेटा के प्रकार के लिए सबसे तेज़ और सबसे कुशल है @snakile प्रक्रिया करने की कोशिश कर रहा है
SR Colledge

13

दिया हुआ:

data=['Elm11', 'Elm12', 'Elm2', 'elm0', 'elm1', 'elm10', 'elm13', 'elm9']

सर्ग के समाधान के समान, ए बाहरी पुस्तकालयों के बिना 1-लाइनर होगा :

data.sort(key=lambda x : int(x[3:]))

या

sorted_data=sorted(data, key=lambda x : int(x[3:]))

स्पष्टीकरण:

यह समाधान कुंजी का उपयोग करता है एक फ़ंक्शन को परिभाषित करने के लिए सॉर्ट विशेषता का जिसे सॉर्टिंग के लिए नियोजित किया जाएगा। क्योंकि हम जानते हैं कि प्रत्येक डेटा प्रविष्टि 'एल्म' से पहले होती है, सॉर्टिंग फ़ंक्शन 3 वर्ण (यानी इंट (x [3:])) के बाद स्ट्रिंग के हिस्से को पूर्णांक में परिवर्तित करता है। यदि डेटा का संख्यात्मक भाग एक अलग स्थान पर है, तो फ़ंक्शन के इस हिस्से को बदलना होगा।

चियर्स


6
और अब कुछ और के लिए * सुरुचिपूर्ण (pythonic) -एक स्पर्श

वहाँ कई कार्यान्वयन हैं, और जबकि कुछ करीब आ गए हैं, किसी ने भी लालित्य के आधुनिक अजगर अफसरों पर कब्जा नहीं किया है।

  • अजगर का उपयोग कर परीक्षण किया गया (3.5.1)
  • यह दिखाने के लिए एक अतिरिक्त सूची शामिल करें कि यह तब काम करता है जब संख्याएँ मध्य स्ट्रिंग हों
  • हालांकि, परीक्षण नहीं किया गया था, मैं मान रहा हूं कि यदि आपकी सूची बड़े आकार की थी तो रेगेक्स को पहले से संकलित करना अधिक कुशल होगा
    • मुझे यकीन है कि अगर कोई गलत धारणा है तो कोई मुझे सुधार लेगा

quicky
from re import compile, split    
dre = compile(r'(\d+)')
mylist.sort(key=lambda l: [int(s) if s.isdigit() else s.lower() for s in split(dre, l)])
पूर्ण कोड
#!/usr/bin/python3
# coding=utf-8
"""
Natural-Sort Test
"""

from re import compile, split

dre = compile(r'(\d+)')
mylist = ['elm0', 'elm1', 'Elm2', 'elm9', 'elm10', 'Elm11', 'Elm12', 'elm13', 'elm']
mylist2 = ['e0lm', 'e1lm', 'E2lm', 'e9lm', 'e10lm', 'E12lm', 'e13lm', 'elm', 'e01lm']

mylist.sort(key=lambda l: [int(s) if s.isdigit() else s.lower() for s in split(dre, l)])
mylist2.sort(key=lambda l: [int(s) if s.isdigit() else s.lower() for s in split(dre, l)])

print(mylist)  
  # ['elm', 'elm0', 'elm1', 'Elm2', 'elm9', 'elm10', 'Elm11', 'Elm12', 'elm13']
print(mylist2)  
  # ['e0lm', 'e1lm', 'e01lm', 'E2lm', 'e9lm', 'e10lm', 'E12lm', 'e13lm', 'elm']

उपयोग करते समय सावधानी

  • from os.path import split
    • आपको आयातों में अंतर करने की आवश्यकता होगी

से प्रेरणा ली


6

इस पोस्ट का मूल्य

मेरी बात एक गैर रेगेक्स समाधान पेश करने की है जिसे आम तौर पर लागू किया जा सकता है।
मैं तीन कार्य बनाऊंगा:

  1. find_first_digitजो मैंने @AnuragUniyal से उधार लिया था । यह एक स्ट्रिंग में पहले अंक या गैर-अंक की स्थिति का पता लगाएगा।
  2. split_digitsजो एक जनरेटर है जो एक स्ट्रिंग को अंक और गैर अंक विखंडू में अलग करता है। yieldजब यह एक अंक होगा तो यह पूर्णांक भी होगा ।
  3. natural_keyबस split_digitsएक में लपेटता है tuple। इसी को हम के लिए एक प्रमुख के रूप में उपयोग है sorted, max, min

कार्य

def find_first_digit(s, non=False):
    for i, x in enumerate(s):
        if x.isdigit() ^ non:
            return i
    return -1

def split_digits(s, case=False):
    non = True
    while s:
        i = find_first_digit(s, non)
        if i == 0:
            non = not non
        elif i == -1:
            yield int(s) if s.isdigit() else s if case else s.lower()
            s = ''
        else:
            x, s = s[:i], s[i:]
            yield int(x) if x.isdigit() else x if case else x.lower()

def natural_key(s, *args, **kwargs):
    return tuple(split_digits(s, *args, **kwargs))

हम देख सकते हैं कि यह सामान्य है कि हमारे पास कई अंक हो सकते हैं:

# Note that the key has lower case letters
natural_key('asl;dkfDFKJ:sdlkfjdf809lkasdjfa_543_hh')

('asl;dkfdfkj:sdlkfjdf', 809, 'lkasdjfa_', 543, '_hh')

या मामले के रूप में संवेदनशील छोड़ दें:

natural_key('asl;dkfDFKJ:sdlkfjdf809lkasdjfa_543_hh', True)

('asl;dkfDFKJ:sdlkfjdf', 809, 'lkasdjfa_', 543, '_hh')

हम देख सकते हैं कि यह उचित क्रम में ओपी की सूची को क्रमबद्ध करता है

sorted(
    ['elm0', 'elm1', 'Elm2', 'elm9', 'elm10', 'Elm11', 'Elm12', 'elm13'],
    key=natural_key
)

['elm0', 'elm1', 'Elm2', 'elm9', 'elm10', 'Elm11', 'Elm12', 'elm13']

लेकिन यह अधिक जटिल सूचियों को भी संभाल सकता है:

sorted(
    ['f_1', 'e_1', 'a_2', 'g_0', 'd_0_12:2', 'd_0_1_:2'],
    key=natural_key
)

['a_2', 'd_0_1_:2', 'd_0_12:2', 'e_1', 'f_1', 'g_0']

मेरा रेगेक्स समकक्ष होगा

def int_maybe(x):
    return int(x) if str(x).isdigit() else x

def split_digits_re(s, case=False):
    parts = re.findall('\d+|\D+', s)
    if not case:
        return map(int_maybe, (x.lower() for x in parts))
    else:
        return map(int_maybe, parts)
    
def natural_key_re(s, *args, **kwargs):
    return tuple(split_digits_re(s, *args, **kwargs))

1
आपका बहुत बहुत धन्यवाद! मैं हालांकि जोड़ना चाहता हूं, अगर आपके पास "12345_A" और "12345_A2" है, तो बाद वाले को पहले से पहले छाँटा जाएगा। यह कम से कम नहीं है कि विंडोज कैसे करता है। फिर भी उपरोक्त समस्या के लिए काम करता है, हालांकि!
मॉर्फस ३६

4

एक विकल्प स्ट्रिंग को टूपल में बदलना और विस्तारित रूप का उपयोग करके अंकों को बदलना है http://wiki.answers.com/Q/What_does_expanded_form_mean

इस तरह a90 बन जाएगा ("ए", 90,0) और ए 1 बन जाएगा ("ए", 1)

नीचे कुछ सैंपल कोड दिए गए हैं (जो कि 0 से नंबर से अग्रणी को हटाने के तरीके के कारण बहुत कुशल नहीं है)

alist=["something1",
    "something12",
    "something17",
    "something2",
    "something25and_then_33",
    "something25and_then_34",
    "something29",
    "beta1.1",
    "beta2.3.0",
    "beta2.33.1",
    "a001",
    "a2",
    "z002",
    "z1"]

def key(k):
    nums=set(list("0123456789"))
        chars=set(list(k))
    chars=chars-nums
    for i in range(len(k)):
        for c in chars:
            k=k.replace(c+"0",c)
    l=list(k)
    base=10
    j=0
    for i in range(len(l)-1,-1,-1):
        try:
            l[i]=int(l[i])*base**j
            j+=1
        except:
            j=0
    l=tuple(l)
    print l
    return l

print sorted(alist,key=key)

उत्पादन:

('s', 'o', 'm', 'e', 't', 'h', 'i', 'n', 'g', 1)
('s', 'o', 'm', 'e', 't', 'h', 'i', 'n', 'g', 10, 2)
('s', 'o', 'm', 'e', 't', 'h', 'i', 'n', 'g', 10, 7)
('s', 'o', 'm', 'e', 't', 'h', 'i', 'n', 'g', 2)
('s', 'o', 'm', 'e', 't', 'h', 'i', 'n', 'g', 20, 5, 'a', 'n', 'd', '_', 't', 'h', 'e', 'n', '_', 30, 3)
('s', 'o', 'm', 'e', 't', 'h', 'i', 'n', 'g', 20, 5, 'a', 'n', 'd', '_', 't', 'h', 'e', 'n', '_', 30, 4)
('s', 'o', 'm', 'e', 't', 'h', 'i', 'n', 'g', 20, 9)
('b', 'e', 't', 'a', 1, '.', 1)
('b', 'e', 't', 'a', 2, '.', 3, '.')
('b', 'e', 't', 'a', 2, '.', 30, 3, '.', 1)
('a', 1)
('a', 2)
('z', 2)
('z', 1)
['a001', 'a2', 'beta1.1', 'beta2.3.0', 'beta2.33.1', 'something1', 'something2', 'something12', 'something17', 'something25and_then_33', 'something25and_then_34', 'something29', 'z1', 'z002']

1
दुर्भाग्य से, यह समाधान केवल पायथन 2.X के लिए काम करता है। पायथन 3 के लिए, ('b', 1) < ('b', 'e', 't', 'a', 1, '.', 1)वापस आ जाएगाTypeError: unorderable types: int() < str()
सेठमोर्टन

@SethMMorgon सही है, यह कोड आसानी से पाइथन में टूट जाता है। 3. प्राकृतिक विकल्प प्रतीत होगा natsort, pypi.org/project/natsort
फ्लोरिअन

3

यहाँ जवाबों के आधार पर, मैंने एक natural_sortedफ़ंक्शन लिखा है जो बिल्ट-इन फ़ंक्शन की तरह व्यवहार करता है sorted:

# Copyright (C) 2018, Benjamin Drung <bdrung@posteo.de>
#
# Permission to use, copy, modify, and/or distribute this software for any
# purpose with or without fee is hereby granted, provided that the above
# copyright notice and this permission notice appear in all copies.
#
# THE SOFTWARE IS PROVIDED "AS IS" AND THE AUTHOR DISCLAIMS ALL WARRANTIES
# WITH REGARD TO THIS SOFTWARE INCLUDING ALL IMPLIED WARRANTIES OF
# MERCHANTABILITY AND FITNESS. IN NO EVENT SHALL THE AUTHOR BE LIABLE FOR
# ANY SPECIAL, DIRECT, INDIRECT, OR CONSEQUENTIAL DAMAGES OR ANY DAMAGES
# WHATSOEVER RESULTING FROM LOSS OF USE, DATA OR PROFITS, WHETHER IN AN
# ACTION OF CONTRACT, NEGLIGENCE OR OTHER TORTIOUS ACTION, ARISING OUT OF
# OR IN CONNECTION WITH THE USE OR PERFORMANCE OF THIS SOFTWARE.

import re

def natural_sorted(iterable, key=None, reverse=False):
    """Return a new naturally sorted list from the items in *iterable*.

    The returned list is in natural sort order. The string is ordered
    lexicographically (using the Unicode code point number to order individual
    characters), except that multi-digit numbers are ordered as a single
    character.

    Has two optional arguments which must be specified as keyword arguments.

    *key* specifies a function of one argument that is used to extract a
    comparison key from each list element: ``key=str.lower``.  The default value
    is ``None`` (compare the elements directly).

    *reverse* is a boolean value.  If set to ``True``, then the list elements are
    sorted as if each comparison were reversed.

    The :func:`natural_sorted` function is guaranteed to be stable. A sort is
    stable if it guarantees not to change the relative order of elements that
    compare equal --- this is helpful for sorting in multiple passes (for
    example, sort by department, then by salary grade).
    """
    prog = re.compile(r"(\d+)")

    def alphanum_key(element):
        """Split given key in list of strings and digits"""
        return [int(c) if c.isdigit() else c for c in prog.split(key(element)
                if key else element)]

    return sorted(iterable, key=alphanum_key, reverse=reverse)

मेरे GitHub स्निपेट रिपॉजिटरी में स्रोत कोड भी उपलब्ध है: https://github.com/bdrung/snippets/blob/master/natural_sorted.py


2

उपर्युक्त उत्तर उस विशिष्ट उदाहरण के लिए अच्छे हैं जो दिखाया गया था, लेकिन प्राकृतिक प्रकार के अधिक सामान्य प्रश्न के लिए कई उपयोगी मामलों को याद करते हैं। मैं बस उन मामलों में से एक के द्वारा बिट गया, इसलिए एक अधिक गहन समाधान बनाया:

def natural_sort_key(string_or_number):
    """
    by Scott S. Lawton <scott@ProductArchitect.com> 2014-12-11; public domain and/or CC0 license

    handles cases where simple 'int' approach fails, e.g.
        ['0.501', '0.55'] floating point with different number of significant digits
        [0.01, 0.1, 1]    already numeric so regex and other string functions won't work (and aren't required)
        ['elm1', 'Elm2']  ASCII vs. letters (not case sensitive)
    """

    def try_float(astring):
        try:
            return float(astring)
        except:
            return astring

    if isinstance(string_or_number, basestring):
        string_or_number = string_or_number.lower()

        if len(re.findall('[.]\d', string_or_number)) <= 1:
            # assume a floating point value, e.g. to correctly sort ['0.501', '0.55']
            # '.' for decimal is locale-specific, e.g. correct for the Anglosphere and Asia but not continental Europe
            return [try_float(s) for s in re.split(r'([\d.]+)', string_or_number)]
        else:
            # assume distinct fields, e.g. IP address, phone number with '.', etc.
            # caveat: might want to first split by whitespace
            # TBD: for unicode, replace isdigit with isdecimal
            return [int(s) if s.isdigit() else s for s in re.split(r'(\d+)', string_or_number)]
    else:
        # consider: add code to recurse for lists/tuples and perhaps other iterables
        return string_or_number

टेस्ट कोड और कई लिंक (StackOverflow पर और बंद) यहाँ हैं: http://productaltect.com/code/better-natural-sort.py

प्रतिक्रिया का स्वागत करते हैं। इसका मतलब निश्चित समाधान नहीं है; बस एक कदम आगे।


आपके परीक्षण स्क्रिप्ट में जिसे आप लिंक करते हैं, natsortedऔर humansortedअसफल हो जाते हैं क्योंकि वे गलत तरीके से उपयोग किए गए थे ... आपने natsortedएक कुंजी के रूप में पारित करने की कोशिश की थी लेकिन वास्तव में यह सॉर्ट फ़ंक्शन ही है। आपको कोशिश करनी चाहिए थी natsort_keygen()
सेठमॉर्टन

2

सबसे अधिक संभावना functools.cmp_to_key()अजगर के प्रकार के अंतर्निहित कार्यान्वयन के साथ निकटता से जुड़ी हुई है। इसके अलावा सी.एम.पी. पैरामीटर विरासत है। आधुनिक तरीका इनपुट वस्तुओं को उन वस्तुओं में बदलना है जो वांछित समृद्ध तुलना संचालन का समर्थन करते हैं।

CPython 2.x के तहत, असमान प्रकार की वस्तुओं को आदेशित किया जा सकता है, भले ही संबंधित समृद्ध तुलना ऑपरेटरों को लागू नहीं किया गया हो। CPython 3.x के तहत, विभिन्न प्रकार की वस्तुओं को स्पष्ट रूप से तुलना का समर्थन करना चाहिए। देखें कि पायथन स्ट्रिंग और इंट की तुलना कैसे करता है? जो आधिकारिक प्रलेखन के लिए लिंक करता है । अधिकांश उत्तर इस अंतर्निहित आदेश पर निर्भर करते हैं। पायथन 3.x पर स्विच करने से संख्याओं और तारों के बीच तुलना को लागू करने और एकजुट करने के लिए एक नए प्रकार की आवश्यकता होगी।

Python 2.7.12 (default, Sep 29 2016, 13:30:34) 
>>> (0,"foo") < ("foo",0)
True  
Python 3.5.2 (default, Oct 14 2016, 12:54:53) 
>>> (0,"foo") < ("foo",0)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  TypeError: unorderable types: int() < str()

तीन अलग-अलग दृष्टिकोण हैं। पायथन की Iterableतुलना एल्गोरिथ्म का लाभ उठाने के लिए पहले नेस्टेड कक्षाओं का उपयोग करता है। दूसरा इस घोंसले को एकल वर्ग में नियंत्रित करता है। strप्रदर्शन पर ध्यान केंद्रित करने के लिए तीसरा अग्रभाग उपवर्ग है। सभी समयबद्ध हैं; दूसरा दोगुना तेज है जबकि तीसरा लगभग छह गुना तेज है। उपवर्गीकरणstr की आवश्यकता नहीं है, और शायद पहली जगह में एक बुरा विचार था, लेकिन यह कुछ निश्चित आवश्यकताओं के साथ आता है।

सॉर्ट वर्णों को केस द्वारा आदेश देने के लिए डुप्लिकेट किया जाता है, और केस-स्वैप को कम केस लेटर को पहले सॉर्ट करने के लिए मजबूर किया जाता है; यह "प्राकृतिक प्रकार" की सामान्य परिभाषा है। मैं समूहीकरण के प्रकार पर निर्णय नहीं ले सका; कुछ निम्नलिखित पसंद कर सकते हैं, जो महत्वपूर्ण प्रदर्शन लाभ भी लाता है:

d = lambda s: s.lower()+s.swapcase()

जहां उपयोग किया जाता है, तुलना संचालकों के लिए निर्धारित किया जाता है objectइसलिए उन्हें नजरअंदाजfunctools.total_ordering नहीं किया जाएगा ।

import functools
import itertools


@functools.total_ordering
class NaturalStringA(str):
    def __repr__(self):
        return "{}({})".format\
            ( type(self).__name__
            , super().__repr__()
            )
    d = lambda c, s: [ c.NaturalStringPart("".join(v))
                        for k,v in
                       itertools.groupby(s, c.isdigit)
                     ]
    d = classmethod(d)
    @functools.total_ordering
    class NaturalStringPart(str):
        d = lambda s: "".join(c.lower()+c.swapcase() for c in s)
        d = staticmethod(d)
        def __lt__(self, other):
            if not isinstance(self, type(other)):
                return NotImplemented
            try:
                return int(self) < int(other)
            except ValueError:
                if self.isdigit():
                    return True
                elif other.isdigit():
                    return False
                else:
                    return self.d(self) < self.d(other)
        def __eq__(self, other):
            if not isinstance(self, type(other)):
                return NotImplemented
            try:
                return int(self) == int(other)
            except ValueError:
                if self.isdigit() or other.isdigit():
                    return False
                else:
                    return self.d(self) == self.d(other)
        __le__ = object.__le__
        __ne__ = object.__ne__
        __gt__ = object.__gt__
        __ge__ = object.__ge__
    def __lt__(self, other):
        return self.d(self) < self.d(other)
    def __eq__(self, other):
        return self.d(self) == self.d(other)
    __le__ = object.__le__
    __ne__ = object.__ne__
    __gt__ = object.__gt__
    __ge__ = object.__ge__
import functools
import itertools


@functools.total_ordering
class NaturalStringB(str):
    def __repr__(self):
        return "{}({})".format\
            ( type(self).__name__
            , super().__repr__()
            )
    d = lambda s: "".join(c.lower()+c.swapcase() for c in s)
    d = staticmethod(d)
    def __lt__(self, other):
        if not isinstance(self, type(other)):
            return NotImplemented
        groups = map(lambda i: itertools.groupby(i, type(self).isdigit), (self, other))
        zipped = itertools.zip_longest(*groups)
        for s,o in zipped:
            if s is None:
                return True
            if o is None:
                return False
            s_k, s_v = s[0], "".join(s[1])
            o_k, o_v = o[0], "".join(o[1])
            if s_k and o_k:
                s_v, o_v = int(s_v), int(o_v)
                if s_v == o_v:
                    continue
                return s_v < o_v
            elif s_k:
                return True
            elif o_k:
                return False
            else:
                s_v, o_v = self.d(s_v), self.d(o_v)
                if s_v == o_v:
                    continue
                return s_v < o_v
        return False
    def __eq__(self, other):
        if not isinstance(self, type(other)):
            return NotImplemented
        groups = map(lambda i: itertools.groupby(i, type(self).isdigit), (self, other))
        zipped = itertools.zip_longest(*groups)
        for s,o in zipped:
            if s is None or o is None:
                return False
            s_k, s_v = s[0], "".join(s[1])
            o_k, o_v = o[0], "".join(o[1])
            if s_k and o_k:
                s_v, o_v = int(s_v), int(o_v)
                if s_v == o_v:
                    continue
                return False
            elif s_k or o_k:
                return False
            else:
                s_v, o_v = self.d(s_v), self.d(o_v)
                if s_v == o_v:
                    continue
                return False
        return True
    __le__ = object.__le__
    __ne__ = object.__ne__
    __gt__ = object.__gt__
    __ge__ = object.__ge__
import functools
import itertools
import enum


class OrderingType(enum.Enum):
    PerWordSwapCase         = lambda s: s.lower()+s.swapcase()
    PerCharacterSwapCase    = lambda s: "".join(c.lower()+c.swapcase() for c in s)


class NaturalOrdering:
    @classmethod
    def by(cls, ordering):
        def wrapper(string):
            return cls(string, ordering)
        return wrapper
    def __init__(self, string, ordering=OrderingType.PerCharacterSwapCase):
        self.string = string
        self.groups = [ (k,int("".join(v)))
                            if k else
                        (k,ordering("".join(v)))
                            for k,v in
                        itertools.groupby(string, str.isdigit)
                      ]
    def __repr__(self):
        return "{}({})".format\
            ( type(self).__name__
            , self.string
            )
    def __lesser(self, other, default):
        if not isinstance(self, type(other)):
            return NotImplemented
        for s,o in itertools.zip_longest(self.groups, other.groups):
            if s is None:
                return True
            if o is None:
                return False
            s_k, s_v = s
            o_k, o_v = o
            if s_k and o_k:
                if s_v == o_v:
                    continue
                return s_v < o_v
            elif s_k:
                return True
            elif o_k:
                return False
            else:
                if s_v == o_v:
                    continue
                return s_v < o_v
        return default
    def __lt__(self, other):
        return self.__lesser(other, default=False)
    def __le__(self, other):
        return self.__lesser(other, default=True)
    def __eq__(self, other):
        if not isinstance(self, type(other)):
            return NotImplemented
        for s,o in itertools.zip_longest(self.groups, other.groups):
            if s is None or o is None:
                return False
            s_k, s_v = s
            o_k, o_v = o
            if s_k and o_k:
                if s_v == o_v:
                    continue
                return False
            elif s_k or o_k:
                return False
            else:
                if s_v == o_v:
                    continue
                return False
        return True
    # functools.total_ordering doesn't create single-call wrappers if both
    # __le__ and __lt__ exist, so do it manually.
    def __gt__(self, other):
        op_result = self.__le__(other)
        if op_result is NotImplemented:
            return op_result
        return not op_result
    def __ge__(self, other):
        op_result = self.__lt__(other)
        if op_result is NotImplemented:
            return op_result
        return not op_result
    # __ne__ is the only implied ordering relationship, it automatically
    # delegates to __eq__
>>> import natsort
>>> import timeit
>>> l1 = ['Apple', 'corn', 'apPlE', 'arbour', 'Corn', 'Banana', 'apple', 'banana']
>>> l2 = list(map(str, range(30)))
>>> l3 = ["{} {}".format(x,y) for x in l1 for y in l2]
>>> print(timeit.timeit('sorted(l3+["0"], key=NaturalStringA)', number=10000, globals=globals()))
362.4729259099986
>>> print(timeit.timeit('sorted(l3+["0"], key=NaturalStringB)', number=10000, globals=globals()))
189.7340817489967
>>> print(timeit.timeit('sorted(l3+["0"], key=NaturalOrdering.by(OrderingType.PerCharacterSwapCase))', number=10000, globals=globals()))
69.34636392899847
>>> print(timeit.timeit('natsort.natsorted(l3+["0"], alg=natsort.ns.GROUPLETTERS | natsort.ns.LOWERCASEFIRST)', number=10000, globals=globals()))
98.2531585780016

प्राकृतिक छँटाई दोनों एक समस्या के रूप में बहुत जटिल और अस्पष्ट रूप से परिभाषित है। unicodedata.normalize(...)पहले से दौड़ना न भूलें , और str.casefold()इसके बजाय उपयोग पर विचार करें str.lower()। वहाँ शायद सूक्ष्म कूटबन्धन मुद्दों पर विचार नहीं किया है। इसलिए मैं अस्थायी रूप से natsort पुस्तकालय की सिफारिश करता हूं । मैंने जीथुब भंडार पर एक त्वरित नज़र डाली; कोड रखरखाव तारकीय रहा है।

मैंने जिन सभी एल्गोरिदम को देखा है वे डुप्लिकेट और लोअरिंग कैरेक्टर और स्वैपिंग केस जैसे ट्रिक्स पर निर्भर हैं। हालांकि यह रनिंग टाइम को दोगुना करता है, एक विकल्प के लिए इनपुट चरित्र सेट पर कुल प्राकृतिक ऑर्डरिंग की आवश्यकता होगी। मुझे नहीं लगता कि यह यूनिकोड विनिर्देशन का हिस्सा है, और चूंकि कई अधिक यूनिकोड अंक हैं [0-9], इस तरह की छंटाई करना समान रूप से चुनौतीपूर्ण होगा। यदि आप स्थानीय-जागरूक तुलना चाहते हैं, तो locale.strxfrmपायथन के सॉर्टिंग हाउ टू के अनुसार अपने तार तैयार करें ।


1

मुझे इस जरूरत पर अपना खुद का जमा करने दें:

from typing import Tuple, Union, Optional, Generator


StrOrInt = Union[str, int]


# On Python 3.6, string concatenation is REALLY fast
# Tested myself, and this fella also tested:
# https://blog.ganssle.io/articles/2019/11/string-concat.html
def griter(s: str) -> Generator[StrOrInt, None, None]:
    last_was_digit: Optional[bool] = None
    cluster: str = ""
    for c in s:
        if last_was_digit is None:
            last_was_digit = c.isdigit()
            cluster += c
            continue
        if c.isdigit() != last_was_digit:
            if last_was_digit:
                yield int(cluster)
            else:
                yield cluster
            last_was_digit = c.isdigit()
            cluster = ""
        cluster += c
    if last_was_digit:
        yield int(cluster)
    else:
        yield cluster
    return


def grouper(s: str) -> Tuple[StrOrInt, ...]:
    return tuple(griter(s))

अब अगर हमारे पास इस तरह की सूची है:

filelist = [
    'File3', 'File007', 'File3a', 'File10', 'File11', 'File1', 'File4', 'File5',
    'File9', 'File8', 'File8b1', 'File8b2', 'File8b11', 'File6'
]

हम बस key=एक प्राकृतिक प्रकार करने के लिए क्वारग का उपयोग कर सकते हैं :

>>> sorted(filelist, key=grouper)
['File1', 'File3', 'File3a', 'File4', 'File5', 'File6', 'File007', 'File8', 
'File8b1', 'File8b2', 'File8b11', 'File9', 'File10', 'File11']

यहाँ खामी जरूर है, क्योंकि अब यह है, यह कार्य निचले अक्षरों से पहले अपरकेस अक्षरों को छाँटेगा।

मैं एक केस-इंसेंटिव ग्रूपर का कार्यान्वयन पाठक पर छोड़ दूंगा :-)


0

मेरा सुझाव है कि आप अपनी वांछित सूची को प्राप्त करने के लिए बस keyखोजशब्द तर्क का उपयोग करें उदाहरण के लिए:sorted

to_order= [e2,E1,e5,E4,e3]
ordered= sorted(to_order, key= lambda x: x.lower())
    # ordered should be [E1,e2,e3,E4,e5]

1
यह अंक नहीं संभालता है। a_51के बाद होगा a500, हालाँकि 500> 51
skjerns

यह सच है, मेरा उत्तर केवल Elm11 और elm1 के दिए गए उदाहरण से मेल खाता है। विशेष रूप से प्राकृतिक प्रकार के लिए अनुरोध को याद किया और चिह्नित उत्तर संभवतः यहां सबसे अच्छा है :)
जॉनी वैकिनिन

0

@Mark बायर्स उत्तर के बाद, यहां एक अनुकूलन है जो keyपैरामीटर को स्वीकार करता है , और अधिक PEP8- अनुरूप है।

def natsorted(seq, key=None):
    def convert(text):
        return int(text) if text.isdigit() else text

    def alphanum(obj):
        if key is not None:
            return [convert(c) for c in re.split(r'([0-9]+)', key(obj))]
        return [convert(c) for c in re.split(r'([0-9]+)', obj)]

    return sorted(seq, key=alphanum)

मैंने एक जिस्ट भी बनाया


(-1) यह उत्तर मार्क की तुलना में कुछ भी नया नहीं लाता है (कोई भी लाइनर PEP8-ify कुछ कोड कर सकता है)। या शायद keyपैरामीटर? लेकिन यह @ बीबुरियर के जवाब में भी अनुकरणीय है
सिप्रियन टोमोयाग

0

मार्क बायर्स के जवाब पर क्लाउडिया के सुधार पर सुधार ;-)

import re

def natural_sort_key(s, _re=re.compile(r'(\d+)')):
    return [int(t) if i & 1 else t.lower() for i, t in enumerate(_re.split(s))]

...
my_naturally_sorted_list = sorted(my_list, key=natural_sort_key)

BTW, शायद सभी को याद नहीं है कि फ़ंक्शन तर्क चूक का मूल्यांकन defसमय पर किया जाता है


-1
a = ['H1', 'H100', 'H10', 'H3', 'H2', 'H6', 'H11', 'H50', 'H5', 'H99', 'H8']
b = ''
c = []

def bubble(bad_list):#bubble sort method
        length = len(bad_list) - 1
        sorted = False

        while not sorted:
                sorted = True
                for i in range(length):
                        if bad_list[i] > bad_list[i+1]:
                                sorted = False
                                bad_list[i], bad_list[i+1] = bad_list[i+1], bad_list[i] #sort the integer list 
                                a[i], a[i+1] = a[i+1], a[i] #sort the main list based on the integer list index value

for a_string in a: #extract the number in the string character by character
        for letter in a_string:
                if letter.isdigit():
                        #print letter
                        b += letter
        c.append(b)
        b = ''

print 'Before sorting....'
print a
c = map(int, c) #converting string list into number list
print c
bubble(c)

print 'After sorting....'
print c
print a

आभार :

बबल सॉर्ट होमवर्क

अजगर में एक समय में एक स्ट्रिंग एक अक्षर कैसे पढ़ें


-2
>>> import re
>>> sorted(lst, key=lambda x: int(re.findall(r'\d+$', x)[0]))
['elm0', 'elm1', 'Elm2', 'elm9', 'elm10', 'Elm11', 'Elm12', 'elm13']

4
आपका कार्यान्वयन केवल संख्या की समस्या को हल करता है। यदि स्ट्रिंग्स में नंबर नहीं हैं तो कार्यान्वयन विफल हो जाता है। उदाहरण के लिए ['मूक', 'भूत'] पर प्रयास करें (सूची सूचकांक सीमा से बाहर)।
snakile

2
@snaklie: आपका प्रश्न सभ्य उदाहरण केस प्रदान करने में विफल रहता है। आपने समझाया नहीं कि आप क्या करने की कोशिश कर रहे हैं, और न ही आपने इस नई जानकारी के साथ अपना प्रश्न अपडेट किया है। आपने कुछ भी पोस्ट नहीं किया है जो आपने कोशिश की है, इसलिए कृपया मेरी टेलीपैथी कोशिश को खारिज न करें।
साइलेंटगॉस्ट

5
@SilentGhost: सबसे पहले, मैंने आपको एक अपवोट दिया क्योंकि मुझे लगता है कि आपका उत्तर उपयोगी है (भले ही यह मेरी समस्या का समाधान नहीं करता है)। दूसरा, मैं सभी संभावित मामलों को उदाहरणों के साथ कवर नहीं कर सकता। मुझे लगता है कि मैंने प्राकृतिक रूप से बहुत स्पष्ट परिभाषा दी है। मुझे नहीं लगता कि इस तरह की सरल अवधारणा के लिए एक जटिल उदाहरण या लंबी परिभाषा देना एक अच्छा विचार है। यदि आप समस्या के लिए बेहतर सूत्रीकरण के बारे में सोच सकते हैं तो आप मेरे प्रश्न को संपादित कर सकते हैं।
13

1
@SilentGhost: मैं इस तरह के तार से उसी तरह से निपटना चाहूंगा जिस तरह से विंडोज ऐसे फ़ाइल नामों से निपटता है जब यह नाम से फ़ाइलों को छांटता है (मामलों की अनदेखी करें, आदि)। यह मुझे स्पष्ट लगता है, लेकिन मैं जो कुछ भी कहता हूं वह मुझे स्पष्ट लगता है, इसलिए मैं यह नहीं आंक रहा हूं कि यह स्पष्ट है या नहीं।
14

1
@snakile आप प्राकृतिक खोज को परिभाषित करने के करीब आ गए हैं। ऐसा करना काफी कठिन होगा और इसके लिए काफी विस्तार की आवश्यकता होगी। यदि आप चाहते हैं कि विंडोज़ एक्सप्लोरर द्वारा उपयोग किए जाने वाले सॉर्ट ऑर्डर क्या आप जानते हैं कि एक साधारण एपीआई कॉल है जो इसे प्रदान करता है?
डेविड हेफर्नन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.