गैर-एएससीआईआई पात्रों से मेल खाने के लिए नियमित अभिव्यक्ति?


237

गैर-एएससीआईआई पात्रों को रेगेक्स में मिलान करने का सबसे आसान तरीका क्या है? मैं एक इनपुट स्ट्रिंग में व्यक्तिगत रूप से सभी शब्दों का मिलान करना चाहूंगा, लेकिन भाषा अंग्रेजी नहीं हो सकती है, इसलिए मुझे ü, ö, ß, और ñ जैसी चीजों का मिलान करना होगा। इसके अलावा, यह जावास्क्रिप्ट / jQuery में है, इसलिए किसी भी समाधान को उस पर लागू करने की आवश्यकता होगी।


1
क्या आप सभी अक्षरों या सभी वर्णों का मिलान करना चाहते हैं? उदाहरण के लिए क्या आप विराम चिह्नों, अंकों, व्हाट्सएप और मनमाने संकेतों और प्रतीकों को शामिल करना चाहते हैं? यह कहते हुए कि आप मैच करना चाहते हैं, यह आपको all wordsलगता है जैसे आप केवल गैर-अंग्रेजी अक्षर चाहते हैं और सभी गैर-अंग्रेजी वर्ण आपके प्रश्न शीर्षक के अनुसार नहीं हैं।
हिप्पिट्रैएल

जवाबों:


253

यह करना चाहिए:

[^\x00-\x7F]+

यह किसी भी वर्ण से मेल खाता है जो ASCII वर्ण सेट (0-127, यानी 0x0 से 0x7F) में समाहित नहीं है ।

आप यूनिकोड के साथ एक ही काम कर सकते हैं:

[^\u0000-\u007F]+

यूनिकोड के लिए आप इस 2 संसाधनों को देख सकते हैं:

  • यूनिकोड पर्वतमाला की कोड चार्ट सूची
  • यह उपकरण यूनिकोड ब्लॉक द्वारा फ़िल्टर किए गए रेगेक्स को बनाने के लिए है।

28
यह गैर-अंग्रेजी वर्णों के साथ शब्दों के मिलान के बारे में इस प्रश्न का उत्तर नहीं देता है ...
sth

34
नहीं है ऐसी कोई बात नहीं के रूप में "एक चरित्र जिसका ASCII कोड 128 से अधिक है" !!!
tchrist

29
मैंने [\u00BF-\u1FFF\u2C00-\uD7FF\w]एक पत्र के रूप में परिभाषित किया।
मार्कस वॉन ब्रॉडी

24
@jackocnr पहले एक छोटा फिक्स: [\u00C0-\u1FFF\u2C00-\uD7FF\w](उल्टे प्रश्न चिह्न के बिना ¿), श्रेणियों के लिए, बीएमपी को देखें । 00C0है Àमें लैटिन -1 अनुपूरक , 1FFFग्रीक का अंतिम वर्ण विस्तारित है 2C00ग्लैगोलिटिक के पहले अक्षर है, और D7FFहंगुल जामो विस्तारित-बी के अंतिम वर्ण है। तो यह सब कुछ छोड़कर है: 2 पहले ब्लॉक पर प्रतीकों और विशेष आकर्षण; मध्य ब्लॉकों में प्रतीक; सरोगेट्स, निजी क्षेत्र और अंत ब्लॉकों में विशेष आकर्षण।
मार्कस वॉन ब्रडी

7
यह उत्तर गलत है। ASCII में U + 0080 PADDING CHARACTER * शामिल नहीं है । यदि ऐसा होता, तो ASCII में 128 के बजाय 129 अक्षर होते।
माथियास ब्यनेंस

159
var words_in_text = function (text) {
    var regex = /([\u0041-\u005A\u0061-\u007A\u00AA\u00B5\u00BA\u00C0-\u00D6\u00D8-\u00F6\u00F8-\u02C1\u02C6-\u02D1\u02E0-\u02E4\u02EC\u02EE\u0370-\u0374\u0376\u0377\u037A-\u037D\u0386\u0388-\u038A\u038C\u038E-\u03A1\u03A3-\u03F5\u03F7-\u0481\u048A-\u0527\u0531-\u0556\u0559\u0561-\u0587\u05D0-\u05EA\u05F0-\u05F2\u0620-\u064A\u066E\u066F\u0671-\u06D3\u06D5\u06E5\u06E6\u06EE\u06EF\u06FA-\u06FC\u06FF\u0710\u0712-\u072F\u074D-\u07A5\u07B1\u07CA-\u07EA\u07F4\u07F5\u07FA\u0800-\u0815\u081A\u0824\u0828\u0840-\u0858\u08A0\u08A2-\u08AC\u0904-\u0939\u093D\u0950\u0958-\u0961\u0971-\u0977\u0979-\u097F\u0985-\u098C\u098F\u0990\u0993-\u09A8\u09AA-\u09B0\u09B2\u09B6-\u09B9\u09BD\u09CE\u09DC\u09DD\u09DF-\u09E1\u09F0\u09F1\u0A05-\u0A0A\u0A0F\u0A10\u0A13-\u0A28\u0A2A-\u0A30\u0A32\u0A33\u0A35\u0A36\u0A38\u0A39\u0A59-\u0A5C\u0A5E\u0A72-\u0A74\u0A85-\u0A8D\u0A8F-\u0A91\u0A93-\u0AA8\u0AAA-\u0AB0\u0AB2\u0AB3\u0AB5-\u0AB9\u0ABD\u0AD0\u0AE0\u0AE1\u0B05-\u0B0C\u0B0F\u0B10\u0B13-\u0B28\u0B2A-\u0B30\u0B32\u0B33\u0B35-\u0B39\u0B3D\u0B5C\u0B5D\u0B5F-\u0B61\u0B71\u0B83\u0B85-\u0B8A\u0B8E-\u0B90\u0B92-\u0B95\u0B99\u0B9A\u0B9C\u0B9E\u0B9F\u0BA3\u0BA4\u0BA8-\u0BAA\u0BAE-\u0BB9\u0BD0\u0C05-\u0C0C\u0C0E-\u0C10\u0C12-\u0C28\u0C2A-\u0C33\u0C35-\u0C39\u0C3D\u0C58\u0C59\u0C60\u0C61\u0C85-\u0C8C\u0C8E-\u0C90\u0C92-\u0CA8\u0CAA-\u0CB3\u0CB5-\u0CB9\u0CBD\u0CDE\u0CE0\u0CE1\u0CF1\u0CF2\u0D05-\u0D0C\u0D0E-\u0D10\u0D12-\u0D3A\u0D3D\u0D4E\u0D60\u0D61\u0D7A-\u0D7F\u0D85-\u0D96\u0D9A-\u0DB1\u0DB3-\u0DBB\u0DBD\u0DC0-\u0DC6\u0E01-\u0E30\u0E32\u0E33\u0E40-\u0E46\u0E81\u0E82\u0E84\u0E87\u0E88\u0E8A\u0E8D\u0E94-\u0E97\u0E99-\u0E9F\u0EA1-\u0EA3\u0EA5\u0EA7\u0EAA\u0EAB\u0EAD-\u0EB0\u0EB2\u0EB3\u0EBD\u0EC0-\u0EC4\u0EC6\u0EDC-\u0EDF\u0F00\u0F40-\u0F47\u0F49-\u0F6C\u0F88-\u0F8C\u1000-\u102A\u103F\u1050-\u1055\u105A-\u105D\u1061\u1065\u1066\u106E-\u1070\u1075-\u1081\u108E\u10A0-\u10C5\u10C7\u10CD\u10D0-\u10FA\u10FC-\u1248\u124A-\u124D\u1250-\u1256\u1258\u125A-\u125D\u1260-\u1288\u128A-\u128D\u1290-\u12B0\u12B2-\u12B5\u12B8-\u12BE\u12C0\u12C2-\u12C5\u12C8-\u12D6\u12D8-\u1310\u1312-\u1315\u1318-\u135A\u1380-\u138F\u13A0-\u13F4\u1401-\u166C\u166F-\u167F\u1681-\u169A\u16A0-\u16EA\u1700-\u170C\u170E-\u1711\u1720-\u1731\u1740-\u1751\u1760-\u176C\u176E-\u1770\u1780-\u17B3\u17D7\u17DC\u1820-\u1877\u1880-\u18A8\u18AA\u18B0-\u18F5\u1900-\u191C\u1950-\u196D\u1970-\u1974\u1980-\u19AB\u19C1-\u19C7\u1A00-\u1A16\u1A20-\u1A54\u1AA7\u1B05-\u1B33\u1B45-\u1B4B\u1B83-\u1BA0\u1BAE\u1BAF\u1BBA-\u1BE5\u1C00-\u1C23\u1C4D-\u1C4F\u1C5A-\u1C7D\u1CE9-\u1CEC\u1CEE-\u1CF1\u1CF5\u1CF6\u1D00-\u1DBF\u1E00-\u1F15\u1F18-\u1F1D\u1F20-\u1F45\u1F48-\u1F4D\u1F50-\u1F57\u1F59\u1F5B\u1F5D\u1F5F-\u1F7D\u1F80-\u1FB4\u1FB6-\u1FBC\u1FBE\u1FC2-\u1FC4\u1FC6-\u1FCC\u1FD0-\u1FD3\u1FD6-\u1FDB\u1FE0-\u1FEC\u1FF2-\u1FF4\u1FF6-\u1FFC\u2071\u207F\u2090-\u209C\u2102\u2107\u210A-\u2113\u2115\u2119-\u211D\u2124\u2126\u2128\u212A-\u212D\u212F-\u2139\u213C-\u213F\u2145-\u2149\u214E\u2183\u2184\u2C00-\u2C2E\u2C30-\u2C5E\u2C60-\u2CE4\u2CEB-\u2CEE\u2CF2\u2CF3\u2D00-\u2D25\u2D27\u2D2D\u2D30-\u2D67\u2D6F\u2D80-\u2D96\u2DA0-\u2DA6\u2DA8-\u2DAE\u2DB0-\u2DB6\u2DB8-\u2DBE\u2DC0-\u2DC6\u2DC8-\u2DCE\u2DD0-\u2DD6\u2DD8-\u2DDE\u2E2F\u3005\u3006\u3031-\u3035\u303B\u303C\u3041-\u3096\u309D-\u309F\u30A1-\u30FA\u30FC-\u30FF\u3105-\u312D\u3131-\u318E\u31A0-\u31BA\u31F0-\u31FF\u3400-\u4DB5\u4E00-\u9FCC\uA000-\uA48C\uA4D0-\uA4FD\uA500-\uA60C\uA610-\uA61F\uA62A\uA62B\uA640-\uA66E\uA67F-\uA697\uA6A0-\uA6E5\uA717-\uA71F\uA722-\uA788\uA78B-\uA78E\uA790-\uA793\uA7A0-\uA7AA\uA7F8-\uA801\uA803-\uA805\uA807-\uA80A\uA80C-\uA822\uA840-\uA873\uA882-\uA8B3\uA8F2-\uA8F7\uA8FB\uA90A-\uA925\uA930-\uA946\uA960-\uA97C\uA984-\uA9B2\uA9CF\uAA00-\uAA28\uAA40-\uAA42\uAA44-\uAA4B\uAA60-\uAA76\uAA7A\uAA80-\uAAAF\uAAB1\uAAB5\uAAB6\uAAB9-\uAABD\uAAC0\uAAC2\uAADB-\uAADD\uAAE0-\uAAEA\uAAF2-\uAAF4\uAB01-\uAB06\uAB09-\uAB0E\uAB11-\uAB16\uAB20-\uAB26\uAB28-\uAB2E\uABC0-\uABE2\uAC00-\uD7A3\uD7B0-\uD7C6\uD7CB-\uD7FB\uF900-\uFA6D\uFA70-\uFAD9\uFB00-\uFB06\uFB13-\uFB17\uFB1D\uFB1F-\uFB28\uFB2A-\uFB36\uFB38-\uFB3C\uFB3E\uFB40\uFB41\uFB43\uFB44\uFB46-\uFBB1\uFBD3-\uFD3D\uFD50-\uFD8F\uFD92-\uFDC7\uFDF0-\uFDFB\uFE70-\uFE74\uFE76-\uFEFC\uFF21-\uFF3A\uFF41-\uFF5A\uFF66-\uFFBE\uFFC2-\uFFC7\uFFCA-\uFFCF\uFFD2-\uFFD7\uFFDA-\uFFDC]+)/g;
    return text.match(regex);
};

words_in_text('Düsseldorf, Köln, Москва, 北京市, إسرائيل !@#$');

// returns array ["Düsseldorf", "Köln", "Москва", "北京市", "إسرائيل"]

यह रेगेक्स किसी भी भाषा के पाठ के सभी शब्दों से मेल खाएगा ...


61
यह जादू टोना आपने हमारे साथ साझा किया है ...: v
ल्यूक माधंगा

9
आप इतने आश्वस्त क्यों हैं कि यह पाठ के सभी शब्दों से मेल खाता है? कोई स्रोत?
ड्यूमित्रु

7
क्या आप इसके लिए कोई स्रोत बता सकते हैं? मुझे यह देखना अच्छा लगेगा कि यह रेगेक्स एक साथ कैसे आया।
रेडियोविजुअल

3
@dumitru यहाँ कुछ स्रोत है: fileformat.info/info/unicode/block/index.htm
ESL

7
सभी भाषाओं में सभी वर्णों से मेल खाता है[\u00A0-\uD7FF\uF900-\uFDCF\uFDF0-\uFFEF]
STEEL

80

Regexes, Unicode और Javascript के साथ स्थिति बेकार है। यह हास्यास्पद है कि प्रोग्रामर को यह मानने के लिए बाहरी पुस्तकालयों पर निर्भर होना चाहिए कि "φλousα" एक शब्द है, या यहां तक ​​कि "é" एक पत्र है।

लेकिन ऐसा होता है।

इस आदमी ने जावास्क्रिप्ट रीपेक्स में यूनिकोड को संभालने के लिए एक अच्छी लाइब्रेरी लिखी है:

http://blog.stevenlevithan.com/archives/javascript-regex-and-unicode

यूनिकोड सामान इस regex लाइब्रेरी के लिए एक प्लगइन है:

http://xregexp.com/

यहां यूनिकोड एक्सटेंशन के बारे में एक पोस्ट दी गई है:

http://blog.stevenlevithan.com/archives/xregexp-unicode-plugin

और खुद एक्सटेंशन पेज:

http://xregexp.com/plugins/

महान काम है, लेकिन यह अभी भी मुझे पता है कि जावास्क्रिप्ट इस संबंध में बहुत पीछे है।

(उन्होंने इस विषय के बारे में ओ'रेली के लिए एक पुस्तक लिखी है, इसलिए यह बहुत संभव है कि वह जानते हैं कि वह किस बारे में बात कर रहे हैं।)

जिस तरह से उन्होंने इसे लागू किया वह कुछ गुणों के साथ वर्णों की तालिकाओं को जोड़कर है। फिर, जब आप अपने पुस्तकालय के साथ एक रेगेक्स का विरोध करते हैं, तो उसके \p{charclass}साथ प्रतिस्थापित हो जाता है [allthecharactersintheclass]


1
ट्विटर पर एक अच्छा टेक्स्ट पार्सिंग लाइब्रेरी भी है जो बहुत सारी भाषाओं को कवर करती है, हालाँकि (जाहिर है) बहुत हैशटैग-केंद्रित: github.com/twitter/twitter-text-js
माइकल मार्श

53

यूनिकोड प्रॉपर्टी एस्केप ES2018 की विशेषताओं में से हैं।

मूल उपयोग

यूनिकोड प्रॉपर्टी एस्केड्स के साथ, आप निम्नलिखित सरल नियमित अभिव्यक्ति के साथ किसी भी भाषा के पत्र का मिलान कर सकते हैं:

/\p{Letter}/u

या आशुलिपि के साथ, यहां तक ​​कि terser:

/\p{L}/u

शब्दों का मिलान

सवाल का ठोस उपयोग के मामले (मिलान शब्द), ध्यान दें कि आप, चरित्र कक्षाओं में यूनिकोड संपत्ति पलायन उपयोग कर सकते हैं यह आसान पत्र से मिलान करने के बनाने के बारे में एक साथ हाइफ़न जैसे अन्य शब्द-पात्रों के साथ:

/[\p{L}-]/u

इसे सभी को एक साथ सिलाई करते हुए, आप इस सुंदर संक्षिप्त रूप से सभी [1] भाषाओं के शब्दों का मिलान कर सकते हैं :

/([\p{L}-]+)/ug

उदाहरण (बेशर्मी से ऊपर के उत्तर से प्लग किया गया ):

'Düsseldorf, Köln, Москва, 北京市, إسرائيل !@#$'.match(/([\p{L}-]+)/ug)

// ["Düsseldorf", "Köln", "Москва", "北京市", "إسرائيل"]

[१] ध्यान दें कि मैं भाषाओं का विशेषज्ञ नहीं हूँ। आप अभी भी अन्य वर्णों के बारे में अपने स्वयं के शोध करना चाह सकते हैं जोअक्षरों और हाइफ़न के अलावा शब्दों का हिस्सा हो सकते हैं।

ब्राउज़र का समर्थन

अब (दिसंबर 2018) के अनुसार, मैं केवल क्रोम में (और अन्य ब्लिंक-आधारित ब्राउज़र, जैसे ओपेरा, विवाल्डी या माइक्रोसॉफ्ट एज के भविष्य के संस्करणों के रूप में) इस रेगेक्स का सफलतापूर्वक परीक्षण कर सकता हूं और सफारी (संस्करण 12 के अनुसार, पहले संस्करण 11 के साथ टेस्ट अनुत्तीर्ण होना)। हालांकि, चूंकि विनिर्देश समाप्त हो गया है और सुविधा मानकीकृत है, उम्मीद है कि अन्य आधुनिक ब्राउज़र जल्द ही पालन करेंगे।

मैंने आपके लिए यह जांचने के लिए एक छोटी वेबसाइट बनाई है कि क्या आपका ब्राउज़र यूनिकोड प्रॉपर्टी एस्के को सपोर्ट करता है।

Transpiling

यूनिकोड प्रॉपर्टी एस्केड्स को ईएस 5 के साथ रेपेक्सपु नामक टूल के साथ ट्रांसप्लड किया जा सकता है । यहां एक ऑनलाइन डेमो उपलब्ध है । जैसा कि आप डेमो में देख सकते हैं, आप वास्तव में निम्नलिखित के साथ आज गैर-लैटिन अक्षरों से मेल खा सकते हैं (बहुत लंबे) ES5 नियमित अभिव्यक्ति:

/(?:[A-Za-z\xAA\xB5\xBA\xC0-\xD6\xD8-\xF6\xF8-\u02C1\u02C6-\u02D1\u02E0-\u02E4\u02EC\u02EE\u0370-\u0374\u0376\u0377\u037A-\u037D\u037F\u0386\u0388-\u038A\u038C\u038E-\u03A1\u03A3-\u03F5\u03F7-\u0481\u048A-\u052F\u0531-\u0556\u0559\u0561-\u0587\u05D0-\u05EA\u05F0-\u05F2\u0620-\u064A\u066E\u066F\u0671-\u06D3\u06D5\u06E5\u06E6\u06EE\u06EF\u06FA-\u06FC\u06FF\u0710\u0712-\u072F\u074D-\u07A5\u07B1\u07CA-\u07EA\u07F4\u07F5\u07FA\u0800-\u0815\u081A\u0824\u0828\u0840-\u0858\u0860-\u086A\u08A0-\u08B4\u08B6-\u08BD\u0904-\u0939\u093D\u0950\u0958-\u0961\u0971-\u0980\u0985-\u098C\u098F\u0990\u0993-\u09A8\u09AA-\u09B0\u09B2\u09B6-\u09B9\u09BD\u09CE\u09DC\u09DD\u09DF-\u09E1\u09F0\u09F1\u09FC\u0A05-\u0A0A\u0A0F\u0A10\u0A13-\u0A28\u0A2A-\u0A30\u0A32\u0A33\u0A35\u0A36\u0A38\u0A39\u0A59-\u0A5C\u0A5E\u0A72-\u0A74\u0A85-\u0A8D\u0A8F-\u0A91\u0A93-\u0AA8\u0AAA-\u0AB0\u0AB2\u0AB3\u0AB5-\u0AB9\u0ABD\u0AD0\u0AE0\u0AE1\u0AF9\u0B05-\u0B0C\u0B0F\u0B10\u0B13-\u0B28\u0B2A-\u0B30\u0B32\u0B33\u0B35-\u0B39\u0B3D\u0B5C\u0B5D\u0B5F-\u0B61\u0B71\u0B83\u0B85-\u0B8A\u0B8E-\u0B90\u0B92-\u0B95\u0B99\u0B9A\u0B9C\u0B9E\u0B9F\u0BA3\u0BA4\u0BA8-\u0BAA\u0BAE-\u0BB9\u0BD0\u0C05-\u0C0C\u0C0E-\u0C10\u0C12-\u0C28\u0C2A-\u0C39\u0C3D\u0C58-\u0C5A\u0C60\u0C61\u0C80\u0C85-\u0C8C\u0C8E-\u0C90\u0C92-\u0CA8\u0CAA-\u0CB3\u0CB5-\u0CB9\u0CBD\u0CDE\u0CE0\u0CE1\u0CF1\u0CF2\u0D05-\u0D0C\u0D0E-\u0D10\u0D12-\u0D3A\u0D3D\u0D4E\u0D54-\u0D56\u0D5F-\u0D61\u0D7A-\u0D7F\u0D85-\u0D96\u0D9A-\u0DB1\u0DB3-\u0DBB\u0DBD\u0DC0-\u0DC6\u0E01-\u0E30\u0E32\u0E33\u0E40-\u0E46\u0E81\u0E82\u0E84\u0E87\u0E88\u0E8A\u0E8D\u0E94-\u0E97\u0E99-\u0E9F\u0EA1-\u0EA3\u0EA5\u0EA7\u0EAA\u0EAB\u0EAD-\u0EB0\u0EB2\u0EB3\u0EBD\u0EC0-\u0EC4\u0EC6\u0EDC-\u0EDF\u0F00\u0F40-\u0F47\u0F49-\u0F6C\u0F88-\u0F8C\u1000-\u102A\u103F\u1050-\u1055\u105A-\u105D\u1061\u1065\u1066\u106E-\u1070\u1075-\u1081\u108E\u10A0-\u10C5\u10C7\u10CD\u10D0-\u10FA\u10FC-\u1248\u124A-\u124D\u1250-\u1256\u1258\u125A-\u125D\u1260-\u1288\u128A-\u128D\u1290-\u12B0\u12B2-\u12B5\u12B8-\u12BE\u12C0\u12C2-\u12C5\u12C8-\u12D6\u12D8-\u1310\u1312-\u1315\u1318-\u135A\u1380-\u138F\u13A0-\u13F5\u13F8-\u13FD\u1401-\u166C\u166F-\u167F\u1681-\u169A\u16A0-\u16EA\u16F1-\u16F8\u1700-\u170C\u170E-\u1711\u1720-\u1731\u1740-\u1751\u1760-\u176C\u176E-\u1770\u1780-\u17B3\u17D7\u17DC\u1820-\u1877\u1880-\u1884\u1887-\u18A8\u18AA\u18B0-\u18F5\u1900-\u191E\u1950-\u196D\u1970-\u1974\u1980-\u19AB\u19B0-\u19C9\u1A00-\u1A16\u1A20-\u1A54\u1AA7\u1B05-\u1B33\u1B45-\u1B4B\u1B83-\u1BA0\u1BAE\u1BAF\u1BBA-\u1BE5\u1C00-\u1C23\u1C4D-\u1C4F\u1C5A-\u1C7D\u1C80-\u1C88\u1CE9-\u1CEC\u1CEE-\u1CF1\u1CF5\u1CF6\u1D00-\u1DBF\u1E00-\u1F15\u1F18-\u1F1D\u1F20-\u1F45\u1F48-\u1F4D\u1F50-\u1F57\u1F59\u1F5B\u1F5D\u1F5F-\u1F7D\u1F80-\u1FB4\u1FB6-\u1FBC\u1FBE\u1FC2-\u1FC4\u1FC6-\u1FCC\u1FD0-\u1FD3\u1FD6-\u1FDB\u1FE0-\u1FEC\u1FF2-\u1FF4\u1FF6-\u1FFC\u2071\u207F\u2090-\u209C\u2102\u2107\u210A-\u2113\u2115\u2119-\u211D\u2124\u2126\u2128\u212A-\u212D\u212F-\u2139\u213C-\u213F\u2145-\u2149\u214E\u2183\u2184\u2C00-\u2C2E\u2C30-\u2C5E\u2C60-\u2CE4\u2CEB-\u2CEE\u2CF2\u2CF3\u2D00-\u2D25\u2D27\u2D2D\u2D30-\u2D67\u2D6F\u2D80-\u2D96\u2DA0-\u2DA6\u2DA8-\u2DAE\u2DB0-\u2DB6\u2DB8-\u2DBE\u2DC0-\u2DC6\u2DC8-\u2DCE\u2DD0-\u2DD6\u2DD8-\u2DDE\u2E2F\u3005\u3006\u3031-\u3035\u303B\u303C\u3041-\u3096\u309D-\u309F\u30A1-\u30FA\u30FC-\u30FF\u3105-\u312E\u3131-\u318E\u31A0-\u31BA\u31F0-\u31FF\u3400-\u4DB5\u4E00-\u9FEA\uA000-\uA48C\uA4D0-\uA4FD\uA500-\uA60C\uA610-\uA61F\uA62A\uA62B\uA640-\uA66E\uA67F-\uA69D\uA6A0-\uA6E5\uA717-\uA71F\uA722-\uA788\uA78B-\uA7AE\uA7B0-\uA7B7\uA7F7-\uA801\uA803-\uA805\uA807-\uA80A\uA80C-\uA822\uA840-\uA873\uA882-\uA8B3\uA8F2-\uA8F7\uA8FB\uA8FD\uA90A-\uA925\uA930-\uA946\uA960-\uA97C\uA984-\uA9B2\uA9CF\uA9E0-\uA9E4\uA9E6-\uA9EF\uA9FA-\uA9FE\uAA00-\uAA28\uAA40-\uAA42\uAA44-\uAA4B\uAA60-\uAA76\uAA7A\uAA7E-\uAAAF\uAAB1\uAAB5\uAAB6\uAAB9-\uAABD\uAAC0\uAAC2\uAADB-\uAADD\uAAE0-\uAAEA\uAAF2-\uAAF4\uAB01-\uAB06\uAB09-\uAB0E\uAB11-\uAB16\uAB20-\uAB26\uAB28-\uAB2E\uAB30-\uAB5A\uAB5C-\uAB65\uAB70-\uABE2\uAC00-\uD7A3\uD7B0-\uD7C6\uD7CB-\uD7FB\uF900-\uFA6D\uFA70-\uFAD9\uFB00-\uFB06\uFB13-\uFB17\uFB1D\uFB1F-\uFB28\uFB2A-\uFB36\uFB38-\uFB3C\uFB3E\uFB40\uFB41\uFB43\uFB44\uFB46-\uFBB1\uFBD3-\uFD3D\uFD50-\uFD8F\uFD92-\uFDC7\uFDF0-\uFDFB\uFE70-\uFE74\uFE76-\uFEFC\uFF21-\uFF3A\uFF41-\uFF5A\uFF66-\uFFBE\uFFC2-\uFFC7\uFFCA-\uFFCF\uFFD2-\uFFD7\uFFDA-\uFFDC]|\uD800[\uDC00-\uDC0B\uDC0D-\uDC26\uDC28-\uDC3A\uDC3C\uDC3D\uDC3F-\uDC4D\uDC50-\uDC5D\uDC80-\uDCFA\uDE80-\uDE9C\uDEA0-\uDED0\uDF00-\uDF1F\uDF2D-\uDF40\uDF42-\uDF49\uDF50-\uDF75\uDF80-\uDF9D\uDFA0-\uDFC3\uDFC8-\uDFCF]|\uD801[\uDC00-\uDC9D\uDCB0-\uDCD3\uDCD8-\uDCFB\uDD00-\uDD27\uDD30-\uDD63\uDE00-\uDF36\uDF40-\uDF55\uDF60-\uDF67]|\uD802[\uDC00-\uDC05\uDC08\uDC0A-\uDC35\uDC37\uDC38\uDC3C\uDC3F-\uDC55\uDC60-\uDC76\uDC80-\uDC9E\uDCE0-\uDCF2\uDCF4\uDCF5\uDD00-\uDD15\uDD20-\uDD39\uDD80-\uDDB7\uDDBE\uDDBF\uDE00\uDE10-\uDE13\uDE15-\uDE17\uDE19-\uDE33\uDE60-\uDE7C\uDE80-\uDE9C\uDEC0-\uDEC7\uDEC9-\uDEE4\uDF00-\uDF35\uDF40-\uDF55\uDF60-\uDF72\uDF80-\uDF91]|\uD803[\uDC00-\uDC48\uDC80-\uDCB2\uDCC0-\uDCF2]|\uD804[\uDC03-\uDC37\uDC83-\uDCAF\uDCD0-\uDCE8\uDD03-\uDD26\uDD50-\uDD72\uDD76\uDD83-\uDDB2\uDDC1-\uDDC4\uDDDA\uDDDC\uDE00-\uDE11\uDE13-\uDE2B\uDE80-\uDE86\uDE88\uDE8A-\uDE8D\uDE8F-\uDE9D\uDE9F-\uDEA8\uDEB0-\uDEDE\uDF05-\uDF0C\uDF0F\uDF10\uDF13-\uDF28\uDF2A-\uDF30\uDF32\uDF33\uDF35-\uDF39\uDF3D\uDF50\uDF5D-\uDF61]|\uD805[\uDC00-\uDC34\uDC47-\uDC4A\uDC80-\uDCAF\uDCC4\uDCC5\uDCC7\uDD80-\uDDAE\uDDD8-\uDDDB\uDE00-\uDE2F\uDE44\uDE80-\uDEAA\uDF00-\uDF19]|\uD806[\uDCA0-\uDCDF\uDCFF\uDE00\uDE0B-\uDE32\uDE3A\uDE50\uDE5C-\uDE83\uDE86-\uDE89\uDEC0-\uDEF8]|\uD807[\uDC00-\uDC08\uDC0A-\uDC2E\uDC40\uDC72-\uDC8F\uDD00-\uDD06\uDD08\uDD09\uDD0B-\uDD30\uDD46]|\uD808[\uDC00-\uDF99]|\uD809[\uDC80-\uDD43]|[\uD80C\uD81C-\uD820\uD840-\uD868\uD86A-\uD86C\uD86F-\uD872\uD874-\uD879][\uDC00-\uDFFF]|\uD80D[\uDC00-\uDC2E]|\uD811[\uDC00-\uDE46]|\uD81A[\uDC00-\uDE38\uDE40-\uDE5E\uDED0-\uDEED\uDF00-\uDF2F\uDF40-\uDF43\uDF63-\uDF77\uDF7D-\uDF8F]|\uD81B[\uDF00-\uDF44\uDF50\uDF93-\uDF9F\uDFE0\uDFE1]|\uD821[\uDC00-\uDFEC]|\uD822[\uDC00-\uDEF2]|\uD82C[\uDC00-\uDD1E\uDD70-\uDEFB]|\uD82F[\uDC00-\uDC6A\uDC70-\uDC7C\uDC80-\uDC88\uDC90-\uDC99]|\uD835[\uDC00-\uDC54\uDC56-\uDC9C\uDC9E\uDC9F\uDCA2\uDCA5\uDCA6\uDCA9-\uDCAC\uDCAE-\uDCB9\uDCBB\uDCBD-\uDCC3\uDCC5-\uDD05\uDD07-\uDD0A\uDD0D-\uDD14\uDD16-\uDD1C\uDD1E-\uDD39\uDD3B-\uDD3E\uDD40-\uDD44\uDD46\uDD4A-\uDD50\uDD52-\uDEA5\uDEA8-\uDEC0\uDEC2-\uDEDA\uDEDC-\uDEFA\uDEFC-\uDF14\uDF16-\uDF34\uDF36-\uDF4E\uDF50-\uDF6E\uDF70-\uDF88\uDF8A-\uDFA8\uDFAA-\uDFC2\uDFC4-\uDFCB]|\uD83A[\uDC00-\uDCC4\uDD00-\uDD43]|\uD83B[\uDE00-\uDE03\uDE05-\uDE1F\uDE21\uDE22\uDE24\uDE27\uDE29-\uDE32\uDE34-\uDE37\uDE39\uDE3B\uDE42\uDE47\uDE49\uDE4B\uDE4D-\uDE4F\uDE51\uDE52\uDE54\uDE57\uDE59\uDE5B\uDE5D\uDE5F\uDE61\uDE62\uDE64\uDE67-\uDE6A\uDE6C-\uDE72\uDE74-\uDE77\uDE79-\uDE7C\uDE7E\uDE80-\uDE89\uDE8B-\uDE9B\uDEA1-\uDEA3\uDEA5-\uDEA9\uDEAB-\uDEBB]|\uD869[\uDC00-\uDED6\uDF00-\uDFFF]|\uD86D[\uDC00-\uDF34\uDF40-\uDFFF]|\uD86E[\uDC00-\uDC1D\uDC20-\uDFFF]|\uD873[\uDC00-\uDEA1\uDEB0-\uDFFF]|\uD87A[\uDC00-\uDFE0]|\uD87E[\uDC00-\uDE1D])/

यदि आप Babel का उपयोग कर रहे हैं, तो उसके लिए भी एक रेगेक्स-पावर्ड प्लगइन है ( Babel v6 plugin , Babel v7 plugin )।


मेरे मामले में यह वास्तविक समाधान है। विशेष रूप से: [\ p {L} \ s \ d] किसी भी भाषा में रिक्त स्थान और संख्या के साथ किसी भी नाम को स्वीकार करने के लिए। Ref लिंक
tuxErrante

नाम में अभी भी हाइफ़न शामिल हो सकते हैं (उदाहरण के लिए जर्मनी में काफी सामान्य)। ईमानदार होने के लिए, यह संभवतः सबसे अच्छा है कि किसी भी चरित्र को मान्य नाम शामिल करने के बारे में कोई भी धारणा न बनाएं।
लीलो

1
जेएस के लिए शीर्ष उत्तर। आज भी एज / फ़ायरफ़ॉक्स में समर्थित नहीं है, इसलिए ट्रांसप्लिंग स्टिल प्रासंगिक है।
बैरी Staes

1
यह फ़ायरफ़ॉक्स सुविधा अनुरोध है: Bugzilla.mozilla.org/show_bug.cgi?id=1361876
bodo

1
@MatzHeri uध्वज को ES2015 में पेश किया गया है और यह यूनिकोड से संबंधित विभिन्न विशेषताओं को सक्षम करता है (जैसे कि संपत्ति मेरे उत्तर में उल्लिखित है, भले ही वे केवल कुछ साल बाद पेश किए गए हों)। चूंकि यूनिकोड से संबंधित विशेषताएं कुछ रेगेक्स पैटर्न के शब्दार्थों को थोड़ा बदल देती हैं, इसलिए इस uध्वज को जोड़कर स्पष्ट रूप से सक्षम होना चाहिए ।
Loilo

14

जेरेमी रुटेन द्वारा दिया गया उत्तर बहुत अच्छा है, लेकिन मुझे लगता है कि पॉल विक्स ने वास्तव में यह नहीं खोजा था। अगर मैं सही ढंग से समझूं तो पॉल ने गैर-अंग्रेजी शब्दों जैसे könnenया से मेल करने के लिए अभिव्यक्ति के बारे में पूछा móc। जेरेमी का रेगेक्स केवल गैर-अंग्रेजी अक्षरों से मेल खाता है, इसलिए छोटे सुधार की आवश्यकता है:

([^\x00-\x7F]|\w)+

या

([^\u0000-\u007F]|\w)+

यह [^\x00-\x7F]और यह [^\u0000-\u007F]भाग गैर-अंग्रेजी अक्षरों से मेल करने के लिए रेगुलर अभिव्यक्ति की अनुमति देता है।

यह (|)तार्किक है या \wअंग्रेजी अक्षर है, इसलिए ([^\u0000-\u007F]|\w)एकल अंग्रेजी या गैर-अंग्रेजी अक्षर से मेल खाएगा।

+ अभिव्यक्ति के अंत में इसका मतलब है कि इसे दोहराया जा सकता है, इसलिए पूरी अभिव्यक्ति सभी अंग्रेजी या गैर-अंग्रेजी अक्षरों को मिलान करने की अनुमति देती है।

यहां आप विभिन्न स्ट्रिंग्स के साथ पहली अभिव्यक्ति का परीक्षण कर सकते हैं और यहां दूसरा है।


6

आप उसी तरह से करते हैं जैसे कोई अन्य वर्ण मिलान करता है, लेकिन आप \ uXXXX का उपयोग करते हैं जहां XXXX वर्ण की यूनिकोड संख्या है।

यहां देखें: http://unicode.org/charts/charindex.html

http://unicode.org/charts/

http://www.decodeunicode.org/


इस तथ्य को छोड़कर कि किसी विशेष प्रतीकों, जैसे कि रिक्त स्थान, विराम चिह्न इत्यादि को जोड़ते समय प्रत्येक वस्तु को एक चरित्र कहा जा सकता है, जिसे देखना एक कार्य है।
My1

3

सभी यूनिकोड-सक्षम रेगेक्स फ्लेवर में एक विशेष वर्ण वर्ग होना चाहिए जैसे कि किसी भी यूनिकोड पत्र से मेल खाता हो। यहां अपने विशिष्ट स्वाद पर एक नज़र डालें ।


7
यह रेगेक्स के अधिकांश स्वादों के लिए सही है, लेकिन जावास्क्रिप्ट के लिए नहीं, कम से कम नियमित रूप से-expressions.info/javascript.html के
पॉल विक्स

फिर बदकिस्मती, मुझे लगता है। कम से कम आप अपने पात्रों को खोजने के लिए
ओलले

मुझे लगता है कि \ w क्लाइंट पर सांस्कृतिक सेटिंग्स पर निर्भर है।
troelskn

मुझे नहीं पता, लेकिन .NET में, आप हमेशा अपनी इच्छित संस्कृति को निर्दिष्ट कर सकते हैं। इसके अलावा, एक पत्र क्या है और यूनिकोड मानक में क्या परिभाषित किया गया है और संस्कृति पर निर्भर नहीं है।
ओरेगनगॉस्ट सिप

0

मुझे उम्मीद के मुताबिक काम करने में समस्या थी , इसलिए मैंने एक अलग रणनीति का इस्तेमाल किया:

([^\t]+)\t

कुछ भी ढूंढें जो अगले टैब वर्ण तक एक टैब वर्ण नहीं है ... स्पष्ट रूप से यह आपके खोज स्रोत पर निर्भर करता है, लेकिन आपको विचार मिलता है। अब मुझे यह पता लगाने की जरूरत नहीं है कि यूनिकोड वर्ण क्या काम करते हैं और क्या काम नहीं करते हैं आदि।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.