मैं regex का उपयोग करके जावास्क्रिप्ट में स्ट्रिंग से सभी विराम चिह्न कैसे छीन सकता हूं?


152

यदि मेरे पास किसी भी प्रकार के गैर-अल्फ़ान्यूमेरिक वर्ण के साथ एक स्ट्रिंग है:

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"

मुझे जावास्क्रिप्ट में इसका कोई विराम चिह्न संस्करण कैसे मिलेगा:

"This is an example of a string with punctuation"

जवाबों:


211

यदि आप किसी स्ट्रिंग से विशिष्ट विराम चिह्न को हटाना चाहते हैं, तो संभवत: आप जैसा चाहते हैं, वैसा ही स्पष्ट रूप से निकालना सबसे अच्छा होगा

replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"")

जैसा कि आपने इसे निर्दिष्ट किया है, उपरोक्त स्ट्रिंग अभी भी वापस नहीं करता है। यदि आप किसी भी अतिरिक्त रिक्त स्थान को हटाना चाहते हैं जो पागल विचलन को हटाने से बचा हुआ था, तो आप कुछ ऐसा करना चाहते हैं

replace(/\s{2,}/g," ");

मेरा पूरा उदाहरण:

var s = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var punctuationless = s.replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"");
var finalString = punctuationless.replace(/\s{2,}/g," ");

फायरबग कंसोल में कोड चलाने के परिणाम:

वैकल्पिक शब्द


4
रीगेक्स में घुंघराले ब्रेसिज़ पूर्ववर्ती के लिए एक क्वांटिफायर लागू करते हैं, इसलिए इस मामले में यह \sएक ही स्थान के साथ 2 और 100 व्हाट्सएप वर्णों ( ) के बीच बदल रहा है। यदि आप किसी भी व्हाट्सएप वर्ण की संख्या को एक से कम करना चाहते हैं, तो आप ऊपरी सीमा को छोड़ देंगे जैसे replace(/\s{2,}/g, ' '):।
माइक पार्ट्रीज

13
मैंने विराम चिह्नों की सूची में कुछ और वर्ण जोड़े हैं ( @+?><[]+) replace(/[\.,-\/#!$%\^&\*;:{}=\-_`~()@\+\?><\[\]\+]/g, ''):। अगर किसी को अभी तक थोड़ा-और-पूरा सेट की तलाश है।
तैमफिन

9
पायथन का स्ट्रिंग। विराम चिह्न विराम चिह्न को परिभाषित करता है: !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~जो मेरे लिए बेहतर काम करता है, इसलिए एक और विकल्प होगा:replace(/['!"#$%&\\'()\*+,\-\.\/:;<=>?@\[\\\]\^_`{|}~']/g,"");
01AutoMonkey

1
@ AntoineLizée मैं मानता हूँ कि यह भ्रामक है। उत्तर अपडेट किया गया। धन्यवाद।
माइक ग्रेस

2
मैंने "इसके साथ" की कोशिश की है? - मेरे लिए काम नहीं करता ( regex101.com/r/F4j5Qc/1 ), सही समाधान है: / [। \?] / जी
मैक्सिम फ़िरोज़ॉफ़

129
str = str.replace(/[^\w\s]|_/g, "")
         .replace(/\s+/g, " ");

अल्फ़ान्यूमेरिक वर्णों और व्हाट्सएप को छोड़कर सब कुछ हटा देता है, फिर कई आसन्न वर्णों को एकल रिक्त स्थान पर ढह जाता है।

विस्तृत विवरण:

  1. \w कोई अंक, अक्षर या अंडरस्कोर है।
  2. \s कोई भी व्हाट्सएप है।
  3. [^\w\s] एक अंक, अक्षर, व्हाट्सएप या अंडरस्कोर कुछ भी नहीं है।
  4. [^\w\s]|_ अंडरस्कोर के साथ # 3 के रूप में ही है वापस में जोड़ा।

72
यह गैर-अंग्रेजी भी छीन लेगा, लेकिन पूरी तरह से अक्षर, जैसे, ö, साथ ही साथ संपूर्ण सिरिलिक वर्णमाला भी होगा।
दान अब्रामोव

5
@ निस्संदेह मैं असहमत हूं, मूल प्रश्न "केवल अंग्रेजी के लिए" निर्दिष्ट नहीं करता है। SO काफी अंतर्राष्ट्रीय है, जिसका उपयोग पूरी दुनिया में किया जाता है। जो कोई भी अंग्रेजी बोलता है और इंटरनेट का उपयोग करता है, वह इसका उपयोग कर सकता है। यदि प्रश्न में भाषा निर्दिष्ट नहीं है, तो हमें कोई धारणा नहीं बनानी चाहिए। हम 2017 में हैं!
रॉल्फ

1
इसके अलावा, यहां तक ​​कि अगर आप केवल अंग्रेजी का समर्थन करते हैं, तो आपके पास लोन शब्द जैसे रिज्यूम और स्थानों या लोगों के नाम हैं, तो आप यह कहने की क्षमता नहीं तोड़ना चाहेंगे कि वे सैन जोस (आधिकारिक वर्तनी) में काम करते हैं, जो रेमन च्लोए के बीच क्यूबिकल में है।
क्रिस एडम्स

यह इस तरह के शब्दों के साथ गड़बड़ करेगा wouldn'tऔरdon't
चार्ली

71

यहाँ US-ASCII के लिए मानक विराम चिह्न हैं: !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~

यूनिकोड विराम चिह्न (जैसे घुंघराले उद्धरण, इम-डैश) आदि के लिए, आप आसानी से विशिष्ट ब्लॉक रेंज पर मेल कर सकते हैं। जनरल विराम चिह्न ब्लॉक है \u2000-\u206F, और पूरक विराम चिह्न ब्लॉक है \u2E00-\u2E7F

एक साथ रखो, और ठीक से बच गए, आपको निम्नलिखित RegExp मिलता है:

/[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/

आपका सामना होने वाले किसी भी विराम चिह्न से मेल खाना चाहिए। तो, मूल प्रश्न का उत्तर देने के लिए:

var punctRE = /[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/g;
var spaceRE = /\s+/g;
var str = "This, -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
str.replace(punctRE, '').replace(spaceRE, ' ');

>> "This is an example of a string with punctuation"

US-ASCII स्रोत: http://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html#posix

यूनिकोड स्रोत: http://kourge.net/projects/regexp-unicode-block


3
यूनिकोड विराम चिह्न के लिए, ब्लॉक पर्याप्त नहीं हैं। आपको सामान्य श्रेणी के विराम चिह्न को देखना होगा, और आप देखेंगे कि सभी विराम चिह्न उन ब्लॉकों में स्थित नहीं हैं। उदाहरण के लिए, लैटिन ब्लॉकों के अंदर कई परिचित विराम चिह्न हैं।
nhahtdh

15

/ [^ A-Za-z0-9 \ s] / g को सभी विराम चिह्नों से मेल खाना चाहिए लेकिन रिक्त स्थान रखें। .replace(/\s{2,}/g, " ")यदि आप ऐसा करने की आवश्यकता है तो आप अतिरिक्त रिक्त स्थान को बदलने के लिए उपयोग कर सकते हैं । आप http://rubular.com/ में regex का परीक्षण कर सकते हैं

.replace(/[^A-Za-z0-9\s]/g,"").replace(/\s{2,}/g, " ")

अपडेट : इनपुट एएनएसआई अंग्रेजी होने पर ही काम करेगा।


6
आप मान रहे हैं कि स्ट्रिंग ANSI अंग्रेजी है। उच्चारण अक्षरों (फ्रेंच) के साथ न तो फ्रेंच, न ही जर्मन, तुर्की। यूनिकोड अरबी, चीनी, आदि भी गायब हो जाएंगे।
रॉल्फ

2
धन्यवाद, उस बारे में पूरी तरह से नहीं सोचा था।
adnan2nd

10

मैं एक ही मुद्दे पर भाग गया, इस समाधान ने चाल चली और बहुत पठनीय था:

var sentence = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var newSen = sentence.match(/[^_\W]+/g).join(' ');
console.log(newSen);

परिणाम:

"This is an example of a string with punctuation"

एक नकारात्मक सेट बनाने के लिए चाल थी । इसका मतलब है कि यह ऐसी किसी भी चीज़ से मेल खाता है जो सेट के भीतर [^abc]नहीं है - न कि ए, बी या सी

\Wकोई भी गैर-शब्द है, इसलिए ऐसी किसी भी [^\W]+चीज़ को नकार देंगे जो एक शब्द चार नहीं है ।

_ (अंडरस्कोर) में जोड़कर आप उसे भी नकार सकते हैं।

इसे विश्व स्तर पर लागू करें /g , फिर आप इसके माध्यम से किसी भी स्ट्रिंग को चला सकते हैं और विराम चिह्न को हटा सकते हैं:

/[^_\W]+/g

अच्छा और साफ ;)


1
आप इस विधि के साथ सभी नई लाइनों को भी अंतरिक्ष में बदलते हैं।
nhahtdh

5
यह विधि केवल अंग्रेजी में काम करती है, सभी उच्चारण वर्ण हटा दिए जाते हैं।
निकोलसबर्नियर

@ एनकोलसबर्नियर यस 100% सही है - जावास्क्रिप्ट का रेगेक्स इंजन वास्तव में बहुत लंगड़ा है (देखें: stackoverflow.com/questions/4043307/… ) - दुर्भाग्य से अधिक जटिल कार्यों के लिए (और गैर-अंग्रेजी शब्दों के पैटर्न बनाने के लिए) यह एक उचित सा लगता है अधिक कोड। फिर भी, विराम चिह्न के लिए एक त्वरित और संक्षिप्त
रीजेक्स के लिए

यह सबसे सरल था और मैंने अपने उद्देश्य को अच्छी तरह से निभाया।
जेम्स श्रम

9

मैं इसे यहाँ दूसरों के लिए रखूँगा।

सभी भाषाओं के लिए सभी विराम चिह्नों का मिलान करें:

यूनिकोड विराम चिह्न श्रेणी से निर्मित और कुछ सामान्य कीबोर्ड प्रतीकों को जोड़ा गया $ और कोष्ठक और\-=_

http://www.fileformat.info/info/unicode/category/Po/list.htm

मूल प्रतिस्थापन:

".test'da, te\"xt".replace(/[\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g,"")
"testda text"

अंतरिक्ष के रूप में जोड़ा गया

".da'fla, te\"te".split(/[\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)

जोड़ा ^ विराम पैटर्न के लिए विराम चिह्न से मेल खाने के लिए नहीं, लेकिन वे शब्द जो खुद को कहते हैं

".test';the, te\"xt".match(/[^\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)

हिब्रू जैसी भाषा के लिए शायद सिंगल और डबल कोट्स को हटा दें। और इस पर और सोचें।

इस स्क्रिप्ट का उपयोग कर:

चरण 1: फ़ायरफ़ॉक्स होल्डिंग U + 1234 नंबरों के एक कॉलम को चुनें और इसे कॉपी करें, U + 12456 को कॉपी न करें वे अंग्रेजी को प्रतिस्थापित करते हैं

चरण 2 (मैंने क्रोम में किया था) कुछ टेक्स्टारिया ढूंढता है और इसे फिर राइटक्लिक और निरीक्षण पर क्लिक करता है। तब आप $ 0 के साथ चयनित तत्व का उपयोग कर सकते हैं।

var x=$0.value
var z=x.replace(/U\+/g,"").split(/[\r\n]+/).map(function(a){return parseInt(a,16)})
var ret=[];z.forEach(function(a,k){if(z[k-1]===a-1 && z[k+1]===a+1) { if(ret[ret.length-1]!="-")ret.push("-");} else {  var c=a.toString(16); var prefix=c.length<3?"\\u0000":c.length<5?"\\u0000":"\\u000000"; var uu=prefix.substring(0,prefix.length-c.length)+c; ret.push(c.length<3?String.fromCharCode(a):uu)}});ret.join("")

चरण 3 को पहले अक्षर पर कॉपी किया जाता है क्योंकि अलग-अलग वर्णों के रूप में एससीआई नहीं होता है क्योंकि कोई व्यक्ति व्यक्तिगत वर्ण जोड़ या हटा सकता है


7

एक यूनिकोड-जागरूक भाषा में, यूनिकोड विराम चिह्न चरित्र गुण है \p{P}- जिसे आप आमतौर पर संक्षिप्त कर सकते हैं \pPऔर कभी-कभी \p{Punctuation}पठनीयता के लिए विस्तारित करते हैं ।

क्या आप पर्ल कम्पेटिबल रेगुलर एक्सप्रेशन लाइब्रेरी का उपयोग कर रहे हैं?


8
दुर्भाग्य से जेएस पर्ल संगत नहीं है। दूसरी समस्या यह है कि जब मैंने इसका परीक्षण किया तो इसने @ क्वेंटिन के परीक्षण स्ट्रिंग => mikegrace.s3.amazonaws.com/forums/stack-overflow/…
माइक ग्रेस

4
इस विस्तारित सिंटैक्स को प्राप्त करने के लिए आप XRegExp लाइब्रेरी का उपयोग कर सकते हैं।
एरिक बिर्कलैंड

7

यदि आप किसी स्ट्रिंग से विराम चिह्न हटाना चाहते हैं तो आपको Pयूनिकोड वर्ग का उपयोग करना चाहिए ।

लेकिन, क्योंकि जावास्क्रिप्ट रेजेक्स में कक्षाएं स्वीकार नहीं की जाती हैं, आप इस RegEx की कोशिश कर सकते हैं जो सभी विराम चिह्नों से मेल खाना चाहिए। यह निम्न श्रेणियों से मेल खाता है: Pc Pd Pe Pf Pi Po Ps Sc Sk Sm So GeneralPunctuation SupplementalPunctuation CJKSymbolsAndPunctuation CuneiformNumbersAndPunctuation।

मैंने इसे इस ऑनलाइन टूल का उपयोग करके बनाया है जो विशेष रूप से जावास्क्रिप्ट के लिए नियमित एक्सप्रेशन उत्पन्न करता है। अपने लक्ष्य तक पहुँचने के लिए यह कोड है:

var punctuationRegEx = /[!-/:-@[-`{-~¡-©«-¬®-±´¶-¸»¿×÷˂-˅˒-˟˥-˫˭˯-˿͵;΄-΅·϶҂՚-՟։-֊־׀׃׆׳-״؆-؏؛؞-؟٪-٭۔۩۽-۾܀-܍߶-߹।-॥॰৲-৳৺૱୰௳-௺౿ೱ-ೲ൹෴฿๏๚-๛༁-༗༚-༟༴༶༸༺-༽྅྾-࿅࿇-࿌࿎-࿔၊-၏႞-႟჻፠-፨᎐-᎙᙭-᙮᚛-᚜᛫-᛭᜵-᜶។-៖៘-៛᠀-᠊᥀᥄-᥅᧞-᧿᨞-᨟᭚-᭪᭴-᭼᰻-᰿᱾-᱿᾽᾿-῁῍-῏῝-῟῭-`´-῾\u2000-\u206e⁺-⁾₊-₎₠-₵℀-℁℃-℆℈-℉℔№-℘℞-℣℥℧℩℮℺-℻⅀-⅄⅊-⅍⅏←-⏧␀-␦⑀-⑊⒜-ⓩ─-⚝⚠-⚼⛀-⛃✁-✄✆-✉✌-✧✩-❋❍❏-❒❖❘-❞❡-❵➔➘-➯➱-➾⟀-⟊⟌⟐-⭌⭐-⭔⳥-⳪⳹-⳼⳾-⳿⸀-\u2e7e⺀-⺙⺛-⻳⼀-⿕⿰-⿻\u3000-〿゛-゜゠・㆐-㆑㆖-㆟㇀-㇣㈀-㈞㈪-㉃㉐㉠-㉿㊊-㊰㋀-㋾㌀-㏿䷀-䷿꒐-꓆꘍-꘏꙳꙾꜀-꜖꜠-꜡꞉-꞊꠨-꠫꡴-꡷꣎-꣏꤮-꤯꥟꩜-꩟﬩﴾-﴿﷼-﷽︐-︙︰-﹒﹔-﹦﹨-﹫!-/:-@[-`{-・¢-₩│-○-�]|\ud800[\udd00-\udd02\udd37-\udd3f\udd79-\udd89\udd90-\udd9b\uddd0-\uddfc\udf9f\udfd0]|\ud802[\udd1f\udd3f\ude50-\ude58]|\ud809[\udc00-\udc7e]|\ud834[\udc00-\udcf5\udd00-\udd26\udd29-\udd64\udd6a-\udd6c\udd83-\udd84\udd8c-\udda9\uddae-\udddd\ude00-\ude41\ude45\udf00-\udf56]|\ud835[\udec1\udedb\udefb\udf15\udf35\udf4f\udf6f\udf89\udfa9\udfc3]|\ud83c[\udc00-\udc2b\udc30-\udc93]/g;
var string = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var newString = string.replace(punctuationRegEx, '').replace(/(\s){2,}/g, '$1');
console.log(newString)


5

एन-यूएस (अमेरिकी अंग्रेजी) के लिए इस तार को पर्याप्त होना चाहिए:

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation".replace( /[^a-zA-Z ]/g, '').replace( /\s\s+/g, ' ' )

ध्यान रखें कि यदि आप UTF-8 और चीनी / रूसी और सभी जैसे वर्णों का समर्थन करते हैं, तो यह उन्हें भी बदल देगा, इसलिए आपको वास्तव में निर्दिष्ट करना होगा कि आप क्या चाहते हैं।


3

आप उपयोग कर रहे हैं lodash

_.words('This, is : my - test,line:').join(' ')

यह उदाहरण है

_.words('"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"').join(' ')

2

विकिपीडिया की विराम चिह्नों की सूची के अनुसार मुझे निम्नलिखित रेगेक्स का निर्माण करना था जो विराम चिह्नों का पता लगाता है:

[\.’'\[\](){}⟨⟩:,،、‒–—―…!.‹›«»‐\-?‘’“”'";/⁄·\&*@\•^†‡°”¡¿※#№÷׺ª%‰+−=‱¶′″‴§~_|‖¦©℗®℠™¤₳฿₵¢₡₢$₫₯֏₠€ƒ₣₲₴₭₺₾ℳ₥₦₧₱₰£៛₽₹₨₪৳₸₮₩¥]


2
यदि इस रेगेक्स का उपयोग कर रहे हैं, तो आपको अपने रेगेक्स सीमांकक से भी बचना चाहिए। उदाहरण के लिए, यदि आप /(सबसे आम) का उपयोग करते हैं तो इसे पहले वर्ण-वर्ग के अंदर रखा जाना चाहिए, इससे पहले बैक-स्लैश जोड़कर, जैसे \/:। इस तरह से आप इसका उपयोग करेंगे "String!! With, Punctuation.".replace(/[\.’'\[\](){}⟨⟩:,،、‒–—―…!.‹›«»‐\-?‘’“”'";\/⁄·\&*@\•^†‡°”¡¿※#№÷׺ª%‰+−=‱¶′″‴§~_|‖¦©℗®℠™¤₳฿₵¢₡₢$₫₯֏₠€ƒ₣₲₴₭₺₾ℳ₥₦₧₱₰£៛₽₹₨₪৳₸₮₩¥]+/g,""):। वैसे, मैं वहाँ कहीं भी बैकटिक (`) नहीं देखता, कैसे आते हैं?
रॉल्फ

लापता है। सभी विराम चिह्नों की सूची खोजने में कठिन लगता है।
एलेक्स

1

यदि आप केवल अक्षर और रिक्त स्थान बनाए रखना चाहते हैं, तो आप ऐसा कर सकते हैं:

str.replace(/[^a-zA-Z ]+/g, '').replace('/ {2,}/',' ')

8
नहीं होगा कि सिर्फ विराम चिह्न से अधिक बाहर खींच? यूनिकोड और पसंद है?
एलेक्स

3
आपका मतलब है "केवल अंग्रेजी अक्षर और रिक्त स्थान"
रॉल्फ

0

यह इस बात पर निर्भर करता है कि आप क्या वापसी करने की कोशिश कर रहे हैं। मैंने हाल ही में इसका उपयोग किया है:

return text.match(/[a-z]/i);
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.