如何删除非字母数字字符和空格,但在JavaScript中保留外语 [英] How to remove non alphanumeric characters and space, but keep foreign language in JavaScript

查看:199
本文介绍了如何删除非字母数字字符和空格,但在JavaScript中保留外语的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我想删除以下标志:

!@#$%^&*()_+`-=[]\|{};':",./<>?。,‘""’;【】『』

以及更多。
但确保保留所有外国字符,例如中文,法文,希腊等。

and many more. But ensuring all the foreign characters are kept, such as Chinese, French, Greece, etc.

在Ruby中,我可以使用正则表达式

In Ruby, I'm able to do it with regex

/[^\p{Alnum}]/

它在JS中不起作用。提前感谢。

It doesn't work in JS. Thanks in advance.

回答

感谢Jordan Gray。这个8400字母的正则表达式非常棒。这是一个简短的解决方案,因为它只有8.4kb而不是63kb的XRegExp。

Thank Jordan Gray. The 8400-letter regex is awesome. It is a short solution as it is only 8.4kb compare to 63kb of XRegExp.

为了记录,我使用的完整答案是

For the record, the full answer I use is

/ [^ 1-9\\\A-\\\Z\\\a-\\\z\\\ª\\\µ\\\º\\\À-\\\Ö\\ \Ø-\\\ö\\\ø-\\\ˁ\\\ˆ-\\\ˑ\\\ˠ-\\\ˤ\\\ˬ\\\ˮ\\\Ͱ-\\\ʹ\\ \Ͷ\\\ͷ\\\ͺ-\\\ͽ\\\Ά\\\Έ-\\\Ί\\\Ό\\\Ύ-\\\Ρ\\\Σ-\\\ϵ\\\Ϸ-\\\ҁ\\\Ҋ- \\\ԧ\\\Ա-\\\Ֆ\\\ՙ\\\ա-\\\և\\\א-\\\ת\\\װ-\\\ײ\\\ؠ-\\\ي\\\ٮ\\\ٯ\\\ٱ -\\\ۓ\\\ە\\\ۥ\\\ۦ\\\ۮ\\\ۯ\\\ۺ-\\\ۼ\\\ۿ\\\ܐ\\\ܒ-\\\ܯ\\\ݍ-\\\ޥ\\\ޱ\\ \ߊ-\\\ߪ\\\ߴ\\\ߵ\\\ߺ\\\ࠀ-\\\ࠕ\\\ࠚ\\\ࠤ\\\ࠨ\\\ࡀ-\\\ࡘ\\\ࢠ\\\ࢢ-\\\ࢬ\ u0904-\\\ह\\\ऽ\\\ॐ\\\क़-\\\ॡ\\\ॱ-\\\ॷ\\\ॹ-\\\ॿ\\\অ-\\\ঌ\\\এ\\\ঐ\\\ও-\\ \ন\\\প-\\\র\\\ল\\\শ-\\\হ\\\ঽ\\\ৎ\\\ড়\\\ঢ়\\\য়-\\\ৡ\\\ৰ\u 09F1\\\ਅ-\\\ਊ\\\ਏ\\\ਐ\\\ਓ-\\\ਨ\\\ਪ-\\\ਰ\\\ਲ\\\ਲ਼\\\ਵ\\\ਸ਼\\\ਸ\\\ਹ\\\ਖ਼- \\\ੜ\\\ਫ਼\\\ੲ-\\\ੴ\\\અ-\\\ઍ\\\એ-\\\ઑ\\\ઓ-\\\ન\\\પ-\\\ર\\\લ\\\ળ\\\વ -\\\હ\\\ઽ\\\ૐ\\\ૠ\\\ૡ\\\ଅ-\\\ଌ\\\ଏ\\\ଐ\\\ଓ-\\\ନ\\\ପ-\\\ର\\\ଲ\\\ଳ\\ \ଵ-\\\ହ\\\ଽ\\\ଡ଼\\\ଢ଼\\\ୟ-\\\ୡ\\\ୱ\\\ஃ\\\அ-\\\ஊ\\\எ-\\\ஐ\\\ஒ-\\\க\\ \ங\\\ச\\\ஜ\\\ஞ\\\ட\\\ண\\\த\\\ந-\\\ப\\\ம-\\\ஹ\\\ௐ\\\అ-\\\ఌ\\\ఎ,\ u0C10\\\ఒ-\\\న\\\ప-\\\ళ\\\వ-\\\హ\\\ఽ\\\ౘ\\\ౙ\\\ౠ\\\ౡ\\\ಅ- \ಌ\\\ಎ-\\\ಐ\\\ಒ-\\\ನ\\\ಪ-\\\ಳ\\\ವ-\\\ಹ\\\ಽ\\\ೞ\\\ೠ\\\ೡ\\\ೱ\\\ೲ\ u0D05-\\\ഌ\\\എ-\\\ഐ\\\ഒ-\\\ഺ\\\ഽ\\\ൎ\\\ൠ\\\ൡ\\\ൺ-\\\ൿ\\\අ-\\\ඖ\\\ක-\\ \න\\\ඳ-\\\ර\\\ල\\\ව-\\\ෆ\\\ก-\\\ะ\\\า\\\ำ\\\เ-\\\ๆ\\\ກ\\\ຂ\\\ຄ\ u0E87\\\ຈ\\\ຊ\\\ຍ\\\ດ-\\\ທ\\\ນ-\\\ຟ\\\ມ-\\\ຣ\\\ລ\\\ວ\\\ສ\\\ຫ\\\ອ-\\\ະ \\\າ\\\ຳ\\\ຽ\\\ເ-\\\ໄ\\\ໆ\\\ໜ-\\\ໟ\\\ༀ\\\ཀ-\\\ཇ\\\ཉ-\\\ཬ\\\ྈ-\\\ྌ \\\က-\\\ဪ\\\ဿ\\\ၐ-\\\ၕ\\\ၚ-\\\ၝ\\\ၡ\\\ၥ\\\ၦ\\\ၮ-\\\ၰ\u 1075 - \\\ႁ\\\ႎ\\\Ⴀ-\\\Ⴥ\\\Ⴧ\\\Ⴭ\\\ა-\\\ჺ\\\ჼ-\\\ቈ\\\ቊ-\\\ቍ\\\ቐ-\\\ቖ\\ \ቘ\\\ቚ-\\\ቝ\\\በ-\\\ኈ\\\ኊ-\\\ኍ\\\ነ-\\\ኰ\\\ኲ-\\\ኵ\\\ኸ-\\\ኾ\\\ዀ\\\ዂ -\\\ዅ\\\ወ-\\\ዖ\\\ዘ-\\\ጐ\\\ጒ-\\\ጕ\\\ጘ-\\\ፚ\\\ᎀ-\\\ᎏ\\\Ꭰ-\\\Ᏼ\\\ᐁ- \\\ᙬ\\\ᙯ-\\\ᙿ\\\ᚁ-\\\ᚚ\\\ᚠ-\\\ᛪ\\\ᜀ-\\\ᜌ\\\ᜎ-\\\ᜑ\\\ᜠ-\\\ᜱ\\\ᝀ-\\ \ᝑ\\\ᝠ-\\\ᝬ\\\ᝮ-\\\ᝰ\\\ក-\\\ឳ\\\ៗ\\\ៜ\\\ᠠ-\\\ᡷ\\\ᢀ-\\\ᢨ\\\ᢪ\\\ᢰ- \\\ᣵ\\\ᤀ-\\\ᤜ\\\ᥐ-\\\ᥭ\\\ᥰ-\\\ᥴ\\\ᦀ-\\\ᦫ\\\ᧁ-\\\ᧇ\\\ᨀ-\\\ᨖ\\\ᨠ-\\ \\u1A5 4\\\ᪧ\\\ᬅ-\\\ᬳ\\\ᭅ-\\\ᭋ\\\ᮃ-\\\ᮠ\\\ᮮ\\\ᮯ\\\ᮺ-\\\ᯥ\\\ᰀ-\\\ᰣ\\\ᱍ-\\ \ᱏ\\\ᱚ-\\\ᱽ\\\ᳩ-\\\ᳬ\\\ᳮ-\\\ᳱ\\\ᳵ\\\ᳶ\\\ᴀ-\\\ᶿ\\\Ḁ-\\\ἕ\\\Ἐ-\\\Ἕ \\\ἠ-\\\ὅ\\\Ὀ-\\\Ὅ\\\ὐ-\\\ὗ\\\Ὑ\\\Ὓ\\\Ὕ\\\Ὗ-\\\ώ\\\ᾀ-\\\ᾴ\\\ᾶ,\ u1FBC\\\ι\\\ῂ-\\\ῄ\\\ῆ-\\\ῌ\\\ῐ-\\\ΐ\\\ῖ-\\\Ί\\\ῠ-\\\Ῥ\\\ῲ-\\\ῴ\\\ῶ- \\\ῼ\\\ⁱ\\\ⁿ\\\ₐ-\\\ₜ\\\ℂ\\\ℇ\\\ℊ-\\\ℓ\\\ℕ\\\ℙ-\\\ℝ\\\ℤ\\\Ω\\\ℨ\ u212A-\\\ℭ\\\ℯ-\\\ℹ\\\ℼ-\\\ℿ\\\ⅅ-\\\ⅉ\\\ⅎ\\\Ↄ\\\ↄ\\\Ⰰ-\\\Ⱞ\\\ⰰ-\u2 C5E\\\Ⱡ-\\\ⳤ\\\Ⳬ-\\\ⳮ\\\Ⳳ\\\ⳳ\\\ⴀ-\\\ⴥ\\\ⴧ\\\ⴭ\\\ⴰ-\\\ⵧ\\\ⵯ\\\ⶀ,\ u2D96\\\ⶠ-\\\ⶦ\\\ⶨ-\\\ⶮ\\\ⶰ-\\\ⶶ\\\ⶸ-\\\ⶾ\\\ⷀ-\\\ⷆ\\\ⷈ-\\\ⷎ\\\ⷐ-\\\ⷖ \\\ⷘ-\\\ⷞ\\\ⸯ\\\々\\\〆\\\〱-\\\〵\\\〻\\\〼\\\ぁ-\\\ゖ\\\ゝ-\\\ゟ\\\ァ-\\\ヺ \\\ー-\\\ヿ\\\ㄅ-\\\ㄭ\\\ㄱ-\\\ㆎ\\\ㆠ-\\\ㆺ\\\ㇰ-\\\ㇿ\\\㐀-\\\䶵\\\一-\\\鿌\\ \ꀀ-\\\ꒌ\\\ꓐ-\\\ꓽ\\\ꔀ-\\\ꘌ\\\ꘐ-\\\ꘟ\\\ꘪ\\\ꘫ\\\Ꙁ-\\\ꙮ\\\ꙿ-\\\ꚗ\\\ꚠ -\\\ꛥ\\\ꜗ-\\\ꜟ\\\Ꜣ-\\\ꞈ\\\Ꞌ-\\\ꞎ\\\Ꞑ-\\\ꞓ\\\Ꞡ-\\\Ɦ\\\ꟸ-\\\ꠁ\\\ꠃ- \ꠅ\\\ꠇ-\\\ꠊ\\\ꠌ-\\\ꠢ\\\ꡀ-\\\ꡳ\\\ꢂ-\\\ꢳ\\\ꣲ-\\\ꣷ\\\ꣻ\\\ꤊ-\\\ꤥ\\\ꤰ -\\\ꥆ\\\ꥠ-\\\ꥼ\\\ꦄ-\\\ꦲ\\\ꧏ\\\ꨀ-\\\ꨨ\\\ꩀ-\\\ꩂ\\\ꩄ-\\\ꩋ\\\ꩠ-\\\ꩶ\\ \ꩺ\\\ꪀ-\\\ꪯ\\\ꪱ\\\ꪵ\\\ꪶ\\\ꪹ-\\\ꪽ\\\ꫀ\\\ꫂ\\\ꫛ-\\\ꫝ\\\ꫠ-\\\ꫪ\\\ꫲ-\\ \ꫴ\\\ꬁ-\\\ꬆ\\\ꬉ-\\\ꬎ\\\ꬑ-\\\ꬖ\\\ꬠ-\\\ꬦ\\\ꬨ-\\\ꬮ\\\ꯀ-\\\ꯢ\\\가,\ uD7A3\\\ힰ-\\\ퟆ\\\ퟋ-\\\ퟻ\\\豈-\\\舘\\\並-\\\龎\\\ff-\\\st\\\ﬓ-\\\ﬗ\\\יִ\\\ײַ- \\\ﬨ\\\שׁ-\\\זּ\\\טּ-\\\לּ\\\מּ\\\נּ\\\סּ\\\ףּ\\\פּ\\\צּ-\\\ﮱ\\\ﯓ-\\\ﴽ\uFD 50 \\\ﶏ\\\ﶒ-\\\ﷇ\\\ﷰ-\\\ﷻ\\\ﹰ-\\\ﹴ\\\ﹶ-\\\ﻼ\\\A-\\\Z\\\a-\\\z\\\ヲ -\\\ᄒ\\\ᅡ-\\\ᅦ\\\ᅧ-\\\ᅬ\\\ᅭ-\\\ᅲ\\\ᅳ-\\\ᅵ] + /克

这很有趣,不是吗?

推荐答案

有人已经提出过XRegExp。这是一个很好的包,但如果你想要的只是一种匹配字母的方式,你可以直接从源头获取它。

Someone has already suggested XRegExp. That's a great package, but if all you want is a way of matching letters you can grab it straight from the source.

在这种情况下,你要找的是什么是一种将整个的Unicode 类别匹配,该是中所定义XRegExp Unicode Base包的源代码。使用XRegExp,您可以将它们与 \p {L} \p {Letter} 进行匹配。用于匹配此类别中字符的JS兼容表达式可以解决(支撑自己):

In this case, what you're looking for is a way to match the whole Unicode Letter category, which is defined in the source for the XRegExp Unicode Base package. With XRegExp, you could match these with \p{L} or \p{Letter}. A JS-compatible expression for matching characters not in this category would work out to (brace yourself):

var NonLetters = /[^\u0041-\u005A\u0061-\u007A\u00AA\u00B5\u00BA\u00C0-\u00D6\u00D8-\u00F6\u00F8-\u02C1\u02C6-\u02D1\u02E0-\u02E4\u02EC\u02EE\u0370-\u0374\u0376\u0377\u037A-\u037D\u0386\u0388-\u038A\u038C\u038E-\u03A1\u03A3-\u03F5\u03F7-\u0481\u048A-\u0527\u0531-\u0556\u0559\u0561-\u0587\u05D0-\u05EA\u05F0-\u05F2\u0620-\u064A\u066E\u066F\u0671-\u06D3\u06D5\u06E5\u06E6\u06EE\u06EF\u06FA-\u06FC\u06FF\u0710\u0712-\u072F\u074D-\u07A5\u07B1\u07CA-\u07EA\u07F4\u07F5\u07FA\u0800-\u0815\u081A\u0824\u0828\u0840-\u0858\u08A0\u08A2-\u08AC\u0904-\u0939\u093D\u0950\u0958-\u0961\u0971-\u0977\u0979-\u097F\u0985-\u098C\u098F\u0990\u0993-\u09A8\u09AA-\u09B0\u09B2\u09B6-\u09B9\u09BD\u09CE\u09DC\u09DD\u09DF-\u09E1\u09F0\u09F1\u0A05-\u0A0A\u0A0F\u0A10\u0A13-\u0A28\u0A2A-\u0A30\u0A32\u0A33\u0A35\u0A36\u0A38\u0A39\u0A59-\u0A5C\u0A5E\u0A72-\u0A74\u0A85-\u0A8D\u0A8F-\u0A91\u0A93-\u0AA8\u0AAA-\u0AB0\u0AB2\u0AB3\u0AB5-\u0AB9\u0ABD\u0AD0\u0AE0\u0AE1\u0B05-\u0B0C\u0B0F\u0B10\u0B13-\u0B28\u0B2A-\u0B30\u0B32\u0B33\u0B35-\u0B39\u0B3D\u0B5C\u0B5D\u0B5F-\u0B61\u0B71\u0B83\u0B85-\u0B8A\u0B8E-\u0B90\u0B92-\u0B95\u0B99\u0B9A\u0B9C\u0B9E\u0B9F\u0BA3\u0BA4\u0BA8-\u0BAA\u0BAE-\u0BB9\u0BD0\u0C05-\u0C0C\u0C0E-\u0C10\u0C12-\u0C28\u0C2A-\u0C33\u0C35-\u0C39\u0C3D\u0C58\u0C59\u0C60\u0C61\u0C85-\u0C8C\u0C8E-\u0C90\u0C92-\u0CA8\u0CAA-\u0CB3\u0CB5-\u0CB9\u0CBD\u0CDE\u0CE0\u0CE1\u0CF1\u0CF2\u0D05-\u0D0C\u0D0E-\u0D10\u0D12-\u0D3A\u0D3D\u0D4E\u0D60\u0D61\u0D7A-\u0D7F\u0D85-\u0D96\u0D9A-\u0DB1\u0DB3-\u0DBB\u0DBD\u0DC0-\u0DC6\u0E01-\u0E30\u0E32\u0E33\u0E40-\u0E46\u0E81\u0E82\u0E84\u0E87\u0E88\u0E8A\u0E8D\u0E94-\u0E97\u0E99-\u0E9F\u0EA1-\u0EA3\u0EA5\u0EA7\u0EAA\u0EAB\u0EAD-\u0EB0\u0EB2\u0EB3\u0EBD\u0EC0-\u0EC4\u0EC6\u0EDC-\u0EDF\u0F00\u0F40-\u0F47\u0F49-\u0F6C\u0F88-\u0F8C\u1000-\u102A\u103F\u1050-\u1055\u105A-\u105D\u1061\u1065\u1066\u106E-\u1070\u1075-\u1081\u108E\u10A0-\u10C5\u10C7\u10CD\u10D0-\u10FA\u10FC-\u1248\u124A-\u124D\u1250-\u1256\u1258\u125A-\u125D\u1260-\u1288\u128A-\u128D\u1290-\u12B0\u12B2-\u12B5\u12B8-\u12BE\u12C0\u12C2-\u12C5\u12C8-\u12D6\u12D8-\u1310\u1312-\u1315\u1318-\u135A\u1380-\u138F\u13A0-\u13F4\u1401-\u166C\u166F-\u167F\u1681-\u169A\u16A0-\u16EA\u1700-\u170C\u170E-\u1711\u1720-\u1731\u1740-\u1751\u1760-\u176C\u176E-\u1770\u1780-\u17B3\u17D7\u17DC\u1820-\u1877\u1880-\u18A8\u18AA\u18B0-\u18F5\u1900-\u191C\u1950-\u196D\u1970-\u1974\u1980-\u19AB\u19C1-\u19C7\u1A00-\u1A16\u1A20-\u1A54\u1AA7\u1B05-\u1B33\u1B45-\u1B4B\u1B83-\u1BA0\u1BAE\u1BAF\u1BBA-\u1BE5\u1C00-\u1C23\u1C4D-\u1C4F\u1C5A-\u1C7D\u1CE9-\u1CEC\u1CEE-\u1CF1\u1CF5\u1CF6\u1D00-\u1DBF\u1E00-\u1F15\u1F18-\u1F1D\u1F20-\u1F45\u1F48-\u1F4D\u1F50-\u1F57\u1F59\u1F5B\u1F5D\u1F5F-\u1F7D\u1F80-\u1FB4\u1FB6-\u1FBC\u1FBE\u1FC2-\u1FC4\u1FC6-\u1FCC\u1FD0-\u1FD3\u1FD6-\u1FDB\u1FE0-\u1FEC\u1FF2-\u1FF4\u1FF6-\u1FFC\u2071\u207F\u2090-\u209C\u2102\u2107\u210A-\u2113\u2115\u2119-\u211D\u2124\u2126\u2128\u212A-\u212D\u212F-\u2139\u213C-\u213F\u2145-\u2149\u214E\u2183\u2184\u2C00-\u2C2E\u2C30-\u2C5E\u2C60-\u2CE4\u2CEB-\u2CEE\u2CF2\u2CF3\u2D00-\u2D25\u2D27\u2D2D\u2D30-\u2D67\u2D6F\u2D80-\u2D96\u2DA0-\u2DA6\u2DA8-\u2DAE\u2DB0-\u2DB6\u2DB8-\u2DBE\u2DC0-\u2DC6\u2DC8-\u2DCE\u2DD0-\u2DD6\u2DD8-\u2DDE\u2E2F\u3005\u3006\u3031-\u3035\u303B\u303C\u3041-\u3096\u309D-\u309F\u30A1-\u30FA\u30FC-\u30FF\u3105-\u312D\u3131-\u318E\u31A0-\u31BA\u31F0-\u31FF\u3400-\u4DB5\u4E00-\u9FCC\uA000-\uA48C\uA4D0-\uA4FD\uA500-\uA60C\uA610-\uA61F\uA62A\uA62B\uA640-\uA66E\uA67F-\uA697\uA6A0-\uA6E5\uA717-\uA71F\uA722-\uA788\uA78B-\uA78E\uA790-\uA793\uA7A0-\uA7AA\uA7F8-\uA801\uA803-\uA805\uA807-\uA80A\uA80C-\uA822\uA840-\uA873\uA882-\uA8B3\uA8F2-\uA8F7\uA8FB\uA90A-\uA925\uA930-\uA946\uA960-\uA97C\uA984-\uA9B2\uA9CF\uAA00-\uAA28\uAA40-\uAA42\uAA44-\uAA4B\uAA60-\uAA76\uAA7A\uAA80-\uAAAF\uAAB1\uAAB5\uAAB6\uAAB9-\uAABD\uAAC0\uAAC2\uAADB-\uAADD\uAAE0-\uAAEA\uAAF2-\uAAF4\uAB01-\uAB06\uAB09-\uAB0E\uAB11-\uAB16\uAB20-\uAB26\uAB28-\uAB2E\uABC0-\uABE2\uAC00-\uD7A3\uD7B0-\uD7C6\uD7CB-\uD7FB\uF900-\uFA6D\uFA70-\uFAD9\uFB00-\uFB06\uFB13-\uFB17\uFB1D\uFB1F-\uFB28\uFB2A-\uFB36\uFB38-\uFB3C\uFB3E\uFB40\uFB41\uFB43\uFB44\uFB46-\uFBB1\uFBD3-\uFD3D\uFD50-\uFD8F\uFD92-\uFDC7\uFDF0-\uFDFB\uFE70-\uFE74\uFE76-\uFEFC\uFF21-\uFF3A\uFF41-\uFF5A\uFF66-\uFFBE\uFFC2-\uFFC7\uFFCA-\uFFCF\uFFD2-\uFFD7\uFFDA-\uFFDC]/

jsFiddle演示

jsFiddle demo.

相当沉重,但如果你有什么期望旨在匹配基本多语言平面中每种语言的大写,小写,标题大小写,修饰符和其他字母,包括所有的连笔字和重音字符。如果您想匹配数字,请不要忘记将 0-9 添加到开头!

Pretty hefty, but what you'd expect if you aim to match uppercase, lowercase, title case, modifier and other letters in every language in the basic multilingual plane¹, including all ligatures and accented characters. Don't forget to add 0-9 to the beginning if you want to match numbers as well!

如果你相信你的Unicode不会被破坏,你可以使用这个更短的版本:

If you trust your Unicode not to get mangled, you could use this shorter version:

var NonLetters = /[^A-Za-zªµºÀ-ÖØ-öø-ˁˆ-ˑˠ-ˤˬˮͰ-ʹͶͷͺ-ͽΆΈ-ΊΌΎ-ΡΣ-ϵϷ-ҁҊ-ԧԱ-Ֆՙա-ևא-תװ-ײؠ-يٮٯٱ-ۓەۥۦۮۯۺ-ۼۿܐܒ-ܯݍ-ޥޱߊ-ߪߴߵߺࠀ-ࠕࠚࠤࠨࡀ-ࡘࢠࢢ-ࢬऄ-हऽॐक़-ॡॱ-ॷॹ-ॿঅ-ঌএঐও-নপ-রলশ-হঽৎড়ঢ়য়-ৡৰৱਅ-ਊਏਐਓ-ਨਪ-ਰਲਲ਼ਵਸ਼ਸਹਖ਼-ੜਫ਼ੲ-ੴઅ-ઍએ-ઑઓ-નપ-રલળવ-હઽૐૠૡଅ-ଌଏଐଓ-ନପ-ରଲଳଵ-ହଽଡ଼ଢ଼ୟ-ୡୱஃஅ-ஊஎ-ஐஒ-கஙசஜஞடணதந-பம-ஹௐఅ-ఌఎ-ఐఒ-నప-ళవ-హఽౘౙౠౡಅ-ಌಎ-ಐಒ-ನಪ-ಳವ-ಹಽೞೠೡೱೲഅ-ഌഎ-ഐഒ-ഺഽൎൠൡൺ-ൿඅ-ඖක-නඳ-රලව-ෆก-ะาำเ-ๆກຂຄງຈຊຍດ-ທນ-ຟມ-ຣລວສຫອ-ະາຳຽເ-ໄໆໜ-ໟༀཀ-ཇཉ-ཬྈ-ྌက-ဪဿၐ-ၕၚ-ၝၡၥၦၮ-ၰၵ-ႁႎႠ-ჅჇჍა-ჺჼ-ቈቊ-ቍቐ-ቖቘቚ-ቝበ-ኈኊ-ኍነ-ኰኲ-ኵኸ-ኾዀዂ-ዅወ-ዖዘ-ጐጒ-ጕጘ-ፚᎀ-ᎏᎠ-Ᏼᐁ-ᙬᙯ-ᙿᚁ-ᚚᚠ-ᛪᜀ-ᜌᜎ-ᜑᜠ-ᜱᝀ-ᝑᝠ-ᝬᝮ-ᝰក-ឳៗៜᠠ-ᡷᢀ-ᢨᢪᢰ-ᣵᤀ-ᤜᥐ-ᥭᥰ-ᥴᦀ-ᦫᧁ-ᧇᨀ-ᨖᨠ-ᩔᪧᬅ-ᬳᭅ-ᭋᮃ-ᮠᮮᮯᮺ-ᯥᰀ-ᰣᱍ-ᱏᱚ-ᱽᳩ-ᳬᳮ-ᳱᳵᳶᴀ-ᶿḀ-ἕἘ-Ἕἠ-ὅὈ-Ὅὐ-ὗὙὛὝὟ-ώᾀ-ᾴᾶ-ᾼιῂ-ῄῆ-ῌῐ-ΐῖ-Ίῠ-Ῥῲ-ῴῶ-ῼⁱⁿₐ-ₜℂℇℊ-ℓℕℙ-ℝℤΩℨK-ℭℯ-ℹℼ-ℿⅅ-ⅉⅎↃↄⰀ-Ⱞⰰ-ⱞⱠ-ⳤⳫ-ⳮⳲⳳⴀ-ⴥⴧⴭⴰ-ⵧⵯⶀ-ⶖⶠ-ⶦⶨ-ⶮⶰ-ⶶⶸ-ⶾⷀ-ⷆⷈ-ⷎⷐ-ⷖⷘ-ⷞⸯ々〆〱-〵〻〼ぁ-ゖゝ-ゟァ-ヺー-ヿㄅ-ㄭㄱ-ㆎㆠ-ㆺㇰ-ㇿ㐀-䶵一-鿌ꀀ-ꒌꓐ-ꓽꔀ-ꘌꘐ-ꘟꘪꘫꙀ-ꙮꙿ-ꚗꚠ-ꛥꜗ-ꜟꜢ-ꞈꞋ-ꞎꞐ-ꞓꞠ-Ɦꟸ-ꠁꠃ-ꠅꠇ-ꠊꠌ-ꠢꡀ-ꡳꢂ-ꢳꣲ-ꣷꣻꤊ-ꤥꤰ-ꥆꥠ-ꥼꦄ-ꦲꧏꨀ-ꨨꩀ-ꩂꩄ-ꩋꩠ-ꩶꩺꪀ-ꪯꪱꪵꪶꪹ-ꪽꫀꫂꫛ-ꫝꫠ-ꫪꫲ-ꫴꬁ-ꬆꬉ-ꬎꬑ-ꬖꬠ-ꬦꬨ-ꬮꯀ-ꯢ가-힣ힰ-ퟆퟋ-ퟻ豈-舘並-龎ff-stﬓ-ﬗיִײַ-ﬨשׁ-זּטּ-לּמּנּסּףּפּצּ-ﮱﯓ-ﴽﵐ-ﶏﶒ-ﷇﷰ-ﷻﹰ-ﹴﹶ-ﻼA-Za-zヲ-하-ᅦᅧ-ᅬᅭ-ᅲᅳ-ᅵ]/

这给了一点这个类别的纯粹多样性的想法。就个人而言,我会使用第一个表达式,因为它很可能以一种你可能永远不会发现的方式被无形地弄乱。

This gives a little idea of the sheer diversity of this category. Personally, I would use the first expression since it is far less likely to be invisibly mucked up in a way that you will probably never find out about.

¹这个包括来自所谓的星体飞机的角色,如表情符号,埃及象形文字等古代/历史剧本以及许多许多 CJK表意文字。这是你的电话,如果你认为这些在某种非常广泛的意义上应该算作字母,因此想要包括它们。

¹ This doesn't include characters from the so-called astral planes such as emoji, ancient/historic scripts like Egyptian hieroglyphs and the many many CJK ideographs. It's your call if you think these should count as "letters" in some very extended sense and thus want to include them.

这篇关于如何删除非字母数字字符和空格,但在JavaScript中保留外语的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆