正则表达式 - 请问用 Python 如何匹配汉语拼音?
本文介绍了正则表达式 - 请问用 Python 如何匹配汉语拼音?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
问 题
比如用正则表达式匹配出 shá 这个拼音。
ps:之前说的可能不明确,我用了 比如 两字哈,就是待处理文本里有拼音,但是不知道具体拼音是什么,需要找出这些拼音,待处理文本会有 中文、拼音、符号(,。:之类的),所以请不要回答诸如re.search(u'shá',text)
要正则哈,不是简单固定的字符串。。。
解决方案
import re
regex = re.compile(r'\b[a-z]*[āáǎàōóǒòêēéěèīíǐìūúǔùǖǘǚǜüńňǹɑɡ]+[a-z]*\b')
text = "Thǐs ís à pìnyin abóut shá"
m = regex.findall(text)
print(m)
匹配结果:
['ís', 'à', 'pìnyin', 'abóut', 'shá']
没有匹配第一个Thǐs,因为默认拼音都是小写,排除了大写。
这篇关于正则表达式 - 请问用 Python 如何匹配汉语拼音?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文