正则表达式 - 请问用 Python 如何匹配汉语拼音?

查看:729
本文介绍了正则表达式 - 请问用 Python 如何匹配汉语拼音?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

比如用正则表达式匹配出 shá 这个拼音。
ps:之前说的可能不明确,我用了 比如 两字哈,就是待处理文本里有拼音,但是不知道具体拼音是什么,需要找出这些拼音,待处理文本会有 中文、拼音、符号(,。:之类的),所以请不要回答诸如re.search(u'shá',text) 要正则哈,不是简单固定的字符串。。。

解决方案

import re
regex = re.compile(r'\b[a-z]*[āáǎàōóǒòêēéěèīíǐìūúǔùǖǘǚǜüńňǹɑɡ]+[a-z]*\b')
text = "Thǐs ís à pìnyin abóut shá"
m = regex.findall(text)
print(m)

匹配结果:
['ís', 'à', 'pìnyin', 'abóut', 'shá']
没有匹配第一个Thǐs,因为默认拼音都是小写,排除了大写。

这篇关于正则表达式 - 请问用 Python 如何匹配汉语拼音?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆