带有非格式单词的阿拉伯语WordNet [英] Arabic WordNet with not-formatted words

查看:96
本文介绍了带有非格式单词的阿拉伯语WordNet的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

是否有必要将输入到WordNet的单词的格式设置为"التْف format احْ",而不能指望التفاح" ... 是否有任何图书馆或服务机构使用未格式化的阿拉伯语单词返回其所有可能同义词的列表.

Is it necessary for the word input to WordNet to be formatted like "التُّفَّاحْ" and can't expect "التفاح"... is there any library or service taking not-formatted Arabic word returning a list of all its possible synonyms.

推荐答案

التُّفَّاحْالتفاح,您只想删除变音符号,则需要一个词法归一化工具.尝试 Tashaphyne ,下载并安装,然后使用normalize模块

From التُّفَّاحْ to التفاح, you simply want to remove the diacritics then you need a lexical normalization tool. Try Tashaphyne, download and install then use the normalize module http://pythonhosted.org/Tashaphyne/Tashaphyne.normalize-module.html :

from Tashaphyne import *

text = 'التُّفَّاحْ'
print normalize_hamza(text)
print normalize_lamalef(text)
print normalize_searchtext(text)

这篇关于带有非格式单词的阿拉伯语WordNet的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆