nltk相关内容

如何提取数字(以及比较形容词或范围)

我正在处理两个使用Python语言的NLP项目,它们的任务都类似于从语句中提取数值和比较运算符,如下所示: "... greater than $10 ... ", "... weight not more than 200lbs ...", "... height in 5-7 feets ...", "... faster than 30 seconds ... " 我找到了两种不同 ..
发布时间:2022-06-29 16:51:21 Python

如何更新nltk包,使其不会将电子邮件分解为3个不同的令牌?

当我键入以下代码时: tokens = word_tokenize("a@b.com") 它分为以下3个标记:‘a’、‘@’、‘b.com’ 我想做的是将其保留为单个令牌‘a@b.com’。 推荐答案 免责声明:有很多电子邮件正则表达式。我并没有尝试匹配此问题中的所有电子邮件格式,只是显示了一个示例。 使用RegexpTokenizer(mentioned above ..
发布时间:2022-06-29 16:42:45 Python

加载NLTK资源时出错:请使用NLTK下载程序获取资源: ";

我改编了Susan Li的post中的以下代码,但当代码尝试使用NLTK的资源对文本进行标记化时(或者,从Web加载的“键控向量”可能有问题),出现错误。错误发生在第5个代码块(见下文,从Web加载可能需要一段时间): 数据-lang=“js”数据-隐藏=“假”数据-控制台=“真”数据-巴贝尔=“假”> ## 1. load packages and data import logg ..
发布时间:2022-06-16 10:43:21 Python

安装与Python2兼容的较旧(但稳定)的NLTK版本

我想为python2.7安装一个较旧的(但稳定的)NLTK版本。 我尝试运行命令:pip install nltk===x.x.x,但终端报告了许多错误。 我想知道是否有可以下载nltk的存储库,或者是否有其他方法来解决这个问题。 谢谢 推荐答案 来自https://www.nltk.org/news.html,v3.4.5应该是支持Python2的最新版本。 pip insta ..
发布时间:2022-06-11 13:11:20 其他开发

删除和更新用于NER训练数据的文本文档中的字符串和实体索引

我正在尝试创建用于NER识别的训练数据集。为此,我有大量数据需要标记并删除不必要的句子。在删除不必要的句子时,索引药水必须更新。上一天,我看到了一些用户关于这一点的令人难以置信的代码片段,现在我找不到了。修改他们的代码段,我可以简要说明我的问题 我们取一个训练样本数据: data = [{"content":'''Hello we are hans and john. I enjoy ..
发布时间:2022-05-15 19:46:02 Python

如何使用spacy或nltk检索句子的主要意图?

我有一个要使用Spacy或nltk或任何NLP库提取句子的主要有意义部分的用例。 例句1:“我怎样才能高声反对骚扰” 意图是:“大声反对骚扰” 例句2:“唐老鸭是由哪个漫画家/哪个人/谁创作的?” 意图为:“唐老鸭创建者” 例句3:“如何使用spacy或nltk检索句子的主要意图”? 意图:“使用空格nltk检索句子的主要意图” 我是依赖项解析的新手,不知道如何做这件事。请 ..
发布时间:2022-05-15 17:44:17 其他开发

使用英语语言中的空格进行人名检测。寻找答案

我正在使用Spacy并尝试检测文本中的姓名。例如,Text=‘Kera是一个很好的套餐。Adam Smith使用一辆黑色的汽车。我希望Katrina在她的工作中做得很好。’ 答案应该是这样的:亚当·斯密和卡特里娜飓风。 谁能推荐 推荐答案 这是一个典型的命名实体识别问题。Spacy有一个预先训练的模型来实现这一点,该模型应该能够准确地检测人名。 查看this code s ..
发布时间:2022-05-15 15:58:26 Python

将Python中的Wordnet同义词集用于意大利语

我开始在Python中使用NLTK进行自然意大利语处理编程。我见过一些简单的WordNet库示例,它有一组很好的同义词集,允许您从一个单词(例如:“dog”)导航到它的同义词和反义词、它的下位词和上位词等等…… 我的问题是: 如果我从一个意大利语单词开始(例如:“藤条”-意思是“狗”),有没有办法在同义词、反义词、下义词之间导航……就像你对英语单词所做的那样,就像你对意大利单词所做的那样吗?或者 ..
发布时间:2022-03-08 12:11:44 Python

词汇量和嵌入维度之间的首选比例是多少?

使用例如gensim、word2vec或类似方法训练嵌入向量时,我想知道什么是好的比率,或者嵌入维度与词汇表大小之间是否有更好的比率? 另外,随着更多数据的出现,这种情况会发生怎样的变化? 由于我仍在讨论如何在训练嵌入向量时选择合适的窗口大小? 我之所以问这个问题,是因为我没有用现实生活中的语言词典来训练我的网络,而是这些句子将描述进程和文件以及其他进程之间的关系,等等。 例如,我的文本语 ..

导入nltk库时未找到语料库/停止字

我尝试在python2.7中导入nltk包 import nltk stopwords = nltk.corpus.stopwords.words('english') print(stopwords[:10]) 运行此命令会出现以下错误: LookupError: *************************************************** ..
发布时间:2022-03-08 12:05:08 Python

打开大型JSON文件

我有一个1.7 GB的JSON文件,当我尝试使用json.load()打开时,它出现内存错误,如何在python中读取该JSON文件? 我的JSON文件是一个包含特定键的大型对象数组。 编辑:如果它只是一个很大的对象数组,并且事先知道对象的结构,那么就不需要使用工具了,我们可以逐行读取它。一行将只包含数组的一个元素。我注意到这就是存储json文件的方式,对我来说,它的工作方式就是: ..
发布时间:2022-03-08 12:03:05 Python

基于换行符的空格自定义句子切分

我正在尝试将this文档拆分成段落。具体地说,只要有换行符( ) ,我就想拆分文本 这是我正在使用的代码,但没有产生我希望的结果 nlp = spacy.load("en_core_web_lg") def set_custom_boundaries(doc): for token in doc[:-1]: if token.text == " ": ..
发布时间:2022-03-02 11:09:55 Python

SSL 下载 NLTK 数据时出错

我正在尝试下载 NLTK 3.0 以在 Mac OS X 10.7.5 上与 Python 3.6 一起使用,但出现 SSL 错误: 导入 nltknltk.download() 我使用 pip3 命令下载了 NLTK:sudo pip3 install -U nltk. 更改 NLTK 下载器中的索引允许下载器显示所有 NLTK 的文件,但是当尝试下载所有文件时,会出现另一个 SSL ..
发布时间:2022-01-25 10:00:34 Python

NLTK 找不到 Java 可执行文件

我用的是NLTK的nltk.tag.stanford,需要调用java可执行文件. 我将 JAVAHOME 设置为安装 jdk 的 C:\Program Files\Java\jdk1.6.0_25,但运行程序时出现错误 "NLTK 无法找到 java 可执行文件!使用 config_java() 或设置 JAVAHOME 变量" 然后我花了3个小时调试它并尝试了 config_jav ..
发布时间:2022-01-18 21:45:57 Java开发

AttributeError:“FreqDist"对象没有属性“inc"

我是 Python 和 NLTK 的初学者.我正在尝试从教程中运行以下代码: 从 nltk.corpus 导入古腾堡从 nltk 导入 FreqDistfd = FreqDist()对于gutenberg.words('austen-sense.txt')中的单词:fd.inc(字) 如果我运行它,我会收到以下错误: AttributeError: 'FreqDist' 对象没有属性 'in ..
发布时间:2022-01-13 18:15:41 Python

以编程方式安装 NLTK 语料库/模型,即没有 GUI 下载器?

我的项目使用 NLTK.如何列出项目的语料库&模型要求,以便它们可以自动安装?我不想通过nltk.download() GUI,一一安装包. 另外,有什么方法可以冻结相同的需求列表(如 pip freeze)? 解决方案 NLTK 站点确实在此页面底部列出了用于下载包和集合的命令行界面: http://www.nltk.org/data 命令行用法因您使用的 Python ..
发布时间:2022-01-13 17:04:29 其他开发