nltk - IT屋-程序员软件开发技术分享社区

在使用nltk的meteor_core模块评估模型时，如何实现流星评分？

我目前有两个文件，ference.txt和mod.txt。这两个文本文件包含原始字幕和训练后生成的字幕。我是否可以简单地执行以下操作来获得流星分数： score = nltk.translate.meteor_score.meteor_score(reference, model) print(np.mean(meteor_score)) 我也看过https://github.com ..

我是不是应该既执行列姆化，又执行词干删除？

我正在用Python语言编写一个文本分类系统。以下是我为规范每个令牌所做的工作： lem, stem = WordNetLemmatizer(), PorterStemmer() for doc in corpus: for word in doc: lemma = stem.stem(lem.lemmatize(word)) 我不想只用词汇化的原因是因为我注意到 ..

发布时间：2022-06-29 17:01:41 python machine-learning nlp nltk stemming AI人工智能

如何提取数字(以及比较形容词或范围)

我正在处理两个使用Python语言的NLP项目，它们的任务都类似于从语句中提取数值和比较运算符，如下所示： "... greater than $10 ... ", "... weight not more than 200lbs ...", "... height in 5-7 feets ...", "... faster than 30 seconds ... " 我找到了两种不同 ..

发布时间：2022-06-29 16:51:21 python regex nlp nltk spacy Python

如何更新nltk包，使其不会将电子邮件分解为3个不同的令牌？

当我键入以下代码时： tokens = word_tokenize("a@b.com") 它分为以下3个标记：‘a’、‘@’、‘b.com’ 我想做的是将其保留为单个令牌‘a@b.com’。推荐答案免责声明：有很多电子邮件正则表达式。我并没有尝试匹配此问题中的所有电子邮件格式，只是显示了一个示例。使用RegexpTokenizer(mentioned above ..

发布时间：2022-06-29 16:42:45 python regex nlp nltk Python

加载NLTK资源时出错：请使用NLTK下载程序获取资源： "；

我改编了Susan Li的post中的以下代码，但当代码尝试使用NLTK的资源对文本进行标记化时(或者，从Web加载的“键控向量”可能有问题)，出现错误。错误发生在第5个代码块(见下文，从Web加载可能需要一段时间)：数据-lang=“js”数据-隐藏=“假”数据-控制台=“真”数据-巴贝尔=“假”> ## 1. load packages and data import logg ..

发布时间：2022-06-16 10:43:21 python nltk tokenize word2vec Python

安装与Python2兼容的较旧(但稳定)的NLTK版本

我想为python2.7安装一个较旧的(但稳定的)NLTK版本。我尝试运行命令：pip install nltk===x.x.x，但终端报告了许多错误。我想知道是否有可以下载nltk的存储库，或者是否有其他方法来解决这个问题。谢谢推荐答案来自https://www.nltk.org/news.html，v3.4.5应该是支持Python2的最新版本。 pip insta ..

发布时间：2022-06-11 13:11:20 python-2.7 nlp nltk python-2.x 其他开发

删除和更新用于NER训练数据的文本文档中的字符串和实体索引

我正在尝试创建用于NER识别的训练数据集。为此，我有大量数据需要标记并删除不必要的句子。在删除不必要的句子时，索引药水必须更新。上一天，我看到了一些用户关于这一点的令人难以置信的代码片段，现在我找不到了。修改他们的代码段，我可以简要说明我的问题我们取一个训练样本数据： data = [{"content":'''Hello we are hans and john. I enjoy ..

发布时间：2022-05-15 19:46:02 python string nlp nltk spacy Python

如何使用spacy或nltk检索句子的主要意图？

我有一个要使用Spacy或nltk或任何NLP库提取句子的主要有意义部分的用例。例句1：“我怎样才能高声反对骚扰” 意图是：“大声反对骚扰” 例句2：“唐老鸭是由哪个漫画家/哪个人/谁创作的？” 意图为：“唐老鸭创建者” 例句3：“如何使用spacy或nltk检索句子的主要意图”？意图：“使用空格nltk检索句子的主要意图” 我是依赖项解析的新手，不知道如何做这件事。请 ..

发布时间：2022-05-15 17:44:17 nlp nltk spacy pos-tagger dependency-parsing 其他开发

使用英语语言中的空格进行人名检测。寻找答案

我正在使用Spacy并尝试检测文本中的姓名。例如，Text=‘Kera是一个很好的套餐。Adam Smith使用一辆黑色的汽车。我希望Katrina在她的工作中做得很好。’ 答案应该是这样的：亚当·斯密和卡特里娜飓风。谁能推荐推荐答案这是一个典型的命名实体识别问题。Spacy有一个预先训练的模型来实现这一点，该模型应该能够准确地检测人名。查看this code s ..

发布时间：2022-05-15 15:58:26 python nlp nltk spacy named-entity-recognition Python

在句子列表中查找单词列表，并返回匹配的句子

如何从句子列表和单词列表返回句子列表，前提是单词列表(三元语法)中的所有三个单词都匹配。请提出建议。下面是示例列表。 listwords = [['people','suffering','acute'], ['Covid-19','Corona','like'], ['people','must','collectively']] listsent = ['The number ..

发布时间：2022-03-12 18:25:35 python nlp nltk list-comprehension trigram Python

我开始在Python中使用NLTK进行自然意大利语处理编程。我见过一些简单的WordNet库示例，它有一组很好的同义词集，允许您从一个单词(例如：“dog”)导航到它的同义词和反义词、它的下位词和上位词等等…… 我的问题是：如果我从一个意大利语单词开始(例如：“藤条”-意思是“狗”)，有没有办法在同义词、反义词、下义词之间导航……就像你对英语单词所做的那样，就像你对意大利单词所做的那样吗？或者 ..

发布时间：2022-03-08 12:11:44 python nlp nltk Python

词汇量和嵌入维度之间的首选比例是多少？

使用例如gensim、word2vec或类似方法训练嵌入向量时，我想知道什么是好的比率，或者嵌入维度与词汇表大小之间是否有更好的比率？另外，随着更多数据的出现，这种情况会发生怎样的变化？由于我仍在讨论如何在训练嵌入向量时选择合适的窗口大小？我之所以问这个问题，是因为我没有用现实生活中的语言词典来训练我的网络，而是这些句子将描述进程和文件以及其他进程之间的关系，等等。例如，我的文本语 ..

发布时间：2022-03-08 12:08:29 machine-learning keras nltk word-embedding nltk-trainer AI人工智能

导入nltk库时未找到语料库/停止字

我尝试在python2.7中导入nltk包 import nltk stopwords = nltk.corpus.stopwords.words('english') print(stopwords[:10]) 运行此命令会出现以下错误： LookupError: *************************************************** ..

发布时间：2022-03-08 12:05:08 python nltk Python

打开大型JSON文件

我有一个1.7 GB的JSON文件，当我尝试使用json.load()打开时，它出现内存错误，如何在python中读取该JSON文件？我的JSON文件是一个包含特定键的大型对象数组。编辑：如果它只是一个很大的对象数组，并且事先知道对象的结构，那么就不需要使用工具了，我们可以逐行读取它。一行将只包含数组的一个元素。我注意到这就是存储json文件的方式，对我来说，它的工作方式就是： ..

发布时间：2022-03-08 12:03:05 python json nltk Python

基于换行符的空格自定义句子切分

我正在尝试将this文档拆分成段落。具体地说，只要有换行符( ) ，我就想拆分文本这是我正在使用的代码，但没有产生我希望的结果 nlp = spacy.load("en_core_web_lg") def set_custom_boundaries(doc): for token in doc[:-1]: if token.text == " ": ..

发布时间：2022-03-02 11:09:55 python nlp nltk data-science spacy Python

NLTK 下载 SSL:证书验证失败

尝试为 nltk 安装 Punkt 时出现以下错误: nltk.download('punkt')[nltk_data] 加载 Punkt 时出错:错误的解决方案下载脚本坏了.作为临时解决方法，可以从 here 手动 ..

发布时间：2022-01-25 10:01:44 python ssl-certificate nltk Python

SSL 下载 NLTK 数据时出错

我正在尝试下载 NLTK 3.0 以在 Mac OS X 10.7.5 上与 Python 3.6 一起使用，但出现 SSL 错误: 导入 nltknltk.download() 我使用 pip3 命令下载了 NLTK:sudo pip3 install -U nltk. 更改 NLTK 下载器中的索引允许下载器显示所有 NLTK 的文件，但是当尝试下载所有文件时，会出现另一个 SSL ..

发布时间：2022-01-25 10:00:34 python macos ssl ssl-certificate nltk Python

NLTK 找不到 Java 可执行文件

我用的是NLTK的nltk.tag.stanford，需要调用java可执行文件. 我将 JAVAHOME 设置为安装 jdk 的 C:\Program Files\Java\jdk1.6.0_25，但运行程序时出现错误 "NLTK 无法找到 java 可执行文件！使用 config_java() 或设置 JAVAHOME 变量" 然后我花了3个小时调试它并尝试了 config_jav ..

发布时间：2022-01-18 21:45:57 java python tags config nltk Java开发

AttributeError:“FreqDist"对象没有属性“inc"

我是 Python 和 NLTK 的初学者.我正在尝试从教程中运行以下代码: 从 nltk.corpus 导入古腾堡从 nltk 导入 FreqDistfd = FreqDist()对于gutenberg.words('austen-sense.txt')中的单词:fd.inc(字) 如果我运行它，我会收到以下错误: AttributeError: 'FreqDist' 对象没有属性 'in ..

发布时间：2022-01-13 18:15:41 python python-2.7 attributes nltk Python

以编程方式安装 NLTK 语料库/模型，即没有 GUI 下载器?

我的项目使用 NLTK.如何列出项目的语料库&模型要求，以便它们可以自动安装?我不想通过nltk.download() GUI，一一安装包. 另外，有什么方法可以冻结相同的需求列表(如 pip freeze)? 解决方案 NLTK 站点确实在此页面底部列出了用于下载包和集合的命令行界面: http://www.nltk.org/data 命令行用法因您使用的 Python ..

发布时间：2022-01-13 17:04:29 installation packages nltk requirements corpus 其他开发

nltk相关内容