nltk相关内容
我目前有两个文件,ference.txt和mod.txt。这两个文本文件包含原始字幕和训练后生成的字幕。 我是否可以简单地执行以下操作来获得流星分数: score = nltk.translate.meteor_score.meteor_score(reference, model) print(np.mean(meteor_score)) 我也看过https://github.com
..
我正在用Python语言编写一个文本分类系统。以下是我为规范每个令牌所做的工作: lem, stem = WordNetLemmatizer(), PorterStemmer() for doc in corpus: for word in doc: lemma = stem.stem(lem.lemmatize(word)) 我不想只用词汇化的原因是因为我注意到
..
我正在处理两个使用Python语言的NLP项目,它们的任务都类似于从语句中提取数值和比较运算符,如下所示: "... greater than $10 ... ", "... weight not more than 200lbs ...", "... height in 5-7 feets ...", "... faster than 30 seconds ... " 我找到了两种不同
..
当我键入以下代码时: tokens = word_tokenize("a@b.com") 它分为以下3个标记:‘a’、‘@’、‘b.com’ 我想做的是将其保留为单个令牌‘a@b.com’。 推荐答案 免责声明:有很多电子邮件正则表达式。我并没有尝试匹配此问题中的所有电子邮件格式,只是显示了一个示例。 使用RegexpTokenizer(mentioned above
..
我改编了Susan Li的post中的以下代码,但当代码尝试使用NLTK的资源对文本进行标记化时(或者,从Web加载的“键控向量”可能有问题),出现错误。错误发生在第5个代码块(见下文,从Web加载可能需要一段时间): 数据-lang=“js”数据-隐藏=“假”数据-控制台=“真”数据-巴贝尔=“假”> ## 1. load packages and data import logg
..
我想为python2.7安装一个较旧的(但稳定的)NLTK版本。 我尝试运行命令:pip install nltk===x.x.x,但终端报告了许多错误。 我想知道是否有可以下载nltk的存储库,或者是否有其他方法来解决这个问题。 谢谢 推荐答案 来自https://www.nltk.org/news.html,v3.4.5应该是支持Python2的最新版本。 pip insta
..
我正在尝试创建用于NER识别的训练数据集。为此,我有大量数据需要标记并删除不必要的句子。在删除不必要的句子时,索引药水必须更新。上一天,我看到了一些用户关于这一点的令人难以置信的代码片段,现在我找不到了。修改他们的代码段,我可以简要说明我的问题 我们取一个训练样本数据: data = [{"content":'''Hello we are hans and john. I enjoy
..
我有一个要使用Spacy或nltk或任何NLP库提取句子的主要有意义部分的用例。 例句1:“我怎样才能高声反对骚扰” 意图是:“大声反对骚扰” 例句2:“唐老鸭是由哪个漫画家/哪个人/谁创作的?” 意图为:“唐老鸭创建者” 例句3:“如何使用spacy或nltk检索句子的主要意图”? 意图:“使用空格nltk检索句子的主要意图” 我是依赖项解析的新手,不知道如何做这件事。请
..
我正在使用Spacy并尝试检测文本中的姓名。例如,Text=‘Kera是一个很好的套餐。Adam Smith使用一辆黑色的汽车。我希望Katrina在她的工作中做得很好。’ 答案应该是这样的:亚当·斯密和卡特里娜飓风。 谁能推荐 推荐答案 这是一个典型的命名实体识别问题。Spacy有一个预先训练的模型来实现这一点,该模型应该能够准确地检测人名。 查看this code s
..
如何从句子列表和单词列表返回句子列表,前提是单词列表(三元语法)中的所有三个单词都匹配。 请提出建议。下面是示例列表。 listwords = [['people','suffering','acute'], ['Covid-19','Corona','like'], ['people','must','collectively']] listsent = ['The number
..
我开始在Python中使用NLTK进行自然意大利语处理编程。我见过一些简单的WordNet库示例,它有一组很好的同义词集,允许您从一个单词(例如:“dog”)导航到它的同义词和反义词、它的下位词和上位词等等…… 我的问题是: 如果我从一个意大利语单词开始(例如:“藤条”-意思是“狗”),有没有办法在同义词、反义词、下义词之间导航……就像你对英语单词所做的那样,就像你对意大利单词所做的那样吗?或者
..
使用例如gensim、word2vec或类似方法训练嵌入向量时,我想知道什么是好的比率,或者嵌入维度与词汇表大小之间是否有更好的比率? 另外,随着更多数据的出现,这种情况会发生怎样的变化? 由于我仍在讨论如何在训练嵌入向量时选择合适的窗口大小? 我之所以问这个问题,是因为我没有用现实生活中的语言词典来训练我的网络,而是这些句子将描述进程和文件以及其他进程之间的关系,等等。 例如,我的文本语
..
我尝试在python2.7中导入nltk包 import nltk stopwords = nltk.corpus.stopwords.words('english') print(stopwords[:10]) 运行此命令会出现以下错误: LookupError: ***************************************************
..
我有一个1.7 GB的JSON文件,当我尝试使用json.load()打开时,它出现内存错误,如何在python中读取该JSON文件? 我的JSON文件是一个包含特定键的大型对象数组。 编辑:如果它只是一个很大的对象数组,并且事先知道对象的结构,那么就不需要使用工具了,我们可以逐行读取它。一行将只包含数组的一个元素。我注意到这就是存储json文件的方式,对我来说,它的工作方式就是:
..
我正在尝试将this文档拆分成段落。具体地说,只要有换行符(
) ,我就想拆分文本 这是我正在使用的代码,但没有产生我希望的结果 nlp = spacy.load("en_core_web_lg") def set_custom_boundaries(doc): for token in doc[:-1]: if token.text == "
":
..
尝试为 nltk 安装 Punkt 时出现以下错误: nltk.download('punkt')[nltk_data] 加载 Punkt 时出错:错误的 解决方案 下载脚本坏了.作为临时解决方法,可以从 here 手动
..
我正在尝试下载 NLTK 3.0 以在 Mac OS X 10.7.5 上与 Python 3.6 一起使用,但出现 SSL 错误: 导入 nltknltk.download() 我使用 pip3 命令下载了 NLTK:sudo pip3 install -U nltk. 更改 NLTK 下载器中的索引允许下载器显示所有 NLTK 的文件,但是当尝试下载所有文件时,会出现另一个 SSL
..
我用的是NLTK的nltk.tag.stanford,需要调用java可执行文件. 我将 JAVAHOME 设置为安装 jdk 的 C:\Program Files\Java\jdk1.6.0_25,但运行程序时出现错误 "NLTK 无法找到 java 可执行文件!使用 config_java() 或设置 JAVAHOME 变量" 然后我花了3个小时调试它并尝试了 config_jav
..
我是 Python 和 NLTK 的初学者.我正在尝试从教程中运行以下代码: 从 nltk.corpus 导入古腾堡从 nltk 导入 FreqDistfd = FreqDist()对于gutenberg.words('austen-sense.txt')中的单词:fd.inc(字) 如果我运行它,我会收到以下错误: AttributeError: 'FreqDist' 对象没有属性 'in
..
我的项目使用 NLTK.如何列出项目的语料库&模型要求,以便它们可以自动安装?我不想通过nltk.download() GUI,一一安装包. 另外,有什么方法可以冻结相同的需求列表(如 pip freeze)? 解决方案 NLTK 站点确实在此页面底部列出了用于下载包和集合的命令行界面: http://www.nltk.org/data 命令行用法因您使用的 Python
..