spacy相关内容

spaCy的词性和依赖性标签是什么意思?

spaCy用词性标记Document中每个Token的标签(两种不同格式,一种存储在Token的pos和pos_属性中,另一种存储在Token属性中在tag和tag_属性中),并对其.head令牌有语法依赖性(存储在dep和dep_属性中). 其中一些标签是不言自明的,甚至对于像我这样没有语言背景的人也是如此: >>> import spacy >>> en_nlp = spacy.l ..
发布时间:2020-05-18 00:44:28 其他开发

Spacy,匹配器具有跨越单个令牌的多个实体

我正在尝试创建一个匹配器,该匹配器在文本中查找否定的自定义实体.对于跨越单个令牌的实体,它工作正常,但是我在尝试捕获跨越多个令牌的实体时遇到了麻烦. 例如,假设我的自定义实体是动物(并标记为token.ent_type_ = "animal") ["cat", "dog", "artic fox"](请注意,最后一个实体有两个词). 现在,我想在文本中找到但被否定的那些实体,因此 ..
发布时间:2020-05-18 00:43:32 其他开发

如何编写POS正则表达式的空头匹配器

Spacy我想结合两个功能-词性(POS)和基于规则的匹配. 如何将它们巧妙地结合在一起? 例如-假设输入是一个句子,我想验证它是否符合某些POS排序条件-例如,动词位于名词之后(类似于名词**动词正则表达式).结果应该是对还是错.那可行吗?或匹配器是特定于示例中的 基于规则的匹配可以具有POS规则吗? 如果没有-这是我目前的计划-将所有内容集中在一个字符串中并应用正则表达 ..
发布时间:2020-05-18 00:41:28 其他开发

是否可以在内存中保留乱码以减少加载时间?

我想将spacy用作在线服务的NLP. 每次用户提出请求时,我都将脚本称为"my_script.py" 其开头为: from spacy.en import English nlp = English() 我遇到的问题是这两行要花10秒钟以上的时间,是否有可能将English()保留在ram或其他选项中以将加载时间减少到不到一秒钟? 解决方案 您说过要在请求进入时启动独立脚 ..
发布时间:2020-05-18 00:38:58 Python

从SpaCy删除范围内的单词?

我正在用Spacy解析一个句子,如下所示: import spacy nlp = spacy.load("en") span = nlp("This is some text.") 我想知道是否有一种方法可以删除跨度中的单词,同时仍然保持其余单词的格式像句子一样.如 del span[3] 这可能会产生类似 的句子 这是一些. 如果其他一些没有SpaCy的方法也能 ..
发布时间:2020-05-18 00:38:44 其他开发

spacy lemmatizer如何工作?

对于词形匹配,spacy具有单词列表:形容词,副词,动词...以及例外列表:adverbs_irreg ...对于常规的副词,有一组让我们以“更广泛"一词为例 因为这是一个形容词,所以必须从以下列表中选择词法的唯一化规则: ADJECTIVE_RULES = [ ["er", ""], ["est", ""], ["er", "e"], ["est", ..
发布时间:2020-05-18 00:38:22 Python

随意添加/删除停用词

添加/删除带有停用字符的停用词的最佳方法是什么?我正在使用 token.is_stop 函数,并希望对集合进行一些自定义更改.我正在查看文档,但找不到有关停用词的任何内容.谢谢! 解决方案 您可以在像这样处理文本之前对其进行编辑(请参见此帖子): >>> import spacy >>> nlp = spacy.load("en") >>> nlp.vocab["the"].is_s ..
发布时间:2020-05-18 00:32:30 Python

SpaCy OSError:找不到模型"en"

即使我下载了模型也无法加载 [jalal@goku entity-sentiment-analysis]$ which python /scratch/sjn/anaconda/bin/python [jalal@goku entity-sentiment-analysis]$ sudo python -m spacy download en [sudo] password for jala ..
发布时间:2020-05-18 00:29:43 其他开发

带Spacy管的多线程NLP

我正在尝试将Spacy NLP(自然语言处理)规则应用到像Wikipedia Dump这样的大文本文件中.这是我基于Spacy的文档示例的代码: from spacy.en import English input = open("big_file.txt") big_text= input.read() input.close() nlp= English() out = n ..
发布时间:2020-05-13 23:42:59 Python

空间链接错误

运行时: import spacy nlp = spacy.load('en') 打印以下内容: 警告:找不到"en"的模型 仅加载"en"令牌生成器. /site-packages/spacy/data为空,初始化文件除外. 所有文件路径仅指向我的python的单个安装. 任何帮助解决此问题的人. 谢谢! 会 解决方案 在Windows 10上尝试此问题 ..
发布时间:2020-05-10 18:51:09 Python

如何通过程序Node.js为RASA NLU创建训练数据

如何通过RASA NLU程序创建培训数据? 实际上,我正在使用MEAN堆栈开发应用程序,该应用程序准备了需要使用RASA NLU进行训练的数据. 但是我不知道如何将该信息从我的nodejs服务器传递到RASA NLU.是否有支持的api来实现这一目标? 解决方案 Rasa具有功能强大的API,如此处. 要回答特定问题,您可以通过以下命令将训练数据传递给Rasa NLU API: ..
发布时间:2020-05-08 00:59:11 其他开发

无法导入en_core_web_sm或Spacy

我正在尝试将en_core_web_sm作为独立程序包导入,并且也尝试通过spacy.但是在两种情况下我都在ujson模块中遇到错误. 错误: ModuleNotFoundError: No module named 'srsly.ujson.ujson' 我通过以下命令安装了en_core_web_sm python -m spacy download en_core_w ..
发布时间:2020-05-04 10:19:46 AI人工智能

SpaCy的相似度如何计算?

初学者NLP问题在这里: .similiarity方法如何工作? 哇,空间太好了!它的tfidf模型可能更易于预处理,但是只有一行代码(token.vector)的w2v? -太棒了! 在他的在nlp = spacy.load('en')和doc = nlp(raw_text)之后 我们可以在令牌和大块之间进行相似度查询. 但是,此.similarity方法在幕后计算的是什么? ..
发布时间:2020-05-04 10:08:15 AI人工智能

通过我自己的培训示例来培训spaCy现有的POS标记器

我试图在我自己的词典上训练现有的POS标记器,而不是从头开始(我不想创建“空模型"). 在spaCy的文档中,显示“加载要统计的模型",下一步是“使用add_label方法将标签映射添加到标记器".但是,当我尝试加载英语小型模型并添加标签映射时,它会引发此错误: ValueError:[T003]当前不支持调整大小的预训练Tagger模型. 我想知道如何修复它. 我还看到了实施在 ..
发布时间:2020-05-04 09:53:26 AI人工智能