spacy相关内容

将向量从FastText导出到Spacy

我下载了1.5 GB的fasttext.cc向量,我使用了示例代码spaCy examples vectors_fast_text。我在终端执行了以下命令: python config/vectors_fast_text.py vectors_loc data/vectors/wiki.pt.vec 在处理器100%运行几分钟后,我收到以下文本: 类COLSPAN 0.322313 ..
发布时间:2022-05-15 21:30:23 其他开发

将初始输出导出为Spacy的培训输入格式

我使用Inestination 0.11.0(https://inception-project.github.io/)来注释我的培训数据。 我想用PYTHON SPACY来使用这个训练数据。我可以在《盗梦空间》中看到几种我可以输出的格式,但我不确定哪一种最适合Spacy。 我看不到任何有关将这些导出的文件转换为Space格式的文档。 我可以编写一个新脚本来执行此转换。在这样做之前,我 ..
发布时间:2022-05-15 21:22:47 其他开发

将REGEX实体添加到Spacy&39;的匹配器

我正在尝试将正则表达式定义的实体添加到Spacy的NER管道。理想情况下,我应该能够使用从具有已定义实体类型的json文件加载的任何正则表达式。例如,我正在尝试执行下面的代码。 下面的代码显示了我正在尝试做的事情,遵循Spacy关于使用正则表达式的自定义属性的讨论中给出的示例。我尝试过以各种方式(Doc、Span、Token)调用‘Set_Extension’方法,但都无济于事。我甚至不确定我应 ..
发布时间:2022-05-15 21:11:52 其他开发

从源代码安装时,在装有Python 3和Windows的情况下安装Spacy for NLP会出错

我正在按照Spacy gives to install针对Windows、Python3和从源代码(pip和conda都给我提供了我仍然无法解决的错误,直接从源代码似乎是最接近实际安装的错误)的说明进行操作。然而,当我转到步骤3并在命令行中输入export PYTHONPATH = pwd时(pwd两边有引号,就像它想要的那样,它只是在这里搞乱了格式),我收到了这个错误消息: export ..
发布时间:2022-05-15 21:08:47 Python

Spacy en Model问题

需要了解Spacy的en和en_core_web_sm模型之间的区别。 我正在尝试与Spacy一起做NER。(对于组织名称) 请在我使用的脚本下面找到 import spacy nlp = spacy.load("en_core_web_sm") text = "But Google is starting from behind. The company made a late pu ..
发布时间:2022-05-15 21:02:50 其他开发

空格自定句拆分

我使用Spacy进行自定义句子拆分,我需要将Custom_delimeter/word参数化为句子拼写,但我不知道如何作为arugument传递,这里是函数, # Manual or Custom Based def mycustom_boundary(docx): for token in docx[:-1]: if token.text == '...': ..
发布时间:2022-05-15 20:53:00 其他开发

在Spacy中加载英语模块时出错

我正在开发Ubuntu 16.04,Jupyter笔记本电脑。 我刚刚使用以下工具安装了最新版本的Spacy,因为我的英语模块没有下载 conda install -c conda-forge spacy=2.0.11 但是,在使用上述命令安装Spacy时,它说: 以下程序包将被删除: 水蟒:5.2.0-PY36_3 通过以下方式加载英语模块: import spacy n ..
发布时间:2022-05-15 20:45:35 Python

Docker Build Python应用程序错误&在Apple M1上找不到与Spacy==2.3.2&匹配的分发版本

我最近改用了Mac mini M1,并试图在我的旧英特尔MBP上运行一个运行正常的项目。因为项目使用了node@10,所以我改用了Rosetta2,但即使使用Rosetta2,其中一个docker版本仍然会出错。 失败的Dockerfile(为简短起见省略了一些行) FROM python:3.8 ADD requirements.txt / RUN pip install -r ..
发布时间:2022-05-15 20:36:01 Python

Spacy.io维基百科实体链接器-结果NLP模型没有知识库实体

我一直在学习如何使用Wikipedia example here使用Sapcy.io实体链接器。 我从2000篇文章的小培训开始(它运行了20个小时),但结果模型无法识别或返回任何KB实体,即使是来自培训中使用的文本。 nlp_kb.from_disk("/path/to/nel-wikipedia/output_lt_kb80k_model_vsm/nlp") text = "A ..
发布时间:2022-05-15 20:31:58 其他开发

Spacy:如何手动设置竖条的POS标签?

当文本由空格标记时,会根据上下文为竖条分配不同的POS标记,例如&Quot;ADV&Quot;、&Quot;Del&Quot;...而我希望";|";被识别为&puc";。是否有办法强制";|";使用此POS? 我尝试了此命令,但它不起作用。 nlp.tokenizer.add_special_case('|', [{ORTH: '|', POS ..
发布时间:2022-05-15 20:16:37 其他开发

NER概率的Spacy 3波束解析

我正在尝试在将正确的标签分配给实体时检索我的空间模型的概率。我的Spacy版本为3.0.5。 threshold = 0.5 for i in testing_raw: doc = nlp_updated(i) beams = nlp_updated.beam_parse([ doc ], beam_width = 16, beam_density = 0. ..
发布时间:2022-05-15 20:08:41 Python

如何在空间中强制使用某个标签?

我将Spacy'3.0.0rc2'与自定义模型一起使用。不幸的是,我的训练数据中连字符(-)很少,因此该连字符经常被标记为NOUN。 有什么方法可以强制tag或pos,以确保所有-标记都被标记为PUNCT? 基本上,我正在寻找以下问题的答案中提出的解决方案: How to force a pos tag in spacy before/after tagger? 遗憾的是,这似乎不再 ..
发布时间:2022-05-15 19:54:22 Python

Spacy Ner定制训练和预训练模型的置信度得分

我在Spacy的文件中看到,最近版本中推出了NER实体的置信度分数。我正在使用spacy==3.1.2。我尝试了以下代码来查找置信度分数,但得到了一个错误。此外,是否可以找到自定义模型和预先训练的模型的置信度分数。 代码 nlp = spacy.load("output/model-best") test_data = 'Sample data here' doc = nlp(test ..
发布时间:2022-05-15 19:50:43 Python

删除和更新用于NER训练数据的文本文档中的字符串和实体索引

我正在尝试创建用于NER识别的训练数据集。为此,我有大量数据需要标记并删除不必要的句子。在删除不必要的句子时,索引药水必须更新。上一天,我看到了一些用户关于这一点的令人难以置信的代码片段,现在我找不到了。修改他们的代码段,我可以简要说明我的问题 我们取一个训练样本数据: data = [{"content":'''Hello we are hans and john. I enjoy ..
发布时间:2022-05-15 19:46:02 Python

利用置换实现NER训练数据和实体的可视化

我已经为训练NER数据创建了一个数据集。在创建之后,我想在应用到训练管道之前测试实体和数据是否匹配。使用置换,我们可以以更好的方式可视化。而是如何在Spacy 3中实现它。 推荐答案 上述问题的代码如下 import spacy from spacy import displacy annot_data = [('A Very SoNA Christmas View SoNA ..
发布时间:2022-05-15 19:36:48 Python

如何将CoNLL格式转换为Spacy格式

我目前正在开发一个NER模型。我有一堆以CoNLL格式存储的数据,需要转换为Spacy格式。在CoNLL中,句子中的每个单词旁边都有一个标签。在Spacy中,标签只显示给有实际标签的单词。 如何从以下格式转换(CoNLL) From O 2001 B-DateTime to I-DateTime 2004 I-DateTime , O I O was O a ..
发布时间:2022-05-15 19:28:55 Python

在Spacy v1.1.2中加载以前保存的NER模型

因此,每当我尝试为Spacy Ner加载以前保存的模型时,都会收到核心转储。 if os.path.isfile( model_path ): ner.model.load( model_path ) for itn in range( 5 ): random.shuffle( TRAIN_DATA ) for raw_text, entity_offsets in ..
发布时间:2022-05-15 19:18:08 Python