spacy相关内容

如何标记 spacy 中的新词汇?

我正在使用 spacy 来从它的依赖解析中获益,我在使 spcay 分词器对我添加的新词汇进行分词时遇到了麻烦.这是我的代码: nlp = spacy.load(“en_core_web_md")nlp.vocab['骨形态发生蛋白(BMP)-2']nlp.tokenizer = Tokenizer(nlp.vocab)text = '本研究描述了骨形态发生蛋白 (BMP)-2 以及 BMP 受 ..
发布时间:2021-09-08 20:22:13 Python

spacy 如何将话题标签作为一个整体进行标记?

在包含主题标签的句子中,例如推文,spacy 的标记器将主题标签拆分为两个标记: 导入空间nlp = spacy.load('en')doc = nlp(u'This is a #sentence.')[文档中的 t 表示 t] 输出: [This, is, a, #, sentence, .] 我想按如下方式标记标签,这可能吗? [This, is, a, #sentence, .] ..
发布时间:2021-09-08 20:21:33 Python

使用 Spacy 自定义句子分割

我是 Spacy 和 NLP 的新手.我在使用 Spacy 进行句子分割时遇到以下问题. 我试图标记为句子的文本包含编号列表(编号和实际文本之间有空格),如下所示. import spacynlp = spacy.load('en_core_web_sm')text = "这是第一句话.\n接下来是编号列表.\n1.世界你好!\n2.你好 World2!\n3.世界你好!"text_sen ..
发布时间:2021-09-08 20:21:17 其他开发

是否可以更改 Spacy 标记器的标记拆分规则?

默认情况下,(德语)spacy 标记器不会在斜杠、下划线或星号上拆分,这正是我所需要的(因此“der/die"会生成单个标记). 但是它确实在括号上拆分,因此“dies(und)das"被拆分为 5 个标记.有没有一种(简单的)方法来告诉默认标记器也不要在括号上拆分,括号的两边用字母括起来,没有空格? 为分词器定义的括号上的分割究竟是怎样的? 解决方案 括号上的拆分在这一行中定 ..
发布时间:2021-09-08 20:19:15 Python

Spacy 的 BERT 模型没有学习

我一直在尝试使用 spaCy 的预训练 BERT 模型 de_trf_bertbasecased_lg 来提高我的分类项目的准确性.我曾经使用 de_core_news_sm 从头开始​​构建模型,一切正常:我的准确率约为 70%.但现在我改用 BERT 预训练模型,准确度为 0%.我不相信它的工作如此糟糕,所以我假设我的代码有问题.我可能错过了一些重要的东西,但我不知道是什么.我以这篇文章中的代 ..

使用更大的空间模型加速测试运行的好方法是什么?

我已经构建了一些依赖于 en_core_web_md 模型的测试.该模型需要大约 15 秒才能加载到我计算机的内存中,这使得测试运行起来很痛苦. 有什么聪明的方法可以加快速度吗? 解决方案 v2.2.[0-5] md 模型有一个小错误,使其加载速度特别慢(请参阅https://github.com/explosion/spaCy/pull/4990).> 您可以重新格式化模型包中的 ..
发布时间:2021-09-06 18:54:09 Python

使用命名实体注释将标签合并到我的文件中

在学习文本挖掘的基础知识时,我遇到了以下问题:我必须使用命名实体注释来查找和定位命名实体.但是,当找到时,该标签必须包含在文档中.例如:“Hello I am Koen"必须导致“Hello I am Koen . 我想出了如何查找和标记命名实体,但我一直坚持以正确的方式将它们放入文件中.我试过比较 ent.orth_ 是否在文件中,然后用标签 + ent.orth_ + 结束标签替换它. ..
发布时间:2021-09-04 19:21:41 其他开发

setup.py 中的 spaCy 和 spaCy 模型

在我的项目中,我的 setup.py 中有 spaCy 作为依赖项,但我还想添加一个默认模型. 到目前为止我的尝试是: install_requires=['spacy', 'en_core_web_sm'],dependency_links=['https://github.com/explosion/spacy-models/releases/download/en_core_web_ ..
发布时间:2021-07-23 19:31:47 Python

使用 PyInstaller 打包时找不到 SpaCy 模型

我正在使用 PyInstaller 将一个 python 脚本打包成一个 .exe.此脚本使用 spacy 加载以下模型:en_core_web_sm.我已经运行 python -m spacy download en_core_web_sm 在本地下载模型.问题是当 PyInstaller 尝试打包我的脚本时,它找不到模型.我收到以下错误:找不到模型“en_core_web_sm".它似乎不是 ..
发布时间:2021-06-23 20:49:05 Python

使用 spacy 从数据框中提取实体

我使用 Pandas 从 excel 文件中读取内容:: 将pandas导入为pddf = pd.read_excel("FAM_template_Update 1911274_JS.xlsx")df 尝试使用 spacy 提取实体时:: 导入空间nlp = spacy.load("en_core_web_sm")文档 = nlp(df)对于 doc.ents 中的实体:打印((实体.文本) ..
发布时间:2021-06-13 20:24:35 Python

如何使用标记化的句子作为 Spacy 的 PoS 标记器的输入?

Spacy 的 pos tagger 真的很方便,可以直接在原始句子上打标签. 导入空间sp = spacy.load('en_core_web_sm')sen = sp(u"我在吃饭") 但我正在使用 nltk 中的标记器.那么如何使用标记化的句子,如['I', 'am', 'eating'] 而不是 Spacy 的标注者的“我在吃"? 顺便说一句,我在哪里可以找到详细的 Spacy ..
发布时间:2021-06-07 20:44:06 其他开发

使用spacy和Matcher提取NER主语+动词的问题

我在一个 NLP 项目上工作,我必须使用 spacy 和 spacy Matcher 来提取所有 nsubj(主题)及其相关动词的命名实体:我的 NE nsubj 的州长动词.示例: 乔治和他的朋友住在墨西哥城“你好!",玛丽说 我需要提取“Georges"和“活"在第一句和“玛丽"中和“说"在第二个中,但我不知道我的命名实体和与之相关的动词之间会有多少个单词.所以我决定更多地探索 spacy ..
发布时间:2021-06-07 20:43:57 Python

从句子中提取名称实体及其对应的数值

我想从句子中提取信息. 目前,我可以使用 spacy 执行以下操作. Amy 的每月付款是 2000 美元.-->(艾米的月供,$2000) 但是,我正在尝试执行以下操作. Amy、Bob 和 Eva 的每月付款分别为 2000 美元、3000 美元和 3500 美元.-->((Amy 的月供,$2000),(Bob 的月供,$3000),(Eva 的月供,$3500)) 有什么办法 ..
发布时间:2021-06-07 20:41:46 Python

在 IN 属性中具有多项条目的模式

我正在使用规则扩展 spaCy 模型.在查看文档时,我注意到 IN 属性,用于将模式映射到属性字典.这很好,但它仅适用于单个令牌. 例如这个模式: {"label":"EXAMPLE","pattern":[{"LOWER": {"IN": ["such as", "like", "for example"]}}]} 仅适用于术语 like 而不是其他. 对于多术语属性实现相同结果的最 ..
发布时间:2021-06-07 20:41:43 Python

SPACY 自定义 NER 不返回任何实体

我正在尝试训练一个 Spacy 模型来识别一些自定义的 NER,下面给出了训练数据,主要与识别一些服务器模型、FY 格式的日期和 HDD 类型有关: TRAIN_DATA = [('给我发送 21 财年 A566TY 服务器的发货数量', {'entities': [(39, 42, 'DateParse'),(48,53,'server')]}),('将 A5890Y 服务器的 FY-21 发 ..
发布时间:2021-06-07 20:41:34 其他开发

使用 spaCy 3 的自定义 NER 训练抛出 ValueError

我正在尝试使用 spacy 3 添加自定义 NER 标签.我找到了旧版本的教程并对 spacy 3 进行了调整.这是我正在使用的整个代码: 随机导入进口空间从 spacy.training 导入示例标签 = '动物'火车数据 = [(“马太高了,他们假装关心你的感受",{'entities': [(0, 6, LABEL)]}),(“它们会咬人吗?", {'entities': []}),(“马 ..
发布时间:2021-06-07 20:41:24 Python

使用 Spacy 进行 NER 训练

在空的 NER 模型上运行火车时,我应该只包含标记数据(必须包含至少一个实体的数据),还是应该包含根本不包含任何标签的数据(在这种情况下,教学在某些情况下这些词没有任何标签的模型)? 解决方案 如果您查看 NER 的常用训练数据(您可以在 http://nlpprogress.com/english/named_entity_recognition.html ),您会看到大多数/每个示例都 ..
发布时间:2021-06-07 20:40:49 Python