spacy相关内容

手动标记 Span 中带有 ENT_TYPE 的模式不起作用

作为替代方案:在 IN 属性中具有多项条目的模式 我编写了以下代码来匹配短语、标记它们,然后在 EntityRuler 模式中使用它们: # %%进口空间从 spacy.matcher 导入 PhraseMatcher从 spacy.pipeline 导入 EntityRuler从 spacy.tokens 导入跨度类 PhraseRuler(对象):name = 'phrase_rule ..
发布时间:2021-06-07 20:40:46 Python

Spacy 令牌中的相似性度量

我正在尝试衡量标记之间的相似性.我正在使用默认的 en 模型.相似性度量在使用单数名词时按预期工作,但在使用复数形式的相同名词时返回零. nlp = spacy.load('en')doc = nlp('苹果橙')doc[0].similarity(doc[1]) 返回 0.56189166448170025 doc = nlp('苹果橘子')doc[0].similarity(doc[1] ..
发布时间:2021-06-07 20:40:39 其他开发

Spacy 分词器,添加分词器异常

嘿!我试图在使用 spacy 2.02 标记一些令牌时添加一个例外,我知道存在 .tokenizer.add_special_case() 我在某些情况下使用它,但例如像 100 美元这样的令牌,spacy splits在两个令牌 ('US$', 'SYM'), ('100', 'NUM') 但我想像这样分成三份,而不是对美元后面的每个数字都做一个特例,我想对每个格式为 US$NUMB ..
发布时间:2021-06-07 20:40:24 其他开发

将 SpaCy 的 EntityRecognizer 应用于 Pandas 数据框中的列

我有一个基于文本的数据集,我希望将 SpaCy 的 EntityRecognizer 应用于特定列的每一行. 我可以通过执行以下操作来应用一般的 spaCy 管道: df['new_col'] = df['col'].apply(lambda x: nlp(x)) 如何仅应用实体识别器并获取其值? 解决方案 在 Spacy 中,文档有一个属性 .ents 巫婆在其命名实体 ..
发布时间:2021-06-07 20:40:21 Python

用印度名字训练 Spacy NER

我正在尝试自定义 Spacy 的 NER 以识别印度人的名字.遵循本指南 https://spacy.io/usage/training,这是我正在使用的数据集nofollow>https://github.com/nofollow9b93c7545c9dd93060bd/raw/b582593330765df3ccaae6f641f8cddc16f1e879/Indian-Female-Name ..
发布时间:2021-06-07 20:39:26 Python

如何使用动词时态/情绪制作空间匹配器模式?

我一直在尝试使用动词时态和情绪为空间匹配器制作特定模式. 我发现了如何使用 model.vocab.morphology.tag_map[token.tag_] 访问用 spacy 解析的单词的形态特征,当动词处于虚拟语气模式(我感兴趣的模式)时,它会打印出类似的内容: {'Mood_sub':真,'Number_sing':真,'Person_three':真,'Tense_pres': ..
发布时间:2021-06-07 20:39:24 其他开发

最长匹配仅与 Spacy Phrasematcher

我创建了一个 Spacy Phrasematcher 来匹配文档中的名称,遵循 教程.我想使用结果匹配作为额外的训练数据来训练一个 Spacy NER 模型.但是,我的模式分别包含全名(例如“Barack Obama")和姓氏(“Obama"). 因此,在包含“Barack Obama"的句子中,两种模式都匹配,导致匹配重叠.但是,当我尝试使用数据进行训练时,这种重叠会触发异常,例如: V ..
发布时间:2021-06-07 20:39:18 Python

有没有办法在 spaCy 中使用根标记检索整个名词块?

我对使用 spaCy 很陌生.我已经阅读了几个小时的文档,如果可以按照我的问题做我仍然感到困惑.总之... 正如标题所说,有没有办法使用包含它的标记来实际获取给定的名词块.例如,给定句子: “自动驾驶汽车将保险责任转移给制造商" 当我只有 "cars" 标记时,是否有可能获得 "autonomous cars" 名词块?这是我正在尝试的场景的示例片段. startingSentence ..
发布时间:2021-06-07 20:38:41 Python

通过 Spacy 从多主语被动句中提取实体

使用 Python Spacy,我试图从多主语被动语态句子中提取实体. 句子 =“约翰和珍妮被大卫指控犯罪" 我的目的是从句子中提取“John and Jenny"作为 nsubjpass 和 .ent_. 但是,我只能将“John"提取为 nsubjpass. 如何提取它们? 请注意,虽然在 .ents 中发现 John 作为实体,但 Jenny 被视为 conj ..
发布时间:2021-06-07 20:38:34 Python

只有“空白"的空间分词器规则

我想知道 spacy 分词器是否可以仅使用“空格"对单词进行分词.规则.例如: sentence="(c/o Oxford University)"; 通常使用spacy的如下配置: nlp = spacy.load(“en_core_news_sm")doc = nlp(句子)对于文档中的令牌:打印(令牌) 结果是: (C/○牛津大学) 相反,我想要如下输出(使用 spacy): ..
发布时间:2021-06-07 20:38:30 Python

单个单词的空间词形还原

我正在尝试获取单个单词的词形还原版本.有没有办法使用“spacy"(神奇的python NLP库)来做到这一点. 以下是我尝试过的代码,但不起作用): from spacy.lemmatizer import Lemmatizer从 spacy.lookups 导入查找查找 = 查找()lemmatizer = lemmatizer(查找)word = "鸭子"lemmas = lemma ..
发布时间:2021-06-07 20:38:12 其他开发

使用 SpaCy 和 Python 创建基于规则的匹配以检测地址

几天前我开始学习 Python's SpaCy lib 或 NLP.我想创建基于规则的匹配来检测街道地址.这是街道名称的示例: 滨海艺术中心 12Fischerinsel 65滨海艺术中心 1阿尔萨斯大道 62 号80 大道费迪南德莱塞普73 大道德布瓦讷41 Avenue des Pres84 rue du Château44 街萨迪卡诺伯恩大街 324京策尔大街 6 号80 街圣费雷奥尔75 ..
发布时间:2021-06-07 20:37:59 Python

SpaCy 中的自定义句子边界检测

我正在尝试在 spaCy 中编写一个自定义句子分割器,将整个文档作为一个句子返回. 我使用here中的代码编写了一个自定义管道组件. 但我无法让它工作,因为不是更改句子边界以将整个文档视为单个句子,而是会引发两个不同的错误. 如果我创建一个空白语言实例并且只将我的自定义组件添加到管道中,我会收到此错误: ValueError: 句子边界检测需要依赖解析,需要安装和加载统计模型. ..
发布时间:2021-06-07 20:37:49 Python

使用 spaCy 删除标点符号;属性错误

目前我正在使用以下代码使用 spaCy 对某些文本数据进行词形还原和计算 TF-IDF 值: 引理 = []对于 nlp.pipe(df['col'].astype('unicode').values, batch_size=9844,n_threads=3):如果 doc.is_parsed:lemma.append([n.lemma_ for n in doc if not n.lemma_ ..
发布时间:2021-06-07 20:37:33 Python

使用 spacy 从文档中删除命名实体

我试图从文档中删除被 spacy 认为是命名实体的单词,因此基本上从字符串示例中删除了“瑞典"和“诺基亚".我找不到解决实体存储为跨度的问题的方法.因此,当将它们与 spacy 文档中的单个标记进行比较时,会提示错误. 在后面的步骤中,这个过程应该是一个应用于存储在pandas数据框中的多个文本文档的函数. 对于如何更好地发布问题的任何帮助和建议,我将不胜感激,因为这是我在这里的第一个 ..
发布时间:2021-06-07 20:37:27 Python