spacy相关内容

如何在Spacy中创建多模型的NER管道

我正在尝试培训Spacy Ner的新实体。我尝试将我的新实体添加到现有的Spacy‘en’模型中。但是,这影响了'en'和我的新实体的预测模型。 因此,我创建了一个空白模型,并训练了实体识别。这样做效果很好。然而,它只能预测我训练过的那些,而不能预测常规的空间实体识别。 假设我把‘马’训练成动物实体。 对于给定文本 txt ='Did you know that Georg ..
发布时间:2022-05-15 13:24:39 Python

Spacy Ner模型中的评价

我正在尝试评估使用spacy lib创建的训练有素的NER模型。 通常情况下,对于这类问题,您可以使用F1分数(查准率和查全率之间的比率)。我在文档中找不到训练过的NER模型的精度函数。 我不确定它是否正确,但我正在尝试使用以下方法(示例)并使用sklearn中的f1_score: from sklearn.metrics import f1_score import spacy fr ..
发布时间:2022-05-15 13:19:30 Python

按正则表达式或模式添加特殊情况标记化规则

我想根据documentation在空间中添加标记化的特殊情况。该文档显示了如何将特定的单词视为特例。我希望能够指定模式(例如后缀)。例如,我有一个这样的字符串 text = "A sample string with and " 其中指定单个单词。 我知道我可以通过以下代码一次为一种特殊情况使用它。但我如何才能为其指定模式呢? ..
发布时间:2022-05-15 13:09:19 Python

包装空间模型

我要将Spacy模型de_core_News_sm包含在一个python包中。 这是我的项目:https://github.com/michaelhochleitner/package_de_core_news_sm。 我使用以下命令打包并安装项目。 python setup.py sdist bdist_wheel pip install dist/example-pkg-mh ..
发布时间:2022-05-15 12:45:45 Python

带有空格的名词短语

如何使用Spacy从文本中提取名词短语? 我指的不是词性标签。 在文档中,我找不到任何有关名词短语或常规语法分析树的内容。 推荐答案 如果需要基本NP,即没有并列的NP、介词短语或关系从句,可以在Doc和Span对象上使用noun_chunks迭代器: >>> from spacy.en import English >>> nlp = English() >>> doc = ..
发布时间:2022-05-15 12:36:06 Python

如何获取具有Spacy的依赖关系树?

我一直试图找到如何获取Spacy依赖树,但我找不到任何关于如何获取树的内容,只能在how to navigate the tree上找到。 推荐答案 原来,该树在文档中可用through the tokens。 如果要查找树根,只需浏览文档: def find_root(docu): for token in docu: if token.head ..
发布时间:2022-05-15 12:22:32 Python

如何为以数字为主的数据提取注释和训练数据

我正在尝试从非结构化文本中提取信息。例如 这位首席执行官最近征求了对正在开发的卡车增加功能的建议,他透露了一些计划中的功能,比如400至500英里的续航里程选项、带有动态悬架的双电机四轮驱动动力总成、300,000磅的牵引能力等。当被问及发布日期时,首席执行官给出了2021年第二季度的估计时间。 理想的输出应该类似于 [minRange = 400, maxRange = 500 ..

如何在Python中使用多处理来加速循环执行

我有两个列表。清单A包含500个单词。清单B包含10000个单词。我正在尝试为列表A查找与B相关的相似单词。我正在使用Spacy的相似性函数。 我面临的问题是需要很长时间才能计算出来。我不熟悉多进程用法,因此请求帮助。 如何在python中通过多处理来加速for循环部分的执行? 以下是我的代码。 ListA =['Dell', 'GPU',......] #500 word ..

无法下载Spacy模型

按照命令下载Spacy“en”模型 python -m spacy download en 引发URL错误。 Traceback (most recent call last): File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/runpy.py", line 193, in _run_m ..
发布时间:2022-03-25 22:25:49 其他开发

基于换行符的空格自定义句子切分

我正在尝试将this文档拆分成段落。具体地说,只要有换行符( ) ,我就想拆分文本 这是我正在使用的代码,但没有产生我希望的结果 nlp = spacy.load("en_core_web_lg") def set_custom_boundaries(doc): for token in doc[:-1]: if token.text == " ": ..
发布时间:2022-03-02 11:09:55 Python

Python中的子句提取/长句切分

我目前正在进行一个涉及句子向量的项目(来自Roberta预先训练的模型)。当句子较长时,这些向量的质量较低,并且我的语料库包含许多带子句的长句。 我一直在寻找用于子句提取/长句分割的方法,但令我惊讶的是,没有任何主要的NLP包(例如Spacy或stanza)提供这一功能。 我想这可以通过使用空格或节的依赖关系解析来完成,但是要正确处理各种复杂的句子和边缘情况可能会相当复杂。 我遇 ..
发布时间:2022-02-22 16:20:06 Python

如何编写 POS 正则表达式的 spacy 匹配器

Spacy 有两个我想结合的功能 - 部分演讲(POS) 和基于规则的匹配. 我怎样才能将它们巧妙地结合起来? 例如 - 假设输入是一个句子,我想验证它是否满足某些 POS 排序条件 - 例如动词在名词之后(类似于 noun**verb regex).结果应该是真或假.那可行吗?或者匹配器是特定的,如示例中 基于规则的匹配可以有POS规则吗? 如果没有 - 这是我目前的计划 ..
发布时间:2022-01-02 17:59:15 其他开发

是否可以将 spacy 与已经标记化的输入一起使用?

我有一个句子已经被标记为单词.我想获取句子中每个单词的词性标签.当我检查 SpaCy 中的文档时,我意识到它以原始句子开头.我不想这样做,因为在这种情况下,spacy 可能会以不同的标记化结束.因此,我想知道是否可以将 spaCy 与单词列表(而不是字符串)一起使用? 这是关于我的问题的一个例子: # 我知道它成功地执行了以下操作:进口空间nlp = spacy.load('en_core ..
发布时间:2022-01-02 17:58:25 Python