spacy 第5页 - IT屋-程序员软件开发技术分享社区

如何修改spacy中具有管道组件的space y.tokens.doc.Doc令牌

我正在使用Spacy对一些数据进行预处理。然而，我被困在如何修改spacy.tokens.doc.Doc类的内容上。例如： npc = spacy.load("pt") def pre_process_text(doc) -> str: new_content = "" current_tkn = doc[0] for idx, next_tkn in enu ..

发布时间：2022-05-15 13:37:43 python-3.x spacy 其他开发

使用joblib库spacy生成_Pickle.PicklingError：无法选择任务以将其发送给工作进程

我有一个很大的句子列表(大约700万个)，我想从其中提取名词。我使用joblib库来并行化提取过程，如下所示： import spacy from tqdm import tqdm from joblib import Parallel, delayed nlp = spacy.load('en_core_web_sm') class nouns: def get_nou ..

发布时间：2022-05-15 13:29:43 python python-3.x parallel-processing spacy joblib Python

如何在Spacy中创建多模型的NER管道

我正在尝试培训Spacy Ner的新实体。我尝试将我的新实体添加到现有的Spacy‘en’模型中。但是，这影响了'en'和我的新实体的预测模型。因此，我创建了一个空白模型，并训练了实体识别。这样做效果很好。然而，它只能预测我训练过的那些，而不能预测常规的空间实体识别。假设我把‘马’训练成动物实体。对于给定文本 txt ='Did you know that Georg ..

发布时间：2022-05-15 13:24:39 python spacy named-entity-recognition Python

Spacy Ner模型中的评价

我正在尝试评估使用spacy lib创建的训练有素的NER模型。通常情况下，对于这类问题，您可以使用F1分数(查准率和查全率之间的比率)。我在文档中找不到训练过的NER模型的精度函数。我不确定它是否正确，但我正在尝试使用以下方法(示例)并使用sklearn中的f1_score： from sklearn.metrics import f1_score import spacy fr ..

发布时间：2022-05-15 13:19:30 python spacy Python

按正则表达式或模式添加特殊情况标记化规则

我想根据documentation在空间中添加标记化的特殊情况。该文档显示了如何将特定的单词视为特例。我希望能够指定模式(例如后缀)。例如，我有一个这样的字符串 text = "A sample string with and " 其中指定单个单词。我知道我可以通过以下代码一次为一种特殊情况使用它。但我如何才能为其指定模式呢？ ..

发布时间：2022-05-15 13:09:19 python spacy Python

将Spacy培训数据格式转换为Spacy CLI格式(适用于空白NER)

这是经典的培训格式。 TRAIN_DATA = [ ("Who is Shaka Khan?", {"entities": [(7, 17, "PERSON")]}), ("I like London and Berlin.", {"entities": [(7, 13, "LOC"), (18, 24, "LOC")]}), ] 我以前是用代码训练的，但据我所知，用CL ..

发布时间：2022-05-15 13:01:14 python spacy Python

包装空间模型

我要将Spacy模型de_core_News_sm包含在一个python包中。这是我的项目：https://github.com/michaelhochleitner/package_de_core_news_sm。我使用以下命令打包并安装项目。 python setup.py sdist bdist_wheel pip install dist/example-pkg-mh ..

发布时间：2022-05-15 12:45:45 python spacy python-packaging Python

尝试安装Spacy英语模型时收到证书_VERIFY_FAILED

我通过Anaconda在Python3.5.2上运行OS X El Capitan，Spacy为0.101.0。我正在尝试使用python -m spacy.en.download安装Spacy英语语言模型。然而，当我这样做时，我得到一个错误，显示为urllib.error.URLError: ..

发布时间：2022-05-15 12:39:07 python spacy Python

带有空格的名词短语

如何使用Spacy从文本中提取名词短语？我指的不是词性标签。在文档中，我找不到任何有关名词短语或常规语法分析树的内容。推荐答案如果需要基本NP，即没有并列的NP、介词短语或关系从句，可以在Doc和Span对象上使用noun_chunks迭代器： >>> from spacy.en import English >>> nlp = English() >>> doc = ..

发布时间：2022-05-15 12:36:06 python spacy Python

如何使用Spacy按句拆分文档

如何将文档(如段落、书籍等)拆分成句子。例如"The dog ran. The cat jumped"into["The dog ran", "The cat jumped"]with spacy？推荐答案最新答案如下： from __future__ import unicode_literals, print_function from spacy.lang.en ..

发布时间：2022-05-15 12:28:42 python spacy sentence text-segmentation Python

如何获取具有Spacy的依赖关系树？

我一直试图找到如何获取Spacy依赖树，但我找不到任何关于如何获取树的内容，只能在how to navigate the tree上找到。推荐答案原来，该树在文档中可用through the tokens。如果要查找树根，只需浏览文档： def find_root(docu): for token in docu: if token.head ..

发布时间：2022-05-15 12:22:32 python spacy Python

如何为以数字为主的数据提取注释和训练数据

我正在尝试从非结构化文本中提取信息。例如这位首席执行官最近征求了对正在开发的卡车增加功能的建议，他透露了一些计划中的功能，比如400至500英里的续航里程选项、带有动态悬架的双电机四轮驱动动力总成、300,000磅的牵引能力等。当被问及发布日期时，首席执行官给出了2021年第二季度的估计时间。理想的输出应该类似于 [minRange = 400, maxRange = 500 ..

发布时间：2022-04-23 10:57:11 nlp stanford-nlp spacy information-extraction named-entity-recognition 其他开发

如何在Python中使用多处理来加速循环执行

我有两个列表。清单A包含500个单词。清单B包含10000个单词。我正在尝试为列表A查找与B相关的相似单词。我正在使用Spacy的相似性函数。我面临的问题是需要很长时间才能计算出来。我不熟悉多进程用法，因此请求帮助。如何在python中通过多处理来加速for循环部分的执行？以下是我的代码。 ListA =['Dell', 'GPU',......] #500 word ..

发布时间：2022-04-10 19:57:17 python-3.x parallel-processing nlp python-multiprocessing spacy 其他开发

无法下载Spacy模型

按照命令下载Spacy“en”模型 python -m spacy download en 引发URL错误。 Traceback (most recent call last): File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/runpy.py", line 193, in _run_m ..

发布时间：2022-03-25 22:25:49 python-3.x nlp python-3.6 spacy 其他开发

在Colab中使用NeuralCoref时出现属性错误

我正在尝试使用CoLab中的以下Spacy模块： https://spacy.io/universe/project/neuralcoref 我安装以下软件包： !pip install spacy import spacy !pip show spacy !git clone https://github.com/huggingface/neuralcoref.git im ..

发布时间：2022-03-15 14:57:52 python-3.x google-colaboratory spacy 其他开发

基于换行符的空格自定义句子切分

我正在尝试将this文档拆分成段落。具体地说，只要有换行符( ) ，我就想拆分文本这是我正在使用的代码，但没有产生我希望的结果 nlp = spacy.load("en_core_web_lg") def set_custom_boundaries(doc): for token in doc[:-1]: if token.text == " ": ..

发布时间：2022-03-02 11:09:55 python nlp nltk data-science spacy Python

Python中的子句提取/长句切分

我目前正在进行一个涉及句子向量的项目(来自Roberta预先训练的模型)。当句子较长时，这些向量的质量较低，并且我的语料库包含许多带子句的长句。我一直在寻找用于子句提取/长句分割的方法，但令我惊讶的是，没有任何主要的NLP包(例如Spacy或stanza)提供这一功能。我想这可以通过使用空格或节的依赖关系解析来完成，但是要正确处理各种复杂的句子和边缘情况可能会相当复杂。我遇 ..

发布时间：2022-02-22 16:20:06 python nlp stanford-nlp spacy bert-language-model Python

Model() 为参数“nr_class"获得了多个值 - SpaCy 多分类模型(BERT 集成)

您好，我正在使用新的 SpaCy 模型 en_pytt_bertbaseuncased_lg 实现多分类模型(5 个类).新管道的代码在这里: nlp = spacy.load('en_pytt_bertbaseuncased_lg')textcat = nlp.create_pipe('pytt_textcat',配置={"nr_class":5,“exclusive_classes":真，} ..

发布时间：2022-01-06 19:51:06 python pytorch spacy multiclass-classification spacy-transformers Python

如何编写 POS 正则表达式的 spacy 匹配器

Spacy 有两个我想结合的功能 - 部分演讲(POS) 和基于规则的匹配. 我怎样才能将它们巧妙地结合起来? 例如 - 假设输入是一个句子，我想验证它是否满足某些 POS 排序条件 - 例如动词在名词之后(类似于 noun**verb regex).结果应该是真或假.那可行吗?或者匹配器是特定的，如示例中基于规则的匹配可以有POS规则吗? 如果没有 - 这是我目前的计划 ..

发布时间：2022-01-02 17:59:15 nlp spacy 其他开发

是否可以将 spacy 与已经标记化的输入一起使用?

我有一个句子已经被标记为单词.我想获取句子中每个单词的词性标签.当我检查 SpaCy 中的文档时，我意识到它以原始句子开头.我不想这样做，因为在这种情况下，spacy 可能会以不同的标记化结束.因此，我想知道是否可以将 spaCy 与单词列表(而不是字符串)一起使用? 这是关于我的问题的一个例子: # 我知道它成功地执行了以下操作:进口空间nlp = spacy.load('en_core ..

发布时间：2022-01-02 17:58:25 python nlp spacy Python

spacy相关内容