spacy相关内容
我正在使用Spacy对一些数据进行预处理。然而,我被困在如何修改spacy.tokens.doc.Doc类的内容上。 例如: npc = spacy.load("pt") def pre_process_text(doc) -> str: new_content = "" current_tkn = doc[0] for idx, next_tkn in enu
..
我有一个很大的句子列表(大约700万个),我想从其中提取名词。 我使用joblib库来并行化提取过程,如下所示: import spacy from tqdm import tqdm from joblib import Parallel, delayed nlp = spacy.load('en_core_web_sm') class nouns: def get_nou
..
我正在尝试培训Spacy Ner的新实体。我尝试将我的新实体添加到现有的Spacy‘en’模型中。但是,这影响了'en'和我的新实体的预测模型。 因此,我创建了一个空白模型,并训练了实体识别。这样做效果很好。然而,它只能预测我训练过的那些,而不能预测常规的空间实体识别。 假设我把‘马’训练成动物实体。 对于给定文本 txt ='Did you know that Georg
..
我正在尝试评估使用spacy lib创建的训练有素的NER模型。 通常情况下,对于这类问题,您可以使用F1分数(查准率和查全率之间的比率)。我在文档中找不到训练过的NER模型的精度函数。 我不确定它是否正确,但我正在尝试使用以下方法(示例)并使用sklearn中的f1_score: from sklearn.metrics import f1_score import spacy fr
..
我想根据documentation在空间中添加标记化的特殊情况。该文档显示了如何将特定的单词视为特例。我希望能够指定模式(例如后缀)。例如,我有一个这样的字符串 text = "A sample string with and " 其中指定单个单词。 我知道我可以通过以下代码一次为一种特殊情况使用它。但我如何才能为其指定模式呢?
..
这是经典的培训格式。 TRAIN_DATA = [ ("Who is Shaka Khan?", {"entities": [(7, 17, "PERSON")]}), ("I like London and Berlin.", {"entities": [(7, 13, "LOC"), (18, 24, "LOC")]}), ] 我以前是用代码训练的,但据我所知,用CL
..
我要将Spacy模型de_core_News_sm包含在一个python包中。 这是我的项目:https://github.com/michaelhochleitner/package_de_core_news_sm。 我使用以下命令打包并安装项目。 python setup.py sdist bdist_wheel pip install dist/example-pkg-mh
..
我通过Anaconda在Python3.5.2上运行OS X El Capitan,Spacy为0.101.0。 我正在尝试使用python -m spacy.en.download安装Spacy英语语言模型。然而,当我这样做时,我得到一个错误,显示为urllib.error.URLError:
..
如何使用Spacy从文本中提取名词短语? 我指的不是词性标签。 在文档中,我找不到任何有关名词短语或常规语法分析树的内容。 推荐答案 如果需要基本NP,即没有并列的NP、介词短语或关系从句,可以在Doc和Span对象上使用noun_chunks迭代器: >>> from spacy.en import English >>> nlp = English() >>> doc =
..
如何将文档(如段落、书籍等)拆分成句子。 例如"The dog ran. The cat jumped"into["The dog ran", "The cat jumped"]with spacy? 推荐答案 最新答案如下: from __future__ import unicode_literals, print_function from spacy.lang.en
..
我一直试图找到如何获取Spacy依赖树,但我找不到任何关于如何获取树的内容,只能在how to navigate the tree上找到。 推荐答案 原来,该树在文档中可用through the tokens。 如果要查找树根,只需浏览文档: def find_root(docu): for token in docu: if token.head
..
我正在尝试从非结构化文本中提取信息。例如 这位首席执行官最近征求了对正在开发的卡车增加功能的建议,他透露了一些计划中的功能,比如400至500英里的续航里程选项、带有动态悬架的双电机四轮驱动动力总成、300,000磅的牵引能力等。当被问及发布日期时,首席执行官给出了2021年第二季度的估计时间。 理想的输出应该类似于 [minRange = 400, maxRange = 500
..
我有两个列表。清单A包含500个单词。清单B包含10000个单词。我正在尝试为列表A查找与B相关的相似单词。我正在使用Spacy的相似性函数。 我面临的问题是需要很长时间才能计算出来。我不熟悉多进程用法,因此请求帮助。 如何在python中通过多处理来加速for循环部分的执行? 以下是我的代码。 ListA =['Dell', 'GPU',......] #500 word
..
按照命令下载Spacy“en”模型 python -m spacy download en 引发URL错误。 Traceback (most recent call last): File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/runpy.py", line 193, in _run_m
..
我正在尝试使用CoLab中的以下Spacy模块: https://spacy.io/universe/project/neuralcoref 我安装以下软件包: !pip install spacy import spacy !pip show spacy !git clone https://github.com/huggingface/neuralcoref.git im
..
我正在尝试将this文档拆分成段落。具体地说,只要有换行符(
) ,我就想拆分文本 这是我正在使用的代码,但没有产生我希望的结果 nlp = spacy.load("en_core_web_lg") def set_custom_boundaries(doc): for token in doc[:-1]: if token.text == "
":
..
我目前正在进行一个涉及句子向量的项目(来自Roberta预先训练的模型)。当句子较长时,这些向量的质量较低,并且我的语料库包含许多带子句的长句。 我一直在寻找用于子句提取/长句分割的方法,但令我惊讶的是,没有任何主要的NLP包(例如Spacy或stanza)提供这一功能。 我想这可以通过使用空格或节的依赖关系解析来完成,但是要正确处理各种复杂的句子和边缘情况可能会相当复杂。 我遇
..
您好,我正在使用新的 SpaCy 模型 en_pytt_bertbaseuncased_lg 实现多分类模型(5 个类).新管道的代码在这里: nlp = spacy.load('en_pytt_bertbaseuncased_lg')textcat = nlp.create_pipe('pytt_textcat',配置={"nr_class":5,“exclusive_classes":真,}
..
Spacy 有两个我想结合的功能 - 部分演讲(POS) 和基于规则的匹配. 我怎样才能将它们巧妙地结合起来? 例如 - 假设输入是一个句子,我想验证它是否满足某些 POS 排序条件 - 例如动词在名词之后(类似于 noun**verb regex).结果应该是真或假.那可行吗?或者匹配器是特定的,如示例中 基于规则的匹配可以有POS规则吗? 如果没有 - 这是我目前的计划
..
我有一个句子已经被标记为单词.我想获取句子中每个单词的词性标签.当我检查 SpaCy 中的文档时,我意识到它以原始句子开头.我不想这样做,因为在这种情况下,spacy 可能会以不同的标记化结束.因此,我想知道是否可以将 spaCy 与单词列表(而不是字符串)一起使用? 这是关于我的问题的一个例子: # 我知道它成功地执行了以下操作:进口空间nlp = spacy.load('en_core
..