spacy相关内容
我正在尝试使用可移植的Python解释器,因此我安装了WinPython,并计划有一天将我的应用程序部署到其他计算机。 对于我的应用程序,我需要使用NLP模块“spacy”。我尝试在WinPython上安装Spacy(pip Install-U spacy),但无法安装。当它安装模块依赖项时,似乎无法安装模块“Semver”: Collecting semver (from sputn
..
正在尝试对希伯来语使用拼写句子标记化。 import spacy nlp = spacy.load('he') doc = nlp(text) sents = list(doc.sents) 我得到: Warning: no model found for 'he' Only loading the 'he' tokenizer. Traceback (most
..
我正在尝试使用Rasa创建一个简单的程序,该程序可以从文本输入中提取(法语)街道地址。 按照RASA-NLU文档(http://rasa-nlu.readthedocs.io/en/latest/entities.html)中的建议,我想使用Spacy进行地址检测。 我看到(https://spacy.io/usage/training)对应的Spacy预置实体将是LOC。 但是
..
我尝试用空格纠正打字错误,为此,我需要知道单词中是否存在单词。如果没有,这个想法是把这个词一分为二,直到所有的片段都存在。例如,“of the”不存在,“of”和“the”则不存在。因此,我首先需要知道单词中是否存在某个单词。这就是问题的起点。我尝试: for token in nlp("apple"): print(token.lemma_, token.lemma, token.
..
我对Spacy NER模型的输入数据在BILUO标记方案中,我希望将其用作某些需求的一部分。当我试着在没有小批量的情况下简单地训练模型时,它工作得很好(注释部分)。但是我不知道如何在这里使用MiniBatch和GoldParse来提高模型的精度。我的期望在这里是有效的,因为我找不到一个具有这种组合的例子?此外,我已经用开始、结束、标签格式的方法训练了模型。请帮我弄清楚这一节。我的代码如下 i
..
我正在尝试构建一个非英语拼写检查器,它依赖于按拼写对句子进行分类,这允许我的算法然后使用词性标签和单个标记的语法依赖来确定拼写错误(在我的情况下,更具体地说:荷兰语复合词的错误拆分)。 然而,如果句子包含语法错误,例如将名词归类为动词,即使分类的单词看起来甚至不像动词,Spacy似乎也会错误地对句子进行分类。 正因为如此,我想知道是否有可能获得Spacy分类的不确定性,从而有可能判断S
..
我有变量trainData,其简化格式如下。 [ ('Paragraph_A', {"entities": [(15, 26, 'DiseaseClass'), (443, 449, 'DiseaseClass'), (483, 496, 'DiseaseClass')]}), ('Paragraph_B', {"entities": [(969, 975, 'DiseaseClass')
..
我已安装Spacy并使用以下命令下载了en_core_web_sm: PIP安装空间 Python-m空格下载en_core_web_sm 也试过了 PIP3安装https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.2.0/en_core_web_sm-2.2.0.tar.gz 我的Spacy
..
再见, 我正在尝试对连接的单词进行后处理,这些单词被标记为单独的标记,而它们本应是一个单独的标记。例如: Example: Sentence: "up-scaled" Tokens: ['up', '-', 'scaled'] Expected: ['up-scaled'] 目前,我的解决方案是使用匹配器: matcher = Matcher(nlp.vocab) patt
..
我在我的应用程序中使用以下模型: en_core_web_sm xx_ent_wiki_sm 我想知道默认Spacy模型可以提取的受支持的日期和时间格式。 使用的Python版本:3.6 使用的Spacy版本:2.0.x 推荐答案 英语模型在支持more extensive label scheme包括DATE和TIME的OntoNotes5语料库上进行训练。
..
我已经使用实体规则为社保号添加了新标签。 我甚至设置了OVERWRITE_ENTS=TRUE,但它仍然无法识别 我验证了正则表达式是否正确。不知道我还需要做什么 我以前尝试过=“ner”,但结果相同 text = "My name is yuyyvb and I leave on 605 W Clinton Street. My social security 690-96-4032"
..
我有一个要使用Spacy或nltk或任何NLP库提取句子的主要有意义部分的用例。 例句1:“我怎样才能高声反对骚扰” 意图是:“大声反对骚扰” 例句2:“唐老鸭是由哪个漫画家/哪个人/谁创作的?” 意图为:“唐老鸭创建者” 例句3:“如何使用spacy或nltk检索句子的主要意图”? 意图:“使用空格nltk检索句子的主要意图” 我是依赖项解析的新手,不知道如何做这件事。请
..
是否有添加默认标点规则中不包括的自定义标点符号的选项?(https://github.com/explosion/spaCy/blob/develop/spacy/lang/de/punctuation.py) 我正在使用Spacy的Matcher类(https://spacy.io/usage/rule-based-matching)和属性“is_PUNCT”从我的文本中删除标点符号。
..
我要将nlp.entity.cfg Beam_Width(默认情况下为%1)更改为%3。 我尝试了nlp.entity.cfg.update({BEAM_WIDTH:3}),但在进行此更改后,NLP看起来好像坏了。 (如果我执行一个nlp(Str),它会给我一个dict,而不是像通常的那样,我把Beam_Width:1放入一个space y.tokens.doc.Doc) 我想更改它,
..
我正在尝试将dataset转换为.spacy,方法是先在doc中将其转换为DocBin。可以通过GoogleDocs访问整个dataset文件。 我运行以下函数: def converter(data, outputFile): nlp = spacy.blank("en") # load a new spacy model doc_bin = DocBin() # c
..
我正在尝试使用Spacy从文本中提取所需的自定义实体。 import spacy from spacy_lookup import Entity data = {0:["count"],1:["unique count","unique"]} def processText(text): nlp = spacy.blank('en') for i,arr in data.i
..
此link显示如何创建自定义实体标尺。 我基本上复制并修改了另一个自定义实体标尺的代码,并使用它在doc中查找匹配项,如下所示: nlp = spacy.load('en_core_web_lg') ruler = EntityRuler(nlp) grades = ["Level 1", "Level 2", "Level 3", "Level 4"] for item in gr
..
我在kaggel的下面的代码中发现了这个,每次我运行代码都会得到ValueError。 这是因为新版本的Spacy。请帮助 提前感谢 import scispacy import spacy import en_core_sci_lg from spacy_langdetect import LanguageDetector nlp = en_core_sci_lg.load(disabl
..
我已经使用conda install-c conda-forge spacy在Anaconda提示中下载了Spacy。但是,当我尝试使用python-m空格下载en_core_we_sm时,我收到了ssl:证书_验证_失败错误。 推荐答案 使用HTTPS,尝试从远程主机下载内容时,在某些情况下会产生SSLConnection错误,例如,如果您的计算机位于不允许您自由建立SSLConne
..
以下link说明如何在实体跨越多个令牌的情况下添加自定义实体规则。执行此操作的代码如下: import spacy from spacy.pipeline import EntityRuler nlp = spacy.load('en_core_web_sm', parse=True, tag=True, entity=True) animal = ["cat", "dog", "arti
..