spacy相关内容

Spacy中的自定义句子切分

我希望spaCy使用我提供的句子分割边界,而不是它自己的处理。 例如: get_sentences("Bob meets Alice. @SentBoundary@ They play together.") # => ["Bob meets Alice.", "They play together."] # two sents get_sentences("Bob meets A ..
发布时间:2022-08-15 22:30:32 Python

词汇空间大小模型';en_core_web_sm';

我试着在Spacy Small模型中查看词汇量: model_name="en_core_web_sm" nlpp=spacy.load(model_name) len(list(nlpp.vocab.strings)) 它只给了我1185个单词。我还在同事的机器上试了试,得到了不同的结果(1198和1183)。 只有这么小的词汇量来训练词性标注,难道就应该是这样吗?当我在我的 ..
发布时间:2022-07-20 12:31:13 AI人工智能

如何找出句子中是否提到了这个话题?-NLP

我是NLP的新手,我正在为我的问题寻找最合适的解决方案。 为了简化起见,我想从标题创建一个标记列表。 标记是预定义的,我可以轻松地标记用于培训的示例。 简单示例: 格式化示范句子&&-示范标记列表& 世界上最大的大象&&[动物] 我喜欢芒果和大猩猩-[动物,水果] 我有3只猫和4只狗&[动物] 我有糖尿病&&-[疾病] 我没有糖尿病,但我有一只猫-[动物] ..
发布时间:2022-07-20 12:24:39 Python

如何提取数字(以及比较形容词或范围)

我正在处理两个使用Python语言的NLP项目,它们的任务都类似于从语句中提取数值和比较运算符,如下所示: "... greater than $10 ... ", "... weight not more than 200lbs ...", "... height in 5-7 feets ...", "... faster than 30 seconds ... " 我找到了两种不同 ..
发布时间:2022-06-29 16:51:21 Python

将单词矢量(从fast Text)转换为在Spacy中使用失败

我使用fast Text生成了单词向量,并希望将它们转换为在Spacy模型中使用(用于德语)。在Spacy文档中,它说向量“应该是word2vec格式的制表符分隔的文件,其中第一列包含单词,其余列包含值。”因此,我将我的单词向量转换为txt文件,使它们具有完全相同的格式。然而,当我试图逃跑的时候 python -m spacy init-model de /Users/vectors --vect ..
发布时间:2022-05-15 23:40:29 其他开发

使用Spacy从依存关系树中提取化合物和dobj

对于这样的句子:“更换了碳化炉浮子开关和减压阀。” 我想摘录以下内容: [更换碳罐浮子开关]、[更换安全阀] 使用Spacy作为语言模型时,我对该语句的依赖关系树是: 所以我知道Carciator是REPLED(动词)的直接宾语(Djob),但是: 1.碳化器不在其本身,而是三个名词“碳化器浮子开关”的一部分,也是“泄压阀”的一部分,如果更换了,它们也应该是更换的对象。 有 ..
发布时间:2022-05-15 23:32:43 其他开发

防止空格将段落编号拆分成句子

我正在使用Spacy对使用段落编号的文本进行句子切分,例如: text = '3. English law takes a dim view of stealing stuff from the shops. Some may argue that this is a pity.' 我正在尝试强制Spacy的句子分割器不要将3.拆分成它自己的句子。 目前,以下代码返回三个单独的句子 ..
发布时间:2022-05-15 23:21:35 Python

如何处理Requirements中的非PIP需求。txt

所以我最近将我的NLP应用程序移到了一台新机器上。添加了与旧机器相同的python环境,并使用pip安装了所有依赖项。然后出现了一种不是PIP安装的依赖项,也许用“模型”来形容它更合适。安装它的命令是: python -m spacy.en.download 现在,我想指出的是,在我的存储库中的某个地方,所以如果有一天我或其他人要在另一台PC上安装整个东西,它就在那里,这是根据Pytho ..
发布时间:2022-05-15 23:12:29 Python

空间相似函数

我正在尝试使用Spacy库进行句子相似性,我想了解它是如何工作的!? 他们的文档不清楚: 默认情况下,Spacy使用向量平均算法,使用 预先训练的向量(如果可用)(例如en_core_web_lg模型)。如果 不是,则使用doc.tensor属性,该属性由 标记器、解析器和实体识别器。这就是en_core_web_sm 模型提供了相似之处。通常,基于张量的相似性 将更具结构性,而单词向 ..
发布时间:2022-05-15 23:08:31 Python

Spacy English模型安装失败

Windows 10,Python26-32位。VC++32位。 以管理员身份登录控制台。 未按说明安装英文模型here 也试过德语。已尝试手动下载和链接。 Spacy LINK命令有问题。 有人知道这个问题吗? Traceback (most recent call last): File "c:python27lib unpy.py", line 174, in _run_mo ..
发布时间:2022-05-15 22:50:31 其他开发

空格注释器问题/一致性

我目前将Spacy用于NLP目的(主要是词例化和标记化)。使用的模型是en-core-web-sm(2.1.0)。 运行以下代码以从查询中检索单词“Cleaned”的列表 import spacy nlp = spacy.load("en_core_web_sm") doc = nlp(query) list_words = [] for token in doc: if to ..
发布时间:2022-05-15 22:40:59 Python

在Spacy3中的文档中追加新实体失败

我正在Spacy的nlp管道中添加一个自定义组件。下面是我要遵循的步骤。 创建匹配器来挑选汽车名称 定义使用此匹配器的自定义组件,并将匹配项追加到现有的doc.ents。 尽管提供了SPAN对象类型,但最后一次追加失败。 # Matcher info cars = ['honda', 'toyota', 'yamaha', 'mazda', 'range rover', 'me ..
发布时间:2022-05-15 22:27:17 其他开发

向现有数据帧添加空间输出时,列不对齐

我有一个CSV,其中包含一列文章标题,我使用Spacy从其中提取出现在标题中的任何人名。尝试使用Spacy提取的名称向CSV添加新列时,它们与从中提取它们的行不对齐。 我相信这是因为Spacy结果有自己的索引,独立于原始数据的索引。 我已尝试将, index=df.index)添加到新列行,但得到";ValueError:传递的值的长度为2,索引暗示为10。&q; 如何将 ..
发布时间:2022-05-15 22:18:08 Python

将Spacy德语模型加载到Jupyter笔记本中

这是笔记本中的单元格: #%% !python -m spacy download de_core_news_sm spacy_en = spacy.load('en_core_web_sm') spacy_de = spacy.load('de_core_news_sm') 我收到此错误: OSError: [E050] Can't find model 'de_core_ne ..
发布时间:2022-05-15 21:56:39 Python

如何在使用Spacy作为管道时提高Rasa NLU的精度?

在Spacy文档中提到,它在特征化中使用vector similarity,因此在分类中使用 。 例如,如果我们测试的句子不在训练数据中,但具有相同的含义,那么它应该按照与训练句子分类相同的意图进行分类。 但这并没有发生。 假设训练数据是这样的- ## intent: delete_event - delete event - delete all events - delet ..
发布时间:2022-05-15 21:53:09 其他开发

C++和MurMurhash中的Python pip空格安装错误

编辑:有关正确答案,请参阅备注。 大家好,这是我在安装NLP程序spacy时遇到的一个问题。 我同时尝试了pip install -U spacy和pip install spacy,但似乎收到相同的错误。我在三台不同的电脑上试了试。我正在尝试通过Visual Studio 2017预览版安装。 看起来一切都很好,直到我收到以下错误: 错误:需要Microsoft Visual ..
发布时间:2022-05-15 21:39:45 Python