spacy 第14页 - IT屋-程序员软件开发技术分享社区

spaCy的词性和依赖性标签是什么意思?

spaCy用词性标记Document中每个Token的标签(两种不同格式，一种存储在Token的pos和pos_属性中，另一种存储在Token属性中在tag和tag_属性中)，并对其.head令牌有语法依赖性(存储在dep和dep_属性中). 其中一些标签是不言自明的，甚至对于像我这样没有语言背景的人也是如此: >>> import spacy >>> en_nlp = spacy.l ..

发布时间：2020-05-18 00:44:28 python nlp spacy 其他开发

Spacy，匹配器具有跨越单个令牌的多个实体

我正在尝试创建一个匹配器，该匹配器在文本中查找否定的自定义实体.对于跨越单个令牌的实体，它工作正常，但是我在尝试捕获跨越多个令牌的实体时遇到了麻烦. 例如，假设我的自定义实体是动物(并标记为token.ent_type_ = "animal") ["cat", "dog", "artic fox"](请注意，最后一个实体有两个词). 现在，我想在文本中找到但被否定的那些实体，因此 ..

发布时间：2020-05-18 00:43:32 python-3.x nlp spacy 其他开发

如何编写POS正则表达式的空头匹配器

Spacy我想结合两个功能-词性(POS)和基于规则的匹配. 如何将它们巧妙地结合在一起? 例如-假设输入是一个句子，我想验证它是否符合某些POS排序条件-例如，动词位于名词之后(类似于名词**动词正则表达式).结果应该是对还是错.那可行吗?或匹配器是特定于示例中的基于规则的匹配可以具有POS规则吗? 如果没有-这是我目前的计划-将所有内容集中在一个字符串中并应用正则表达 ..

发布时间：2020-05-18 00:41:28 nlp spacy 其他开发

是否可以在内存中保留乱码以减少加载时间?

我想将spacy用作在线服务的NLP. 每次用户提出请求时，我都将脚本称为"my_script.py" 其开头为: from spacy.en import English nlp = English() 我遇到的问题是这两行要花10秒钟以上的时间，是否有可能将English()保留在ram或其他选项中以将加载时间减少到不到一秒钟? 解决方案您说过要在请求进入时启动独立脚 ..

发布时间：2020-05-18 00:38:58 python nlp spacy Python

从SpaCy删除范围内的单词?

我正在用Spacy解析一个句子，如下所示: import spacy nlp = spacy.load("en") span = nlp("This is some text.") 我想知道是否有一种方法可以删除跨度中的单词，同时仍然保持其余单词的格式像句子一样.如 del span[3] 这可能会产生类似的句子这是一些. 如果其他一些没有SpaCy的方法也能 ..

发布时间：2020-05-18 00:38:44 python-3.x nlp spacy 其他开发

无法在Google colab上加载spacy模型'en_core_web_lg'

我正在使用Google Colab中的spacy建立一个NER模型，为此我使用以下方式下载了spaCy'en_core_web_lg'模型 import spacy.cli spacy.cli.download("en_core_web_lg") 我收到一条消息 ✔ Download and installation successful You c ..

发布时间：2020-05-18 00:38:27 python nlp google-colaboratory spacy Python

spacy lemmatizer如何工作?

对于词形匹配，spacy具有单词列表:形容词，副词，动词...以及例外列表:adverbs_irreg ...对于常规的副词，有一组让我们以“更广泛"一词为例因为这是一个形容词，所以必须从以下列表中选择词法的唯一化规则: ADJECTIVE_RULES = [ ["er", ""], ["est", ""], ["er", "e"], ["est", ..

发布时间：2020-05-18 00:38:22 python nlp wordnet spacy lemmatization Python

Spacy自定义标记生成器，使用Infix正则表达式仅包含连字符作为标记

我想在Spacy中加入连字符，例如:长期，自尊等.在Stackoverflow上查看了一些类似的帖子之后， Github ，其在其他地方，我还编写了一个自定义标记器，如下所示. import re from spacy.tokenizer import Tokenizer prefix_re = re.compile(r'''^[\[\("']''') suffix_re = re.com ..

发布时间：2020-05-18 00:38:03 regex nlp tokenize spacy linguistics 其他开发

SpaCy:如何加载Google新闻word2vec向量?

我尝试了几种加载Google新闻word2vec向量的方法( https://code .google.com/archive/p/word2vec/): en_nlp = spacy.load('en',vector=False) en_nlp.vocab.load_vectors_from_bin_loc('GoogleNews-vectors-negative300.bin') 上 ..

发布时间：2020-05-18 00:36:50 python nlp word2vec spacy Python

随意添加/删除停用词

添加/删除带有停用字符的停用词的最佳方法是什么?我正在使用 token.is_stop 函数，并希望对集合进行一些自定义更改.我正在查看文档，但找不到有关停用词的任何内容.谢谢！解决方案您可以在像这样处理文本之前对其进行编辑(请参见此帖子): >>> import spacy >>> nlp = spacy.load("en") >>> nlp.vocab["the"].is_s ..

发布时间：2020-05-18 00:32:30 python nlp stop-words spacy Python

即使我下载了模型也无法加载 [jalal@goku entity-sentiment-analysis]$ which python /scratch/sjn/anaconda/bin/python [jalal@goku entity-sentiment-analysis]$ sudo python -m spacy download en [sudo] password for jala ..

发布时间：2020-05-18 00:29:43 nlp spacy 其他开发

带Spacy管的多线程NLP

我正在尝试将Spacy NLP(自然语言处理)规则应用到像Wikipedia Dump这样的大文本文件中.这是我基于Spacy的文档示例的代码: from spacy.en import English input = open("big_file.txt") big_text= input.read() input.close() nlp= English() out = n ..

发布时间：2020-05-13 23:42:59 python multithreading nlp pipeline spacy Python

以spacy读取文本文件的语料库

我看到的所有使用spacy的示例都只是读入一个文本文件(大小很小). 如何将大量文本文件加载到spacy中? 我可以通过使语料库中的所有文本腌制来实现文本化: docs = textacy.io.spacy.read_spacy_docs('E:/spacy/DICKENS/dick.pkl', lang='en') for doc in docs: print(doc) ..

发布时间：2020-05-13 20:06:37 nlp multiprocessing generator pipeline spacy 其他开发

偶尔，如何使用在gensim中创建的自己的word2vec模型?

我已经在gensim中训练了自己的word2vec模型，并且试图以spacy加载该模型.首先，我需要将其保存在磁盘中，然后尝试以零散的方式加载init模型，但无法确切地知道该怎么做. gensimmodel Out[252]: import spacy spacy.load(gensimmod ..

发布时间：2020-05-10 18:56:14 model word2vec gensim spacy 其他开发

空间链接错误

运行时: import spacy nlp = spacy.load('en') 打印以下内容: 警告:找不到"en"的模型仅加载"en"令牌生成器. /site-packages/spacy/data为空，初始化文件除外. 所有文件路径仅指向我的python的单个安装. 任何帮助解决此问题的人. 谢谢！会解决方案在Windows 10上尝试此问题 ..

发布时间：2020-05-10 18:51:09 python models spacy Python

如何通过程序Node.js为RASA NLU创建训练数据

如何通过RASA NLU程序创建培训数据? 实际上，我正在使用MEAN堆栈开发应用程序，该应用程序准备了需要使用RASA NLU进行训练的数据. 但是我不知道如何将该信息从我的nodejs服务器传递到RASA NLU.是否有支持的api来实现这一目标? 解决方案 Rasa具有功能强大的API，如此处. 要回答特定问题，您可以通过以下命令将训练数据传递给Rasa NLU API: ..

发布时间：2020-05-08 00:59:11 mean-stack spacy rasa-nlu 其他开发

无法导入en_core_web_sm或Spacy

我正在尝试将en_core_web_sm作为独立程序包导入，并且也尝试通过spacy.但是在两种情况下我都在ujson模块中遇到错误. 错误: ModuleNotFoundError: No module named 'srsly.ujson.ujson' 我通过以下命令安装了en_core_web_sm python -m spacy download en_core_w ..

发布时间：2020-05-04 10:19:46 machine-learning pip anaconda conda spacy AI人工智能

Spacy-代词的残词化提供了一些错误的输出

通过通过[token.lemma_ for token in doc]对代词进行词素化将代词的词法词化为-PRON-，这是一个错误吗? 解决方案下面的代码段可以帮助您从小写的修饰词中删除-PRON-. [token.lemma_.lower() if token.lemma_ != '-PRON-' else token.lower_ for token in doc] ..

发布时间：2020-05-04 10:17:50 machine-learning nlp spacy AI人工智能

SpaCy的相似度如何计算?

初学者NLP问题在这里: .similiarity方法如何工作? 哇，空间太好了！它的tfidf模型可能更易于预处理，但是只有一行代码(token.vector)的w2v? -太棒了！在他的在nlp = spacy.load('en')和doc = nlp(raw_text)之后我们可以在令牌和大块之间进行相似度查询. 但是，此.similarity方法在幕后计算的是什么? ..

发布时间：2020-05-04 10:08:15 python machine-learning nlp word2vec spacy AI人工智能

通过我自己的培训示例来培训spaCy现有的POS标记器

我试图在我自己的词典上训练现有的POS标记器，而不是从头开始(我不想创建“空模型"). 在spaCy的文档中，显示“加载要统计的模型"，下一步是“使用add_label方法将标签映射添加到标记器".但是，当我尝试加载英语小型模型并添加标签映射时，它会引发此错误: ValueError:[T003]当前不支持调整大小的预训练Tagger模型. 我想知道如何修复它. 我还看到了实施在 ..

发布时间：2020-05-04 09:53:26 machine-learning nlp spacy pos-tagger AI人工智能

spacy相关内容