spacy相关内容
我正在使用 spaCy(一个很棒的 Python NLP 库)来处理许多非常大的文档,但是,我的语料库中有许多我想在文档处理管道中消除的常用词.有没有办法从管道组件内的文档中删除令牌? 解决方案 spaCy 的标记化非破坏性,因此它始终代表原始输入文本,从不添加或删除任何内容.这是 Doc 对象的核心原则:您应该总是能够重构和再现原始输入文本. 虽然您可以解决这个问题,但通常有更好的
..
我想使用 spacy 作为在线服务的 NLP.每次用户提出请求时,我都会调用脚本“my_script.py" 以: 开头 from spacy.en import Englishnlp = 英语() 我遇到的问题是这两行需要超过 10 秒,是否可以将 English() 保留在内存中或其他一些选项以将加载时间减少到不到一秒? 解决方案 您说过要在收到请求时启动独立脚本 (my_
..
输入文本总是有1~3个形容词和一个名词的菜名列表 输入 泰式冰茶香辣炸鸡甜辣椒猪肉泰式咖喱鸡 输出: 泰国茶,冰茶辣鸡,炸鸡甜猪肉,辣椒猪肉泰式鸡肉,咖喱鸡,泰式咖喱 基本上,我希望解析句子树并尝试通过将形容词与名词配对来生成双元组. 我想用 spacy 或 nltk 来实现这一点 解决方案 我使用了带有英文模型的 spacy 2.0.找到名词和“非名词"来解析输入,然
..
我在 google colab 中使用 spacy 来构建一个 NER 模型,我已经使用该模型下载了 spaCy 'en_core_web_lg' 模型 import spacy.clispacy.cli.download(“en_core_web_lg") 然后我收到一条消息 ✔ 下载安装成功您现在可以通过 spacy.load('en_core_web_lg') 加载模型 但是当我
..
我尝试了几种加载谷歌新闻 word2vec 向量的方法(https://code.google.com/archive/p/word2vec/): en_nlp = spacy.load('en',vector=False)en_nlp.vocab.load_vectors_from_bin_loc('GoogleNews-vectors-negative300.bin') 以上给出: Me
..
SpaCy 文档和示例表明 PhraseMatcher 类可用于匹配文档中的标记序列.必须提供将要匹配的序列词汇表. 在我的应用程序中,我的文档是标记和短语的集合.有不同类型的实体.数据是远程自然语言(文档是一组具有半随机顺序的关键字).我正在尝试查找多种类型的匹配项. 例如: 黄色童鞋 如何使用 SpaCy 的 PhraseMatches 找到颜色(例如黄色)、产品类型(例如靴子
..
我已经下载了 en_core_web_lg 模型并试图找到两个句子之间的相似性: nlp = spacy.load('en_core_web_lg')search_doc = nlp("这是美国人和英国人之间非常奇怪的争论")main_doc = nlp("他是日本人,但在我眼里是真正的英国绅士,也是我喜欢上学的另一个原因.")打印(main_doc.similarity(search_doc)
..
我正在尝试创建一个匹配器,用于在文本中查找否定的自定义实体.它适用于跨越单个令牌的实体,但我在尝试捕获跨越多个令牌的实体时遇到问题. 举个例子,假设我的自定义实体是动物(并标记为 token.ent_type_ = "animal") ["cat", "dog", "artic fox"](注意最后一个实体有两个词). 现在我想在文本中找到那些被否定的实体,所以我可以使用以下模式
..
输入词是独立的,不是句子的一部分,但我想获得它所有可能的引理,就好像输入词在不同的句子中一样,带有所有可能的词性标签.我也想得到单词引理的查找版本. 我为什么要这样做? 我已经从所有文档中提取了引理,并且还计算了引理之间的依赖链接的数量.我已经使用 en_core_web_sm 完成了这两项工作.现在,给定一个输入词,我想返回与输入词的所有可能引理链接最频繁的引理. 简而言之,我
..
对于词形还原,spacy 有一个单词列表:形容词, 副词, 动词... 还列出了例外情况: adverbs_irreg... 对于常规的,有一组 规则 让我们以“更宽"这个词为例 因为它是一个形容词,所以词形还原的规则应该来自这个列表: ADJECTIVE_RULES = [["呃", ""],[“美东时间", ""],["er", "e"],["est", "e"]] 据我所知,
..
即使我下载了模型,它也无法加载 [jalal@goku entity-sentiment-analysis]$ which python/scratch/sjn/anaconda/bin/python[jalal@goku entity-sentiment-analysis]$ sudo python -m spacy 下载 en[sudo] jalal 的密码:收集 https://githu
..
我已经在 gensim 中训练了我自己的 word2vec 模型,我正在尝试在 spacy 中加载该模型.首先,我需要将它保存在我的磁盘中,然后尝试在 spacy 中加载一个初始化模型,但无法弄清楚究竟是如何加载的. gensimmodel出[252]:进口空间spacy.load(gensimmode
..
我正在尝试通过为 python 版本 3.6.1 运行 pip install spacy 来安装 spacy,但我不断收到如下错误,如何摆脱这个问题?以前我遇到 cl.exe not found 错误,之后我在 cl.exe 存在的环境变量中添加了 Visual Studio 路径. 为 spacy 构建轮子失败为 spacy 运行 setup.py clean为 murmurhash 运行
..
我使用这个官方示例代码来训练使用我自己的训练样本从头开始创建一个 NER 模型. 当我在新文本上使用此模型进行预测时,我想获得每个实体的预测概率. # 测试保存的模型打印(“加载自",输出目录)nlp2 = spacy.load(output_dir)对于文本,TRAIN_DATA 中的 _:doc = nlp2(文本)print("Entities", [(ent.text, ent.
..
我是 Python 新手,遇到了无法解决的问题.我想在 python 中安装和使用包 spacy.因此我打开 cmd 并运行 pip install spacy 在安装依赖项时,我收到一条错误消息: ---------------------------------------- Command ""c:\users\xxx\appdata\local\programs\python\p
..
我一整天都在安装 SpaCy. sudo pip install -U spacy查看索引:https://pypi.org/simple、https://www.piwheels.org/simple收集空间使用缓存的 https://files.pythonhosted...安装构建依赖...完成命令 python setup.py egg_info 的完整输出:极乐构建轮失败错误:无法构建
..
我正在使用 spacy 进行简单的自然语言处理.我正在通过测量单词之间的相似性来过滤单词. 我编写并使用了 spacy 文档中显示的以下简单代码,但结果看起来不像 文档. 导入空间nlp = spacy.load('en_core_web_lg')tokens = nlp('狗猫香蕉')对于令牌中的令牌1:对于令牌中的令牌2:sim = token1.similarity(token2)p
..
我有一个预训练的 word2vec 模型,我将其加载到 spacy 以向量化新单词.给定新文本,我执行 nlp('hi').vector 以获得单词 'hi' 的向量. 最终,我的预训练模型的词汇表中不存在一个新词需要向量化.在这种情况下,spacy 默认为一个用零填充的向量.我希望能够为 OOV 术语设置此默认向量. 示例: 导入空间path_model = '/home/bion
..
我尝试运行我的第一个 Chatterbot 程序(它来自 Chatterbot 的 PyPi 页面),当我运行它时,出现错误.该错误与 Spacy 有关,但我无法找到解决方案. 代码如下: from chatterbot.trainers import ChatterBotCorpusTrainerchatbot = ChatBot('Ron Obvious')培训师 = ChatterB
..
我正在尝试将 spacy 从 2.0.18 版更新到 2.1.1 版.但是每次我尝试运行命令时 pip install spacy-nightly 或 pip install -U spacy==2.1.1 我刚收到 error: [WinError 2] 系统找不到指定的文件微信py_compiler msvc 有很多不可读的输出.现在我认为它与 C++ 编译器 spacy 的使用有
..