gensim相关内容

如何比较三个预先训练好的模型之间的余弦相似性?

我有两个语料库--一个是所有女性领导人的演讲,另一个是男性领导人的演讲。我想测试一个语料库中两个词之间的余弦相似度与另一个语料库中相同两个词之间的余弦相似度显著不同的假设。这样的t检验(或等价的)合乎逻辑且可行吗? 此外,如果两个语料库的余弦相似度不同,我如何检查第三个语料库中相同的两个单词之间的余弦相似度是否比第一个语料库或第二个语料库更相似? 推荐答案 当然有可能。在给定一定 ..
发布时间:2022-07-18 15:22:27 其他开发

从word2vec模型获取距离矩阵和特征矩阵

我已经使用gensim为一个巨大的语料库生成了word2vec模型,我需要使用k均值聚类来对词汇表进行聚类,以满足我的需要: 余弦距离矩阵(字对字,因此矩阵的大小为字数x字数) 要素矩阵(字对要素,因此矩阵的大小是字数x要素数(200)) 对于特征矩阵,我尝试使用x=Model.wv,得到的对象类型为gensim.Models.keyedvetors.KeyedVectors,它比我 ..
发布时间:2022-04-25 21:31:31 Python

Gensim列车不更新权重

我有一个特定于领域的语料库,我正在尝试为其训练嵌入。因为我想全面掌握词汇,所以我添加了glove.6B.50d.txt中的单词向量。从这里添加向量后,我正在使用我拥有的语料库训练模型。 我正在尝试here中的解决方案,但单词嵌入似乎没有更新。 这是我到目前为止拥有的解决方案。 #read glove embeddings glove_wv = KeyedVectors.load_ ..
发布时间:2022-04-23 09:49:41 Python

gensim LdaMulticore 不是多处理?

当我在一台 12 核的机器上运行 gensim 的 LdaMulticore 模型时,使用: lda = LdaMulticore(corpus, num_topics=64, workers=10) 我收到一条日志消息,上面写着 在此节点上使用串行 LDA 版本 几行之后,我看到另一条日志消息显示 使用 10 个进程训练 LDA 模型 当我运行 top 时,我看到 11 个 pyth ..
发布时间:2022-01-12 12:50:19 Python

Python node2vec(Gensim Word2Vec)“进程以退出代码134完成(被信号6中断:SIGABRT)"

我正在用 Python 开发 node2vec,它在内部使用 Gensim 的 Word2Vec. 当我使用小型数据集时,代码运行良好.但是一旦我尝试在大型数据集上运行相同的代码,代码就会崩溃. 错误:进程以退出代码 134 结束(被信号 6:SIGABRT 中断). 给出错误的行是 model = Word2Vec(walks, size=args.dimensions,窗口 ..
发布时间:2022-01-08 10:03:32 Python

Gensim Fasttext 预训练模型如何获取词汇表外单词的向量?

我正在使用 gensim 加载预训练的 fasttext 模型.我从 fasttext 网站下载了英语维基百科训练模型. 这是我编写的加载预训练模型的代码: from gensim.models import FastText as ft模型=ft.load_fasttext_format("wiki.en.bin") 我尝试检查人声中是否存在以下短语(这种情况很少见,因为这些是预训练的 ..
发布时间:2022-01-02 17:48:23 Python

使用 word2vec 将单词分类为类别

背景 我有一些带有一些样本数据的向量,每个向量都有一个类别名称(地点、颜色、名称). ['john','jay','dan','nathan','bob'] ->'名字'['黄色'、'红色'、'绿色'] ->'颜色'['东京'、'北京'、'华盛顿'、'孟买'] ->'地方' 我的目标是训练一个模型,该模型接受一个新的输入字符串并预测它属于哪个类别.例如,如果新输入是“紫色",那么我应该能 ..
发布时间:2022-01-02 17:42:35 AI人工智能

是否可以从 Python 中的句子语料库重新训练 word2vec 模型(例如 GoogleNews-vectors-negative300.bin)?

我正在使用预先训练的谷歌新闻数据集通过在 python 中使用 Gensim 库来获取词向量 model = Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) 加载模型后,我将训练评论句子词转换为向量 #从训练文件中读取所有句子使用 open('restaurantSentence ..
发布时间:2022-01-02 17:30:32 Python

Python Gensim:如何使用 LDA 模型计算文档相似度?

我有一个经过训练的 LDA 模型,我想从我训练模型的语料库中计算两个文档之间的相似度得分.在学习了所有 Gensim 教程和功能后,我仍然无法理解它.有人可以给我一个提示吗?谢谢! 解决方案 不知道这是否会有所帮助,但是,当使用实际文档作为查询时,我设法在文档匹配和相似性方面取得了成功的结果.> dictionary = corpora.Dictionary.load('dictiona ..
发布时间:2022-01-02 17:28:28 Python

解释跨文档单词的 TF-IDF 分数总和

首先让我们提取每个文档每个术语的 TF-IDF 分数: from gensim 导入语料库、模型、相似点文档 = [“实验室 abc 计算机应用程序的人机界面",《用户对计算机系统响应时间意见的调查》,《EPS用户界面管理系统》,《EPS的系统与人体系统工程测试》,“用户感知响应时间与错误测量的关系",《随机二叉无序树的生成》,"树中路径的交集图",“图未成年人IV树的宽度和井准排序",《图未成 ..
发布时间:2022-01-02 17:25:59 Python

如何从gensim打印LDA主题模型?Python

使用 gensim 我能够从 LSA 中的一组文档中提取主题,但如何访问从 LDA 模型生成的主题? 打印 lda.print_topics(10) 时,代码给出以下错误,因为 print_topics() 返回 NoneType: 回溯(最近一次调用最后一次): 中的文件“/home/alvas/workspace/XLINGTOP/xlingtop.py",第 93 行对于 lda.p ..
发布时间:2022-01-02 17:20:25 Python

如何将 Gensim doc2vec 与预训练的词向量一起使用?

我最近在 Gensim 中发现了 doc2vec.如何将预训练的词向量(例如在 word2vec 原始网站中找到)与 doc2vec 一起使用? 还是 doc2vec 从用于段落向量训练的相同句子中获取词向量? 谢谢. 解决方案 请注意,“DBOW" (dm=0) 训练模式不需要甚至创建词向量作为培训.它只是学习擅长依次预测每个单词的文档向量(很像 word2vec skip- ..
发布时间:2022-01-02 17:18:22 Python

每次我在同一个语料库上训练时,LDA 模型都会生成不同的主题

我正在使用 python gensim 从 231 个句子的小语料库中训练潜在狄利克雷分配 (LDA) 模型.然而,每次我重复这个过程时,它都会产生不同的主题. 为什么相同的LDA参数和语料每次都会生成不同的主题? 我该如何稳定话题生成? 我正在使用这个语料库(http://pastebin.com/WptkKVF0)和这个停用词列表(http://pastebin.com/LL ..
发布时间:2022-01-02 17:15:28 Python

没有名为“gensim"的模块,但已经安装了它

我遇到了这个错误问题,我在基本(root)环境的 jupyter notebook 中运行了这个脚本,日志说已经安装了 gensim 库,我已经运行了命令 !pip install gensim 在我导入它之前,但它仍然无法导入,错误说 ModuleNotFoundError: No module named 'gensim' !pip install gensim进口原件从 gensim.mo ..

如何加快 Gensim Word2vec 模型加载时间?

我正在构建一个聊天机器人,所以我需要使用 Word2Vec 对用户的输入进行矢量化处理. 我使用的是 Google 提供的 300 万字的预训练模型 (GoogleNews-vectors-negative300). 所以我使用 Gensim 加载模型: 导入gensim模型 = gensim.models.KeyedVectors.load_word2vec_format('Goo ..
发布时间:2021-12-27 16:48:25 其他开发

如何使用 Pandas 数据框获取 tfidf?

我想从下面的文档中计算 tf-idf.我正在使用 python 和 Pandas. 将pandas导入为pddf = pd.DataFrame({'docId': [1,2,3],'sent': ['这是第一句','这是第二句','这是第三句']}) 首先,我认为我需要为每一行获取 word_count.于是我写了一个简单的函数: def word_count(sent):word2cnt ..
发布时间:2021-12-25 14:29:47 Python

Gensim Word2Vec 从预训练模型中选择次要的词向量集

我在 gensim 中有一个大型的预训练 Word2Vec 模型,我想从中使用预训练的词向量作为 Keras 模型中的嵌入层. 问题是嵌入的大小很大,我不需要大部分词向量(因为我知道哪些词可以作为输入出现).所以我想去掉它们以减小嵌入层的大小. 有没有办法根据单词的白名单只保留所需的词向量(包括相应的索引!)? 解决方案 感谢 这个答案(我已经改了代码一点点使它更好).您可以使 ..
发布时间:2021-12-19 13:05:38 Python

在 keras 中使用带有 LSTM nn 的 Gensim Fasttext 模型

我已经在非常短的句子(最多 10 个单词)的语料库上使用 Gensim 训练了 fasttext 模型.我知道我的测试集包括不在我的训练语料库中的词,即我的语料库中的一些词就像“Oxytocin"一样.“Lexitocin"、“Ematrophin"、“Betaxitocin" 给定测试集中的一个新词,fasttext 非常清楚地知道如何使用字符级别的 n-gram 生成一个与训练集中其他相 ..
发布时间:2021-12-09 22:16:44 其他开发