word2vec相关内容

如何比较三个预先训练好的模型之间的余弦相似性?

我有两个语料库--一个是所有女性领导人的演讲,另一个是男性领导人的演讲。我想测试一个语料库中两个词之间的余弦相似度与另一个语料库中相同两个词之间的余弦相似度显著不同的假设。这样的t检验(或等价的)合乎逻辑且可行吗? 此外,如果两个语料库的余弦相似度不同,我如何检查第三个语料库中相同的两个单词之间的余弦相似度是否比第一个语料库或第二个语料库更相似? 推荐答案 当然有可能。在给定一定 ..
发布时间:2022-07-18 15:22:27 其他开发

加载NLTK资源时出错:请使用NLTK下载程序获取资源: ";

我改编了Susan Li的post中的以下代码,但当代码尝试使用NLTK的资源对文本进行标记化时(或者,从Web加载的“键控向量”可能有问题),出现错误。错误发生在第5个代码块(见下文,从Web加载可能需要一段时间): 数据-lang=“js”数据-隐藏=“假”数据-控制台=“真”数据-巴贝尔=“假”> ## 1. load packages and data import logg ..
发布时间:2022-06-16 10:43:21 Python

从word2vec模型获取距离矩阵和特征矩阵

我已经使用gensim为一个巨大的语料库生成了word2vec模型,我需要使用k均值聚类来对词汇表进行聚类,以满足我的需要: 余弦距离矩阵(字对字,因此矩阵的大小为字数x字数) 要素矩阵(字对要素,因此矩阵的大小是字数x要素数(200)) 对于特征矩阵,我尝试使用x=Model.wv,得到的对象类型为gensim.Models.keyedvetors.KeyedVectors,它比我 ..
发布时间:2022-04-25 21:31:31 Python

Gensim列车不更新权重

我有一个特定于领域的语料库,我正在尝试为其训练嵌入。因为我想全面掌握词汇,所以我添加了glove.6B.50d.txt中的单词向量。从这里添加向量后,我正在使用我拥有的语料库训练模型。 我正在尝试here中的解决方案,但单词嵌入似乎没有更新。 这是我到目前为止拥有的解决方案。 #read glove embeddings glove_wv = KeyedVectors.load_ ..
发布时间:2022-04-23 09:49:41 Python

手套和word2vec的主要区别是什么?

word2vec和手套有什么区别? 训练单词的两种方法都是嵌入的吗?如果是,那么我们如何才能同时使用两者? 推荐答案 是,它们都是训练单词嵌入的方法。它们都提供相同的核心输出:每个单词一个向量,这些向量以有用的方式排列。也就是说,向量的相对距离/方向大致符合人类对整体词汇关联性的看法,甚至在某些显著的语义维度上也符合关联性。 word2vec通过在训练语料库上重复迭代,对神经网络 ..
发布时间:2022-04-22 22:55:59 AI人工智能

Python node2vec(Gensim Word2Vec)“进程以退出代码134完成(被信号6中断:SIGABRT)"

我正在用 Python 开发 node2vec,它在内部使用 Gensim 的 Word2Vec. 当我使用小型数据集时,代码运行良好.但是一旦我尝试在大型数据集上运行相同的代码,代码就会崩溃. 错误:进程以退出代码 134 结束(被信号 6:SIGABRT 中断). 给出错误的行是 model = Word2Vec(walks, size=args.dimensions,窗口 ..
发布时间:2022-01-08 10:03:32 Python

如何连接词向量形成句子向量

我在一些文章(Tomas Mikolov...)中了解到,形成句子向量的更好方法是连接词向量. 但是由于我的数学很笨拙,我仍然不确定细节. 例如 假设词向量的维数为m;并且一个句子有 n 个单词. 连接操作的正确结果是什么? 它是 1 x m*n 的行向量吗?还是一个 m x n 的矩阵? 解决方案 组合嵌入向量至少有三种常用的方法;(a) 求和,(b) 求和 ..
发布时间:2022-01-02 18:00:48 AI人工智能

Word2Vec:维数

我正在使用 Word2Vec 和大约 11,000,000 个标记的数据集,希望同时进行两个词的相似性(作为下游任务的同义词提取的一部分),但我不太清楚应该与 Word2Vec 一起使用多少维.有没有人根据标记/句子的数量对要考虑的维度范围有很好的启发? 解决方案 典型的间隔在 100-300 之间.我会说你至少需要 50D 才能达到最低的精度.如果您选择较少的维度,您将开始失去高维空间的 ..
发布时间:2022-01-02 17:43:40 AI人工智能

使用 word2vec 将单词分类为类别

背景 我有一些带有一些样本数据的向量,每个向量都有一个类别名称(地点、颜色、名称). ['john','jay','dan','nathan','bob'] ->'名字'['黄色'、'红色'、'绿色'] ->'颜色'['东京'、'北京'、'华盛顿'、'孟买'] ->'地方' 我的目标是训练一个模型,该模型接受一个新的输入字符串并预测它属于哪个类别.例如,如果新输入是“紫色",那么我应该能 ..
发布时间:2022-01-02 17:42:35 AI人工智能

word2vec:负采样(外行术语)?

我正在阅读下面的论文,但在理解负采样的概念方面遇到了一些麻烦. http://arxiv.org/pdf/1402.3722v1.pdf 有人可以帮忙吗? 解决方案 word2vec 的想法是最大化出现在一起的单词的向量之间的相似性(点积)(在上下文中)彼此)在文本中,并最小化不相似的单词的相似性.在您链接到的论文的等式 (3) 中,暂时忽略求幂.你有 v_c .v_w-- ..
发布时间:2022-01-02 17:38:53 AI人工智能

如何计算 Word2Vec 训练模型中的词频?

我需要统计word2vec的训练模型中每个词的出现频率.我希望输出如下所示: 词条计数苹果 123004国家 4432180运行 620102... 可以这样做吗?我如何从 word2vec 中获取这些数据? 解决方案 你使用的是哪个 word2vec 实现? 在流行的gensim 库中,在Word2Vec 模型建立其词汇表后(通过进行完整训练,或在build_vocab()> ..

是否可以从 Python 中的句子语料库重新训练 word2vec 模型(例如 GoogleNews-vectors-negative300.bin)?

我正在使用预先训练的谷歌新闻数据集通过在 python 中使用 Gensim 库来获取词向量 model = Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) 加载模型后,我将训练评论句子词转换为向量 #从训练文件中读取所有句子使用 open('restaurantSentence ..
发布时间:2022-01-02 17:30:32 Python

如何将 Gensim doc2vec 与预训练的词向量一起使用?

我最近在 Gensim 中发现了 doc2vec.如何将预训练的词向量(例如在 word2vec 原始网站中找到)与 doc2vec 一起使用? 还是 doc2vec 从用于段落向量训练的相同句子中获取词向量? 谢谢. 解决方案 请注意,“DBOW" (dm=0) 训练模式不需要甚至创建词向量作为培训.它只是学习擅长依次预测每个单词的文档向量(很像 word2vec skip- ..
发布时间:2022-01-02 17:18:22 Python

Fasttext .vec 和 .bin 文件的区别

我最近下载了用于英语的 fasttext 预训练模型.我有两个文件: wiki.en.vec wiki.en.bin 我不确定这两个文件有什么区别? 解决方案 .vec 文件仅包含纯文本形式的聚合词向量..bin 文件另外包含模型参数,最重要的是,包含所有 n-gram 的向量. 因此,如果您想使用那些 n-gram(FastText 著名的“子词信息")对未训练过的单 ..
发布时间:2021-12-27 17:01:47 Python

如何加快 Gensim Word2vec 模型加载时间?

我正在构建一个聊天机器人,所以我需要使用 Word2Vec 对用户的输入进行矢量化处理. 我使用的是 Google 提供的 300 万字的预训练模型 (GoogleNews-vectors-negative300). 所以我使用 Gensim 加载模型: 导入gensim模型 = gensim.models.KeyedVectors.load_word2vec_format('Goo ..
发布时间:2021-12-27 16:48:25 其他开发

Gensim Word2Vec 从预训练模型中选择次要的词向量集

我在 gensim 中有一个大型的预训练 Word2Vec 模型,我想从中使用预训练的词向量作为 Keras 模型中的嵌入层. 问题是嵌入的大小很大,我不需要大部分词向量(因为我知道哪些词可以作为输入出现).所以我想去掉它们以减小嵌入层的大小. 有没有办法根据单词的白名单只保留所需的词向量(包括相应的索引!)? 解决方案 感谢 这个答案(我已经改了代码一点点使它更好).您可以使 ..
发布时间:2021-12-19 13:05:38 Python

使用预训练的 word2vec 和 LSTM 进行单词生成

LSTM/RNN 可用于文本生成.这个展示了对 Keras 模型使用预训练的 GloVe 词嵌入. 如何在 Keras LSTM 中使用预训练的 Word2Vec 词嵌入模型?这篇帖子确实有帮助. 当模型以单词序列作为输入时,如何预测/生成下一个单词? 尝试的示例方法: # 准备 word2vec 词嵌入的示例代码进口原件文档 = [“实验室 abc 计算机应用程序的人机界面",《 ..
发布时间:2021-12-14 09:31:18 AI人工智能

使用 Word2VecModel.transform() 在地图功能中不起作用

我使用 Spark 构建了一个 Word2Vec 模型并将其保存为模型.现在,我想在另一个代码中使用它作为离线模型.我已经加载了模型并用它来呈现一个词的向量(例如你好),它运行良好.但是,我需要在 RDD 中使用 map 调用很多词. 当我在 map 函数中调用 model.transform() 时,它抛出这个错误: “看来您正试图从广播中引用 SparkContext"例外:您似乎 ..
发布时间:2021-11-28 21:43:33 Python