word-embedding相关内容

如何比较三个预先训练好的模型之间的余弦相似性?

我有两个语料库--一个是所有女性领导人的演讲,另一个是男性领导人的演讲。我想测试一个语料库中两个词之间的余弦相似度与另一个语料库中相同两个词之间的余弦相似度显著不同的假设。这样的t检验(或等价的)合乎逻辑且可行吗? 此外,如果两个语料库的余弦相似度不同,我如何检查第三个语料库中相同的两个单词之间的余弦相似度是否比第一个语料库或第二个语料库更相似? 推荐答案 当然有可能。在给定一定 ..
发布时间:2022-07-18 15:22:27 其他开发

Gensim列车不更新权重

我有一个特定于领域的语料库,我正在尝试为其训练嵌入。因为我想全面掌握词汇,所以我添加了glove.6B.50d.txt中的单词向量。从这里添加向量后,我正在使用我拥有的语料库训练模型。 我正在尝试here中的解决方案,但单词嵌入似乎没有更新。 这是我到目前为止拥有的解决方案。 #read glove embeddings glove_wv = KeyedVectors.load_ ..
发布时间:2022-04-23 09:49:41 Python

手套和word2vec的主要区别是什么?

word2vec和手套有什么区别? 训练单词的两种方法都是嵌入的吗?如果是,那么我们如何才能同时使用两者? 推荐答案 是,它们都是训练单词嵌入的方法。它们都提供相同的核心输出:每个单词一个向量,这些向量以有用的方式排列。也就是说,向量的相对距离/方向大致符合人类对整体词汇关联性的看法,甚至在某些显著的语义维度上也符合关联性。 word2vec通过在训练语料库上重复迭代,对神经网络 ..
发布时间:2022-04-22 22:55:59 AI人工智能

词汇量和嵌入维度之间的首选比例是多少?

使用例如gensim、word2vec或类似方法训练嵌入向量时,我想知道什么是好的比率,或者嵌入维度与词汇表大小之间是否有更好的比率? 另外,随着更多数据的出现,这种情况会发生怎样的变化? 由于我仍在讨论如何在训练嵌入向量时选择合适的窗口大小? 我之所以问这个问题,是因为我没有用现实生活中的语言词典来训练我的网络,而是这些句子将描述进程和文件以及其他进程之间的关系,等等。 例如,我的文本语 ..

PyTorch:将词向量加载到 Field 词汇表与嵌入层

我从 Keras 来到 PyTorch.我想创建一个 PyTorch 嵌入层(大小为 V x D 的矩阵,其中 V 在词汇索引和 D 是嵌入向量维度)与 GloVe 向量,但对所需步骤感到困惑. 在 Keras 中,你可以通过让嵌入层构造函数采用 weights 参数来加载 GloVe 向量: # Keras 代码.embedding_layer = Embedding(..., weig ..
发布时间:2022-01-06 19:54:09 AI人工智能

是否可以在 pytorch 的嵌入层中仅冻结某些嵌入权重?

在 NLP 任务中使用 GloVe 嵌入时,数据集中的某些词可能不存在于 GloVe 中.因此,我们为这些未知词实例化随机权重. 是否可以冻结从 GloVe 获得的权重,并仅训练新实例化的权重? 我只知道我们可以设置:model.embedding.weight.requires_grad = False 但这会使新单词无法训练.. 或者有更好的方法来提取单词的语义.. ..
发布时间:2022-01-06 19:38:21 Python

嵌入pytorch

我在 Stackoverflow 上查看了 PyTorch 教程和与此类似的问题. 我很困惑;pytorch 中的嵌入(Embedding)是否使相似的词更接近对彼此?我只需要给它所有的句子吗?或者它只是一个查找表,我需要对模型进行编码? 解决方案 nn.Embedding 持有一个维度为 (vocab_size, vector_size) 的 Tensor,即大小为词汇表 x 每个 ..
发布时间:2022-01-06 19:11:54 Python

如何计算 Word2Vec 训练模型中的词频?

我需要统计word2vec的训练模型中每个词的出现频率.我希望输出如下所示: 词条计数苹果 123004国家 4432180运行 620102... 可以这样做吗?我如何从 word2vec 中获取这些数据? 解决方案 你使用的是哪个 word2vec 实现? 在流行的gensim 库中,在Word2Vec 模型建立其词汇表后(通过进行完整训练,或在build_vocab()> ..

没有名为“gensim"的模块,但已经安装了它

我遇到了这个错误问题,我在基本(root)环境的 jupyter notebook 中运行了这个脚本,日志说已经安装了 gensim 库,我已经运行了命令 !pip install gensim 在我导入它之前,但它仍然无法导入,错误说 ModuleNotFoundError: No module named 'gensim' !pip install gensim进口原件从 gensim.mo ..

Gensim Word2Vec 从预训练模型中选择次要的词向量集

我在 gensim 中有一个大型的预训练 Word2Vec 模型,我想从中使用预训练的词向量作为 Keras 模型中的嵌入层. 问题是嵌入的大小很大,我不需要大部分词向量(因为我知道哪些词可以作为输入出现).所以我想去掉它们以减小嵌入层的大小. 有没有办法根据单词的白名单只保留所需的词向量(包括相应的索引!)? 解决方案 感谢 这个答案(我已经改了代码一点点使它更好).您可以使 ..
发布时间:2021-12-19 13:05:38 Python

如何从 Keras 嵌入层获取词向量

我目前正在使用具有嵌入层作为第一层的 Keras 模型.为了可视化单词之间的关系和相似性,我需要一个函数来返回词汇表中每个元素的单词和向量的映射(例如,'love' - [0.21, 0.56, ..., 0.65, 0.10]). 有什么办法吗? 解决方案 可以通过embedding层的get_weights()方法获取word embeddings(即本质上是embedding层 ..
发布时间:2021-12-19 12:36:36 Python

在 keras 中使用带有 LSTM nn 的 Gensim Fasttext 模型

我已经在非常短的句子(最多 10 个单词)的语料库上使用 Gensim 训练了 fasttext 模型.我知道我的测试集包括不在我的训练语料库中的词,即我的语料库中的一些词就像“Oxytocin"一样.“Lexitocin"、“Ematrophin"、“Betaxitocin" 给定测试集中的一个新词,fasttext 非常清楚地知道如何使用字符级别的 n-gram 生成一个与训练集中其他相 ..
发布时间:2021-12-09 22:16:44 其他开发

将嵌入层添加到 lstm 自动编码器时出错

我有一个运行良好的 seq2seq 模型.我想在这个网络中添加一个嵌入层,但我遇到了错误. 这是我使用预训练词嵌入的架构,效果很好(实际上代码几乎与可用代码相同这里,但我想在模型中包含嵌入层而不是使用预训练的嵌入向量): LATENT_SIZE = 20输入 = 输入(形状=(SEQUENCE_LEN,EMBED_SIZE),名称=“输入")编码 = 双向(LSTM(LATENT_SIZE ..
发布时间:2021-11-30 19:41:06 其他开发

我什么时候应该考虑使用预训练模型 word2vec 模型权重?

假设我的语料库相当大 - 有数万个独特的词.我可以使用它直接构建 word2vec 模型(下面代码中的方法 #1),也可以使用预先训练的模型权重初始化新的 word2vec 模型,并使用我自己的语料库对其进行微调(方法 #2).方法#2 值得考虑吗?如果是这样,是否有关于何时考虑使用预训练模型的经验法则? # 方法 #1从 gensim.models 导入 Word2Vec模型 = Word2V ..
发布时间:2021-09-28 18:32:40 Python

Python Tf idf 算法

我想在一组文档中找到最相关的词. 我想在 3 个文档上调用 Tf Idf 算法并返回一个包含每个单词及其频率的 csv 文件. 之后,我只取高数的我会使用它们. 我发现这个实现可以满足我的需求 https://github.com/mccurdyc/tf-idf/. 我使用 subprocess 库调用该 jar.但是这段代码有一个很大的问题:它在分析单词时犯了很多错误.它 ..
发布时间:2021-09-06 19:59:35 Python