词汇量和嵌入维度之间的首选比例是多少? [英] What is the preferred ratio between the vocabulary size and embedding dimension?

查看:23
本文介绍了词汇量和嵌入维度之间的首选比例是多少?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

使用例如gensimword2vec或类似方法训练嵌入向量时,我想知道什么是好的比率,或者嵌入维度与词汇表大小之间是否有更好的比率? 另外,随着更多数据的出现,这种情况会发生怎样的变化?

由于我仍在讨论如何在训练嵌入向量时选择合适的窗口大小?

我之所以问这个问题,是因为我没有用现实生活中的语言词典来训练我的网络,而是这些句子将描述进程和文件以及其他进程之间的关系,等等。 例如,我的文本语料库中的一个句子将如下所示:

smss.exe irp_mj_create systemdrive windows system32ntdll dll DesiredAccess:执行/遍历,同步,处置:打开,选项:, 属性:不适用,ShareMode:读取,分配大小:不适用,OpenResult: 已打开"

正如您可能想象的那样,变体很多,但问题仍然是如何以最佳方式微调这些超参数,以便嵌入空间不会过大,而且每个单词都有足够的有意义的特性。

谢谢,

加布里埃尔

推荐答案

This Google Developers blog post表示:

好的,下面的公式";提供了嵌入维数的一般经验法则:

embedding_dimensions =  number_of_categories**0.25

即嵌入向量维度应为类别数的4次根。

有趣的是,the Word2vec Wikipedia article说(强调我的):

不过,对于在中等规模语料库中训练的50维跳过语法模型,15个负样本的窗口大小似乎是一个很好的参数设置。

假设标准大小的词汇量为150万个单词,这条经验法则惊人地接近:

50==1.5e6**0.2751

这篇关于词汇量和嵌入维度之间的首选比例是多少?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆