词汇量和嵌入维度之间的首选比例是多少？ [英] What is the preferred ratio between the vocabulary size and embedding dimension?

查看：23 发布时间：2022/3/8 12:08:29 machine-learning keras nltk word-embedding nltk-trainer

本文介绍了词汇量和嵌入维度之间的首选比例是多少？的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

使用例如gensim、word2vec或类似方法训练嵌入向量时，我想知道什么是好的比率，或者嵌入维度与词汇表大小之间是否有更好的比率？另外，随着更多数据的出现，这种情况会发生怎样的变化？

由于我仍在讨论如何在训练嵌入向量时选择合适的窗口大小？

我之所以问这个问题，是因为我没有用现实生活中的语言词典来训练我的网络，而是这些句子将描述进程和文件以及其他进程之间的关系，等等。例如，我的文本语料库中的一个句子将如下所示：

smss.exe irp_mj_create systemdrive windows system32ntdll dll DesiredAccess：执行/遍历，同步，处置：打开，选项：，属性：不适用，ShareMode：读取，分配大小：不适用，OpenResult：已打开"

正如您可能想象的那样，变体很多，但问题仍然是如何以最佳方式微调这些超参数，以便嵌入空间不会过大，而且每个单词都有足够的有意义的特性。

谢谢，

加布里埃尔