基于磁盘的快速哈希表? [英] Fast disk-based hashtables?

查看：200 发布时间：2020/11/22 5:56:27 hashtable

本文介绍了基于磁盘的快速哈希表?的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我有一组哈希(MD5的前64位，因此它们是非常随机分布的)，并且我希望能够查看是否有新的哈希，并将其添加到哈希中.

I have sets of hashes (first 64 bits of MD5, so they're distributed very randomly) and I want to be able to see if a new hash is in a set, and to add it to a set.

集合不是太大，最大的集合是数百万个元素，但是有数百个集合，所以我无法将它们全部保存在内存中.

Sets aren't too big, the largest will be millions of elements, but there are hundreds of sets, so I cannot hold them all in memory.

到目前为止我有一些想法:

Some ideas I had so far:

我尝试将所有内容都保存在sqlite表中，但是一旦它不能容纳所有内存，它就会变得非常慢.
蜂鸣器听起来好像有很高的错误率.我不介意微小的错误率(64位哈希已经在4G元素集上产生1次冲突)，但是像1％这样的错误率实在是太高了.
保留文件中带有空格的哈希排序列表，如果没有足够的空格，请调整大小.哈希是均匀分布的，因此，即使是非常简单的方案也可以使用.

我想念一些确实很明显的东西吗?有什么提示如何实现基于磁盘的良好哈希表吗?

Am I missing something really obvious? Any hints how to implement good disk-based hashtable?

基于磁盘的快速哈希表? [英] Fast disk-based hashtables?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

基于磁盘的快速哈希表? [英] Fast disk-based hashtables?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭