locality-sensitive-hash相关内容

LSH 使用的散列混淆

Matrix M 是签名矩阵,通过对实际数据进行 Minhashing 生成,以文档为列,单词为行.所以一列代表一个文档. 现在它说每个条带(b 的数量,r 的长度)都有它的列散列,因此一列落入一个桶中.如果两列落在同一个桶中,对于 >= 1 个条带,那么它们可能是相似的. 所以这意味着我应该创建 b 哈希表并找到 b 独立的哈希函数?或者只有一个就足够了,每个条带都将其列发送到相同的 ..
发布时间:2021-12-27 16:45:29 Python

局部敏感的哈希-Elasticsearch

在Elasticsearch上是否有允许LSH的插件?如果是,您能指出我的位置并告诉我一些使用方法吗? 谢谢 编辑: 我发现ES使用MinHash插件.我该如何比较文档呢?找到重复项的好设置是什么? 解决方案 有一个 Elasticsearch MinHash插件.每次为文档建立索引并稍后用minhash查询该文档时,都可以使用它来提取minhash值. 安装MinHash ..
发布时间:2020-07-24 07:39:09 其他开发

熊猫模糊检测重复项

如何在熊猫中使用模糊匹配来有效地检测重复行 如何在没有将row_i转换为String()然后将其与所有其他列进行比较的巨大for循环的情况下,查找一列与其他列的重复项? 解决方案 不是特定于熊猫的,但在python生态系统中,重复数据删除python库似乎可以满足您的要求.特别是,它可以让您分别比较一行的每一列,然后将信息组合为一个匹配的单个概率分数. ..

局部敏感哈希(LSH)中的ε(ε)参数是什么?

我已经阅读了有关以下内容的原始论文本地敏感哈希. 复杂度取决于参数ε的函数,但我不知道它是什么. 您能解释一下它的意思吗? 解决方案 ε是近似参数. LSH(如法兰& 因此,我们专注于解决检查下面的图像: 在这里您看到找到精确/近似NN的含义.在传统的NNS(最近邻搜索)问题中,我们被要求找到确切的NN.在现代问题中,近似NNS要求我们在(1 +ε)半径内找到一些邻 ..

搜索位置敏感的哈希

我正在尝试了解 给出每个由d位组成的位向量,我们选择N = O(n 1/(1 + epsilon) )位的随机排列.对于每个随机排列σ,我们 保持字典向量的排序顺序Oσ(按字典顺序) σ置换的比特数.给定查询位向量q,我们发现 通过执行以下操作来近似最接近的邻居:对于每个permu- tσ,我们对Oσ进行二分查找以找到两个位 最接近q的向量(按位的字典序) 由σ排列).现在,我们按排序顺序搜索每 ..

如何存储对局部敏感的哈希值?

我已经有算法来生成对位置敏感的哈希,但是我应该如何对其进行存储以利用其特征(即类似元素具有接近哈希(具有汉明距离))? 在matlab代码中,我发现他们只是在要搜索的点的哈希值与数据库中的点的哈希值之间创建一个距离矩阵,以简化代码,同时引用了所谓的Charikar方法实现了一个很好的实现搜索方法. 我试图进行搜索,但是我不确定如何将找到的任何方法(例如多探针方法)应用于我的情况.如果您 ..
发布时间:2020-05-06 13:45:24 其他开发

如何通过R最近邻居解决最近邻居?

引用E2LSH手册(关于此特定库并不重要,对于一般的NN问题,此引用应该是正确的): E 2LSH也可以用于解决最邻近问题,其中, 给定查询q,需要数据结构来报告要点 在P中最接近q.这可以通过创建多个R-earn来完成 相邻数据结构,对于R = R1,R2,... . . Rt,Rt应该在哪里 大于从任何查询点到其查询点的最大距离 最近的邻居.然后可以通过恢复最近的邻居 以半径递增的顺序查 ..

为LSH Minhash算法生成随机哈希函数

我正在用Java编写一个minhashing算法,它要求我生成任意数量的随机散列函数(在我的情况下为240个散列函数),并通过它运行任意数量的整数(目前为2000)。 为了做到这一点,我已经为240个散列函数中的每一个生成随机数a,b和c(从1到2001的范围)。然后,我的哈希函数返回h =((a * x)+ b)%c,其中h是返回值,x是通过它运行的整数之一。 这是随机散列的有效实现 ..
发布时间:2018-12-07 12:14:13 Java开发

Locality Sensitivy Hashing在OpenCV中进行图像处理

这是我的第一个图像处理应用程序,所以请善待这个肮脏的农民。 应用程序: 我想实现一个快速的应用程序(性能至关重要甚至超过准确性),其中包含电影海报的照片(手机拍摄)发现最相似给定数据集中的照片并返回相似性分数。数据集由类似的图片组成(由手机拍摄,包含电影海报)。图像可以具有不同的大小,分辨率,并且可以从不同的视点拍摄(但是没有旋转,因为海报应该始终是右向的)。 有关如何实施此类申 ..

如何散列列表?

列表不可散列。然而,我是实施LSH ,我正在寻求散列函数,它将对应于k个桶中的正整数列表(在[1,29.000]中)。列表的数量是D,其中D> k(我认为)和D = 40.000,其中k还不知道(开放给建议)。 示例(D = 4,k = 2): 118 | 27 | 1002 | 225 128 | 85 | 2000 | 8700 512 | 88 | 2500 | 100 ..
发布时间:2018-06-01 19:34:47 Python

LSH中的桶数

在LSH中,您将文档的哈希切片装入桶中。这个想法是,这些文件落入同一个桶中的可能性相似,因此可能是最近的邻居。 对于40.000文档,什么是好价值(漂亮很多)的桶数? 我现在是: number_of_buckets = 40.000 / 4 现在,但我觉得它可以减少更多。 任何想法, please ? 相对:如何在向局部敏感哈希中使用哈希向量(使用jaccard距离)? ..

局部敏感散列(LSH)如何工作?

我已经阅读过这个问题,但不幸的是, 我不明白的是当我们了解将哪个桶分配给我们的高维空间查询向量 q :假设使用我们的局部敏感族函数 h_1,h_2,...,h_n ,我们翻译了 q 到一个低维( n 维度)散列码 c 。 然后 c 是分配给 q 的桶的索引,在哪里(希望)也被指定为最近的邻居,假设有100个向量。现在,我们要做的是为了找到 q 的NN是计算 q 和仅这100个向量之间的 ..

使用LSH进行近似字符串匹配

我想使用局部性敏感散列大致匹配字符串。我有许多可能包含拼写错误的大于10M的字符串。对于每个字符串,我想与所有其他字符串进行比较,并根据某个阈值选择具有编辑距离的字符串。 也就是说,天真的解决方案需要O(n ^ 2)比较。为了避免这个问题,我想使用局部敏感散列。然后接近类似的字符串将导致相同的桶,我只需要在桶搜索内进行。所以它是O(n * C),其中C是桶的大小。 然而,我不明白如何表 ..
发布时间:2018-06-01 19:01:43 Python

LSH使用哈希混淆

M 是签名矩阵,它是通过Minhashing生成的实际数据,将文档作为列和单词作为行。所以一列代表一个文件。 现在它说每条数据( b 数目, r 的长度)将其列分散,以便列落入一个桶中。如果两列落在同一个桶中,对于> = 1的条带,则它们可能是相似的。 这意味着我应该创建 b 散列表并找到 b 独立散列函数?或者只有一个就足够了,每一个条带都会将它的列发送到同一个桶的集合(但是不会取消 ..
发布时间:2018-06-01 15:33:24 Python

如何散列载体进入水桶局部敏感哈希(使用杰卡德距离)?

我实现一个近邻搜索应用程序,它会找到类似文件。到目前为止,我已阅读LSH相关材料的相当一部分(LSH背后理论是某种混乱,我不能comphrened它尚未100%)。 我的code是能够计算使用最小哈希函数(我接近了尾声)签名矩阵。我也申请上的签名矩阵绑扎策略。但是我不能够理解如何散列(列)特征向量在乐队成桶。 我的最后一个问题可能是最重要的一个,但我不得不问一些介绍问题: Q1:请问哈希函数 ..

局部敏感哈希实现?

是否有任何C比较简单易懂(并实现简单)局部性敏感哈希例子/ C ++ / Java的/ C#? 我想更多地了解这个概念,因此想尝试一些文本文件的实施只是为了看看它是如何工作的,所以我什么都不需要高性能或什么...只是一个例子的用于返回类似的输入类似哈希的哈希函数。我可以学习例如,从更后。 :) 解决方案 对于字符串您可以使用近似匹配算法。 生成一个随机字符串 对于所有的字符串中使 ..
发布时间:2016-08-18 22:04:21 Java开发