similarity相关内容

将分类属性向量转换为相似度矩阵

我需要使用R将分类属性向量转换为“相同属性矩阵". 例如,我有一个向量,该向量报告N人的性别(男性= 1,女性= 0).我需要将此向量转换为名为A的NxN矩阵(行和列上都有人的名字),如果两个人(i和j)的性别相同,则每个单元格Aij的值为1,否则为0. 下面是一个示例,其中有3个人(第一位男性,第二位女性,第三位男性)产生此向量: c(1, 0, 1) 我想将其转换为这个 ..
发布时间:2020-05-07 19:32:58 其他开发

将属性向量转换为具有元素差异的矩阵

类似于此以前的帖子,我需要从属性向量转换成矩阵.这次是使用R的成对元素之间的差异. 例如,我有一个向量,该向量报告了N人的年龄(18至90岁).我需要将此向量转换为名为A的NxN矩阵(行和列上都有人的名字),其中每个单元格Aij的值均为| age_i-age_j |的值,代表两个人i和j之间年龄的绝对差异. 这里有一个3个人的例子,第一人18岁,第二人23岁,第三人60岁,他们产生了这 ..
发布时间:2020-05-07 19:32:48 其他开发

R忽略空值的矩阵列的成对比较

我有一个数组,我希望借此获得每个列中值之间相似度的度量.我的意思是,我希望比较数组的成对列之间的行,并在它们的值匹配时增加一个度量.然后,对于完全相同的两列,结果度量将最大. 基本上,我的问题与此处讨论的问题相同: R:比较矩阵中的所有列都是成对的,只是我不希望对空单元格进行计数. 使用从链接页面派生的代码创建的示例数据: data1 ..
发布时间:2020-05-07 19:23:16 其他开发

相似矩阵的有效聚类

我的主题是(一堆)文本的相似性和聚类.简而言之:我想将收集的文本聚在一起,并且它们应该最后出现在有意义的聚类中.为此,到目前为止,我的方法如下,我的问题在于群集.当前软件是用php编写的. 1)相似性: 我将每个文档都视为“单词袋",然后将单词转换为向量.我用 过滤(仅“真实"单词) 令牌化(将句子拆分成单词) 梗(将单词简化为基本形式;波特的词干) 修剪(频率过高和过低的单词的 ..

如何从熊猫数据帧计算jaccard相似度

我有一个数据框,如下所示:框的形状为(1510,1399).列代表产品,行代表用户为给定产品分配的值(0或1).如何计算jaccard_similarity_score? 我创建了一个占位符数据框,其中列出了产品与产品 data_ibs = pd.DataFrame(index=data_g.columns,columns=data_g.columns) 我不确定如何遍历data_ ..
发布时间:2020-05-07 18:42:50 Python

Matlab计算3D相似度转换.适用于3D的fitgeotrans

如何在MatLab中计算3D中4个点之间的相似度转换? 我可以从中计算出变换矩阵 T*X = Xp, 但是由于点坐标中的小误差,它会给我仿射矩阵.如何使该矩阵适合相似性?我需要类似fitgeotrans的东西,但是要使用3D 谢谢 解决方案 假设您在3-dimensional空间中最多包含3个点,则@rayryeng的答案是正确的.如果需要变换n-dimensional空间( ..

如何找到两条曲线之间的相似度和相似度分数?

我有两个数据集(t,y1)和(t,y2).这些数据集在外观上看起来相同,但是它们具有一定的时间延迟或幅度偏移.我想找到两条曲线之间的相似度(对于近似相似的曲线,相似度为1;对于不相似的曲线,相似度为0).由于数据的振荡,某些曲线似乎有所不同.因此,我正在寻找找到曲线之间相似度的方法.我已经在Matlab中尝试过梯度命令,以找到每个时间步长的曲线斜率,并将其进行比较.但这并不能给我令人满意的结果.请 ..
发布时间:2020-05-06 13:36:51 其他开发

如何在MATLAB中创建相似矩阵?

我正在努力比较多个图像.我将这些图像数据作为称为“图像"的矩阵的列向量.我想通过首先计算图像的欧氏距离来评估图像的相似性.然后,我想创建一个矩阵,在该矩阵上可以执行多个随机游走.现在,我的代码如下: % clear % clc % close all % % load tea.mat; images = Input.X; M = zeros(size(images, 2), size ..

根据另一个参考数组从一个数组中选择接近匹配

我有一个数组A和一个引用数组B. A的大小至少与B一样大.例如 A = [2,100,300,793,1300,1500,1810,2400] B = [4,305,789,1234,1890] 实际上, B是信号在指定时间的峰值位置,而A包含稍后时间的峰值位置.但是A中的某些元素实际上不是我想要的峰(可能是由于噪声等引起的),我想根据B在A中找到“真实"峰. A中的'real'元素应 ..
发布时间:2020-05-06 12:08:04 Python

有效地计算大型相似度矩阵

在一个我目前正在工作的项目中,大约有200,000个用户.对于这些用户中的每一个,我们都定义了与其他用户的相似性度量.这产生了200000x200000的相似度矩阵.有点大.天真的方法(使用Ruby)计算每个条目将需要几天的时间. 我可以采用哪些策略使矩阵字段的计算可行?我应该把这只野兽放在哪个数据存储中? 解决方案 答案有些零碎,您告诉我们要提供好的答案的地方仍然有太多空白,但是您 ..
发布时间:2020-05-06 11:35:35 其他开发

哪些FFT描述符应用作实现分类或聚类算法的功能?

我采样了一些地理轨迹进行分析,并计算了空间和时间维度上的数据直方图,从而为每个空间元素生成了基于时域的特征.我想执行一个离散的FFT,将基于时域的特征转换为基于频域的特征(我认为可能更健壮),然后执行一些分类或聚类算法. 但是我不确定使用哪个描述符作为基于频域的功能,因为信号存在振幅谱,功率谱和相位谱,虽然我已经阅读了一些参考文献,但对意义仍然感到困惑.在基于频域的特征向量上执行学习算法时(欧几 ..

实现自定义Solr相似性

当前,我需要实现自定义的solr相似性.因此,我发现我需要重写DefaultSimilarity类才能执行此操作.我仍然不知道应该怎么做以及在何处获得可用于此目的的源代码.任何帮助,将不胜感激! 解决方案 对于需要答案的任何人: 我需要做的是在eclipse中创建一个打包项目,下载lucene-core jar并将其添加到项目中.之后,我导入了所需的库并覆盖了相似类. 之后,我 ..
发布时间:2020-05-04 07:52:47 Java开发

在lucene中获得两个文档之间的余弦相似度

我在Lucene中建立了索引.我想要不指定查询,而只是获得索引中两个文档之间的分数(余弦相似度或另一个距离?). 例如,我从先前打开的IndexReader ir中获取ID为2和4的文档. 文档d1 = ir.document(2); 文档d2 = ir.document(4); 如何获得这两个文档之间的余弦相似度? 谢谢 解决方案 建立索引时,可以选择存储项频率向量. ..
发布时间:2020-05-04 07:22:37 其他开发

两个列表的重叠百分比

这是最重要的数学问题.假设我在Python中有两个大小不同的列表 listA = ["Alice", "Bob", "Joe"] listB = ["Joe", "Bob", "Alice", "Ken"] 我想找出这两个列表的重叠百分比.列表中的顺序并不重要.找到重叠是很容易的,我已经看过其他有关如何做到这一点的文章,但是我在脑海中无法完全扩展以找出重叠的百分比.如果我按不同顺序比较列 ..
发布时间:2020-05-02 06:48:24 Python

查找具有相似文本的文章的算法

我在数据库中有很多文章(带有标题,文本),我正在寻找一种算法来查找X个最相似的文章,例如当您提出问题时类似Stack Overflow的“相关问题". 为此,我尝试进行谷歌搜索,但只找到有关其他“相似文本"问题的页面,例如将每篇文章与所有其他文章进行比较并将相似之处存储在某个地方.因此,我会在我刚刚键入的文本上“实时"执行此操作. 如何? 解决方案 编辑距离是'考虑到您实际上会 ..
发布时间:2020-04-27 03:28:54 其他开发