cosine-similarity相关内容

如何在Python中使用K-Means聚类找到最优聚类数

我是集群算法的新手。我有一个包含200多部电影和100多个用户的电影数据集。所有用户都对至少一部电影进行了评分。值1表示好,0表示坏,如果批注器没有选择,则为空。 我想根据相似用户的评论对其进行聚类,因为将类似电影评为好的用户也可能会将未被同一群集中的任何用户评为好的电影评为好电影。我使用余弦相似性度量和k-均值聚类。CSV文件如下所示: UserID M1 ..

伯特针对语义相似性进行了微调

我想应用微调 Bert 来计算句子之间的语义相似度.我搜索了很多网站,但我几乎没有在下游找到有关此的信息. 我刚刚找到了 STS 基准.我想知道是否可以使用 STS 基准数据集来训练微调 bert 模型,并将其应用于我的任务.合理吗? 据我所知,计算相似度的方法有很多,包括余弦相似度、皮尔逊相关性、曼哈顿距离等.语义相似度如何选择? 解决方案 作为前面的一般性评论,我想强调的是 ..

计算pyspark中数据帧所有行之间的余弦相似度

我有一个数据集,其中包含工人的人口统计信息,例如年龄性别、地址等以及他们的工作地点.我从数据集创建了一个 RDD 并将其转换为 DataFrame. 每个 ID 有多个条目.因此,我创建了一个 DataFrame,其中只包含工人的 ID 和他/她工作过的各个办公地点. |----------|----------------||**ID** **Office_Loc** ||------ ..
发布时间:2021-12-22 21:18:26 Python

有人能以一种非常简单的图形方式给出一个余弦相似度的例子吗?

维基百科上的余弦相似性文章 你能在这里显示向量吗(在列表或其他东西中)然后计算一下,让我们看看它是如何工作的? 解决方案 这里有两个非常短的文本可供比较: Julie 爱我胜过 Linda 爱我 简爱我胜过朱莉爱我 我们想知道这些文本有多相似,纯粹是在字数方面(并忽略词序).我们首先列出两个文本中的单词: 我 Julie 喜欢 Linda 胜过喜欢 Jane 现 ..
发布时间:2021-12-22 19:45:05 AI人工智能

具有 numpy 的大型稀疏矩阵的余弦相似度

下面的代码导致我的系统在完成之前耗尽内存. 您能否提出一种更有效的方法来计算大矩阵的余弦相似度,例如下面的方法? 我想计算原始矩阵 (mat) 中 65000 行中的每一行相对于所有其他行的余弦相似度,以便结果是一个 65000 x 65000 矩阵,其中每个元素是原始矩阵中两行之间的余弦相似度. 将 numpy 导入为 np从 scipy 导入稀疏从 sklearn.metrics ..
发布时间:2021-12-19 08:13:48 Python

给定2个句子字符串计算余弦相似度

来自 Python:tf-idf-cosine:寻找文档相似度 ,可以使用 tf-idf 余弦计算文档相似度.在不导入外部库的情况下,有没有办法计算两个字符串之间的余弦相似度? s1 = "这是一个 foo bar 语句."s2 = "这句话类似于一个 foo bar 的句子."s3 = "这个字符串是什么?与其他两行完全无关."cosine_sim(s1, s2) # 应该给出高余弦相似度co ..
发布时间:2021-12-05 14:56:25 Python

在给定稀疏矩阵数据的情况下,Python 中计算余弦相似度的最快方法是什么?

给定一个稀疏矩阵列表,计算矩阵中每一列(或行)之间余弦相似度的最佳方法是什么?我宁愿不重复 n-choose-2 次. 假设输入矩阵为: A=[0 1 0 0 10 0 1 1 11 1 0 1 0] 稀疏表示为: A =0, 10, 41、21、31、42, 02, 12、3 在 Python 中,使用矩阵输入格式很简单: 将 numpy 导入为 np从 sklearn.metr ..
发布时间:2021-12-03 09:11:31 Python

使用Dataframe的行之间的火花余弦距离

我必须计算每行之间的余弦距离,但我不知道如何优雅地使用 Spark API Dataframes 来完成它.这个想法是计算每一行(项目)的相似性,并通过比较它们在行之间的相似性来获取前 10 个相似性.--> 这是 Item-Item Recommender System 所需要的. 我所读到的所有内容都涉及计算列的相似性数据帧上的 Apache Spark Python 余弦相似度有人会说 ..

空间相似度方法不能正常工作

我正在使用 spacy 进行简单的自然语言处理.我正在通过测量单词之间的相似性来过滤单词. 我编写并使用了 spacy 文档中显示的以下简单代码,但结果看起来不像 文档. 导入空间nlp = spacy.load('en_core_web_lg')tokens = nlp('狗猫香蕉')对于令牌中的令牌1:对于令牌中的令牌2:sim = token1.similarity(token2)p ..
发布时间:2021-09-28 18:32:12 Python

在 Python 中使用 TF-IDF、NGrams 和 Cosine Similarity 进行字符串匹配

我正在从事我的第一个主要数据科学项目.我试图将来自一个源的大量数据列表与另一个源中的清理过的字典之间的名称匹配.我正在使用 this 字符串匹配博客作为指南. 我正在尝试使用两个不同的数据集.不幸的是,我似乎无法获得好的结果,而且我认为我没有适当地应用它. 代码: 导入pandas为pd,numpy为np,re,sparse_dot_topn.sparse_dot_topn为ct从 ..
发布时间:2021-09-06 19:59:47 Python

TfIdfVectorizer:固定词汇的向量化器如何处理新词?

我正在处理大约 10 万篇研究论文的语料库.我正在考虑三个领域: 纯文本 标题 摘要 我使用 TfIdfVectorizer 来获取纯文本字段的 TfIdf 表示,并将由此产生的词汇反馈回标题和摘要的向量化器中,以确保所有三种表示都使用相同的词汇.我的想法是,由于纯文本字段比其他两个字段大得多,因此它的词汇很可能会覆盖其他字段中的所有单词.但如果不是这样的话,TfIdfVector ..
发布时间:2021-07-16 19:56:02 Python

2个数字列表之间的余弦相似度

我想计算两个列表之间的余弦相似度,例如列表1是dataSetI,列表2是数据集II. 假设 dataSetI 是 [3, 45, 7, 2] 而 dataSetII 是 [2, 54, 13,15].列表的长度总是相等.我想将余弦相似度报告为 0 到 1 之间的数字. dataSetI = [3, 45, 7, 2]数据集II = [2, 54, 13, 15]def cosine_sim ..
发布时间:2021-06-25 19:29:16 Python

pySpark Columnsimilarities 的问题

tl;博士如何使用pySpark比较行的相似度? 我有一个 numpy 数组,我想在其中比较每一行的相似性 print (pdArray)#[[ 0. 1. 0. ..., 0. 0. 0.]# [ 0. 0. 3. ..., 0. 0. 0.]# [ 0. 0. 0. ..., 0. 0. 7.]# ...,# [ 5. 0. 0. ..., 0. 1. 0.]# [ 0. 6. 0. ..
发布时间:2021-06-24 20:35:41 Python