cosine-similarity - IT屋-程序员软件开发技术分享社区

如何在Python中使用K-Means聚类找到最优聚类数

我是集群算法的新手。我有一个包含200多部电影和100多个用户的电影数据集。所有用户都对至少一部电影进行了评分。值1表示好，0表示坏，如果批注器没有选择，则为空。我想根据相似用户的评论对其进行聚类，因为将类似电影评为好的用户也可能会将未被同一群集中的任何用户评为好的电影评为好电影。我使用余弦相似性度量和k-均值聚类。CSV文件如下所示： UserID M1 ..

发布时间：2022-03-22 10:59:52 python cluster-analysis k-means euclidean-distance cosine-similarity Python

伯特针对语义相似性进行了微调

我想应用微调 Bert 来计算句子之间的语义相似度.我搜索了很多网站，但我几乎没有在下游找到有关此的信息. 我刚刚找到了 STS 基准.我想知道是否可以使用 STS 基准数据集来训练微调 bert 模型，并将其应用于我的任务.合理吗? 据我所知，计算相似度的方法有很多，包括余弦相似度、皮尔逊相关性、曼哈顿距离等.语义相似度如何选择? 解决方案作为前面的一般性评论，我想强调的是 ..

发布时间：2022-01-02 18:00:56 nlp cosine-similarity pearson-correlation sentence-similarity 其他开发

如何使用 Python NLTK 计算 WordNet 中两个形容词之间的最短路径(测地线)距离?

在 WordNet 中计算两个同义词集之间的语义相似度可以通过几个内置的相似度度量轻松完成，例如: synset1.path_similarity(synset2) synset1.lch_similarity(synset2)，Leacock-Chodorow 相似度 synset1.wup_similarity(synset2), Wu-Palmer 相似度 (如所见在这里) ..

发布时间：2022-01-02 17:43:19 python nlp nltk wordnet cosine-similarity Python

计算pyspark中数据帧所有行之间的余弦相似度

我有一个数据集，其中包含工人的人口统计信息，例如年龄性别、地址等以及他们的工作地点.我从数据集创建了一个 RDD 并将其转换为 DataFrame. 每个 ID 有多个条目.因此，我创建了一个 DataFrame，其中只包含工人的 ID 和他/她工作过的各个办公地点. |----------|----------------||**ID** **Office_Loc** ||------ ..

发布时间：2021-12-22 21:18:26 python dataframe pyspark cosine-similarity Python

有人能以一种非常简单的图形方式给出一个余弦相似度的例子吗?

维基百科上的余弦相似性文章你能在这里显示向量吗(在列表或其他东西中)然后计算一下，让我们看看它是如何工作的? 解决方案这里有两个非常短的文本可供比较: Julie 爱我胜过 Linda 爱我简爱我胜过朱莉爱我我们想知道这些文本有多相似，纯粹是在字数方面(并忽略词序).我们首先列出两个文本中的单词: 我 Julie 喜欢 Linda 胜过喜欢 Jane 现 ..

发布时间：2021-12-22 19:45:05 text data-mining cosine-similarity AI人工智能

具有 numpy 的大型稀疏矩阵的余弦相似度

下面的代码导致我的系统在完成之前耗尽内存. 您能否提出一种更有效的方法来计算大矩阵的余弦相似度，例如下面的方法? 我想计算原始矩阵 (mat) 中 65000 行中的每一行相对于所有其他行的余弦相似度，以便结果是一个 65000 x 65000 矩阵，其中每个元素是原始矩阵中两行之间的余弦相似度. 将 numpy 导入为 np从 scipy 导入稀疏从 sklearn.metrics ..

发布时间：2021-12-19 08:13:48 python numpy memory matrix cosine-similarity Python

来自 Python:tf-idf-cosine:寻找文档相似度，可以使用 tf-idf 余弦计算文档相似度.在不导入外部库的情况下，有没有办法计算两个字符串之间的余弦相似度? s1 = "这是一个 foo bar 语句."s2 = "这句话类似于一个 foo bar 的句子."s3 = "这个字符串是什么?与其他两行完全无关."cosine_sim(s1, s2) # 应该给出高余弦相似度co ..

发布时间：2021-12-05 14:56:25 python string nlp similarity cosine-similarity Python

在给定稀疏矩阵数据的情况下，Python 中计算余弦相似度的最快方法是什么?

给定一个稀疏矩阵列表，计算矩阵中每一列(或行)之间余弦相似度的最佳方法是什么?我宁愿不重复 n-choose-2 次. 假设输入矩阵为: A=[0 1 0 0 10 0 1 1 11 1 0 1 0] 稀疏表示为: A =0, 10, 41、21、31、42, 02, 12、3 在 Python 中，使用矩阵输入格式很简单: 将 numpy 导入为 np从 sklearn.metr ..

发布时间：2021-12-03 09:11:31 python numpy pandas similarity cosine-similarity Python

在终端中编码、解码阿拉伯语时出现问题

在我的脚本中，首先需要将阿拉伯字符串转换为向量，然后再执行余弦相似度在 Linux 下的终端上 --> 将阿拉伯语字符串转换为生成阿拉伯语的向量时出现的问题: [u'\u0627\u0644\u0634\u0645\u0633\u0645\u0634\u0631\u0642\u0647\u0646\u0647\u0627\u0637\u0645\u0633\u0645\u0634\u0646\u ..

发布时间：2021-11-17 01:27:35 python encoding arabic cosine-similarity string-decoding Python

使用Dataframe的行之间的火花余弦距离

我必须计算每行之间的余弦距离，但我不知道如何优雅地使用 Spark API Dataframes 来完成它.这个想法是计算每一行(项目)的相似性，并通过比较它们在行之间的相似性来获取前 10 个相似性.--> 这是 Item-Item Recommender System 所需要的. 我所读到的所有内容都涉及计算列的相似性数据帧上的 Apache Spark Python 余弦相似度有人会说 ..

发布时间：2021-11-14 21:44:24 apache-spark pyspark spark-dataframe cosine-similarity 其他开发

数据帧上的 Apache Spark Python 余弦相似度

对于推荐系统，我需要计算整个 Spark DataFrame 的所有列之间的余弦相似度. 在 Pandas 中我曾经这样做过: 导入 sklearn.metrics 作为指标将熊猫导入为 pddf= pd.DataFrame(...这里有一些数据框 :D ...)metrics.pairwise.cosine_similarity(df.T,df.T) 这会生成列之间的相似度矩阵(因为我 ..

发布时间：2021-11-14 21:23:08 python apache-spark pyspark apache-spark-sql cosine-similarity Python

数据帧上的 Apache Spark Python 余弦相似度

对于推荐系统，我需要计算整个 Spark DataFrame 的所有列之间的余弦相似度. 在 Pandas 中我曾经这样做过: 导入 sklearn.metrics 作为指标将熊猫导入为 pddf= pd.DataFrame(...这里有一些数据框 :D ...)metrics.pairwise.cosine_similarity(df.T,df.T) 这会生成列之间的相似度矩阵(因为我 ..

发布时间：2021-11-12 05:41:11 python apache-spark pyspark apache-spark-sql cosine-similarity Python

空间相似度方法不能正常工作

我正在使用 spacy 进行简单的自然语言处理.我正在通过测量单词之间的相似性来过滤单词. 我编写并使用了 spacy 文档中显示的以下简单代码，但结果看起来不像文档. 导入空间nlp = spacy.load('en_core_web_lg')tokens = nlp('狗猫香蕉')对于令牌中的令牌1:对于令牌中的令牌2:sim = token1.similarity(token2)p ..

发布时间：2021-09-28 18:32:12 python similarity word2vec spacy cosine-similarity Python

在 Python 中使用 TF-IDF、NGrams 和 Cosine Similarity 进行字符串匹配

我正在从事我的第一个主要数据科学项目.我试图将来自一个源的大量数据列表与另一个源中的清理过的字典之间的名称匹配.我正在使用 this 字符串匹配博客作为指南. 我正在尝试使用两个不同的数据集.不幸的是，我似乎无法获得好的结果，而且我认为我没有适当地应用它. 代码: 导入pandas为pd，numpy为np，re，sparse_dot_topn.sparse_dot_topn为ct从 ..

发布时间：2021-09-06 19:59:47 python tf-idf n-gram cosine-similarity Python

给定新文档重新计算相似度矩阵

我正在运行一个包含文本文档的实验，我需要计算所有文档之间的(余弦)相似度矩阵(用于其他计算).为此，我使用 sklearn 的 TfidfVectorizer: corpus = [doc1, doc2, doc3, doc4]vect = TfidfVectorizer(min_df=1, stop_words=“english", use_idf=False)tfidf = vect.fit ..

发布时间：2021-07-16 20:24:43 python scikit-learn cosine-similarity tfidfvectorizer Python

Scipy 余弦相似度与 sklearn 余弦相似度

我注意到 scipy 和 sklearn 都有余弦相似度/余弦距离函数.我想测试每个向量对的速度: setup1 = "import numpy as np; arrs1 = [np.random.rand(400) for _ in range(60)];arrs2 = [np.random.rand(400) for _ in range(60)]"setup2 = "将 numpy 导入为 ..

发布时间：2021-07-16 20:05:59 python scikit-learn scipy cosine-similarity Python

使用 sklearn 如何计算文档和查询之间的 tf-idf 余弦相似度?

我的目标是输入 3 个查询并找出哪个查询与一组 5 个文档最相似. 到目前为止，我已经计算了文档的 tf-idf 执行以下操作: from sklearn.feature_extraction.text import TfidfVectorizerdef get_term_frequency_inverse_data_frequency(文档):allDocs = []对于文档中的文档:a ..

发布时间：2021-07-16 20:03:01 python scikit-learn tf-idf cosine-similarity Python

TfIdfVectorizer:固定词汇的向量化器如何处理新词?

我正在处理大约 10 万篇研究论文的语料库.我正在考虑三个领域: 纯文本标题摘要我使用 TfIdfVectorizer 来获取纯文本字段的 TfIdf 表示，并将由此产生的词汇反馈回标题和摘要的向量化器中，以确保所有三种表示都使用相同的词汇.我的想法是，由于纯文本字段比其他两个字段大得多，因此它的词汇很可能会覆盖其他字段中的所有单词.但如果不是这样的话，TfIdfVector ..

发布时间：2021-07-16 19:56:02 python scikit-learn tf-idf cosine-similarity Python

2个数字列表之间的余弦相似度

我想计算两个列表之间的余弦相似度，例如列表1是dataSetI，列表2是数据集II. 假设 dataSetI 是 [3, 45, 7, 2] 而 dataSetII 是 [2, 54, 13,15].列表的长度总是相等.我想将余弦相似度报告为 0 到 1 之间的数字. dataSetI = [3, 45, 7, 2]数据集II = [2, 54, 13, 15]def cosine_sim ..

发布时间：2021-06-25 19:29:16 python cosine-similarity Python

pySpark Columnsimilarities 的问题

tl;博士如何使用pySpark比较行的相似度? 我有一个 numpy 数组，我想在其中比较每一行的相似性 print (pdArray)#[[ 0. 1. 0. ..., 0. 0. 0.]# [ 0. 0. 3. ..., 0. 0. 0.]# [ 0. 0. 0. ..., 0. 0. 7.]# ...,# [ 5. 0. 0. ..., 0. 1. 0.]# [ 0. 6. 0. ..

发布时间：2021-06-24 20:35:41 python pyspark cosine-similarity Python

cosine-similarity相关内容

如何在Python中使用K-Means聚类找到最优聚类数

伯特针对语义相似性进行了微调

如何使用 Python NLTK 计算 WordNet 中两个形容词之间的最短路径(测地线)距离?

计算pyspark中数据帧所有行之间的余弦相似度

有人能以一种非常简单的图形方式给出一个余弦相似度的例子吗?

具有 numpy 的大型稀疏矩阵的余弦相似度

给定2个句子字符串计算余弦相似度

在给定稀疏矩阵数据的情况下，Python 中计算余弦相似度的最快方法是什么?

在终端中编码、解码阿拉伯语时出现问题

使用Dataframe的行之间的火花余弦距离

数据帧上的 Apache Spark Python 余弦相似度

数据帧上的 Apache Spark Python 余弦相似度

空间相似度方法不能正常工作

在 Python 中使用 TF-IDF、NGrams 和 Cosine Similarity 进行字符串匹配

给定新文档重新计算相似度矩阵

Scipy 余弦相似度与 sklearn 余弦相似度

使用 sklearn 如何计算文档和查询之间的 tf-idf 余弦相似度?

TfIdfVectorizer:固定词汇的向量化器如何处理新词?

2个数字列表之间的余弦相似度

pySpark Columnsimilarities 的问题