similarity相关内容

空间相似函数

我正在尝试使用Spacy库进行句子相似性,我想了解它是如何工作的!? 他们的文档不清楚: 默认情况下,Spacy使用向量平均算法,使用 预先训练的向量(如果可用)(例如en_core_web_lg模型)。如果 不是,则使用doc.tensor属性,该属性由 标记器、解析器和实体识别器。这就是en_core_web_sm 模型提供了相似之处。通常,基于张量的相似性 将更具结构性,而单词向 ..
发布时间:2022-05-15 23:08:31 Python

如何从一个有功能列表字符串的TSV变成一个Python中的CSR矩阵?

我一直在使用一些R包,它们从稀疏二进制矩阵计算(余弦)(稀疏)相似矩阵,例如proxyC。 由于我现在也开始(并学习)使用python,而且有人告诉我它可能会更快,所以我想尝试在那里运行相同的计算。 我发现了这个有趣的帖子: What's the fastest way in Python to calculate cosine similarity given sparse m ..
发布时间:2022-04-13 09:49:01 Python

如何计算给定2个字符串的距离相似性度量?

我需要计算 2 个字符串之间的相似度.那我到底是什么意思?让我用一个例子来解释: 真正的词:医院 错字:haspita 现在我的目标是确定我需要多少个字符来修改错误的单词以获得真实的单词.在这个例子中,我需要修改 2 个字母.那么百分比是多少呢?我总是取真实单词的长度.所以它变成 2/8 = 25% 所以这 2 个给定的字符串 DSM 是 75%. 如何在性能成为关键考虑因素的 ..
发布时间:2022-01-31 16:28:12 C#/.NET

测量两个字符串之间相似性的有效方法是什么?(Levenshtein 距离使堆栈太深)

所以,我从这个开始:http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance#Ruby 这对于非常小的字符串非常有用.但是,我的字符串长度可能超过 10,000 个字符 - 由于 Levenshtein 距离是递归的,这会在我的 Ruby on Rails 应用程序中导致堆栈过深错误. ..

Libpuzzle 索引数百万张图片?

关于 php 的 libpuzzle 库(http://libpuzzle.pureftpd.org/project/libpuzzle)来自弗兰克丹尼斯先生.我试图了解如何在我的 mysql 数据库中索引和存储数据.向量的生成是绝对没有问题的. 例子: # 计算两个图像的签名$cvec1 = puzzle_fill_cvec_from_file('img1.jpg');$cvec2 = ..
发布时间:2022-01-25 09:02:14 PHP

检查两个 NSString 是否相似

我提出了一个棘手的问题,我不确定如何解决.因此,我制定了一个包含字典的 plist,其中包含两个对象: 国家名称 国家插头大小 不过,只有 210 个国家/地区/事实. 而且,我已经启用了搜索许多国家的列表,其中可能存在或不存在事实.但这是我的问题,我正在使用一个名为 Geonames 的网络服务,用户可以使用搜索栏显示控制器来搜索国家/地区,而这些与插头尺寸配对的 plist ..
发布时间:2022-01-25 08:57:04 移动开发

什么是匹配两个包含少于 10 个拉丁文单词的字符串的最佳算法

我正在比较歌曲标题,使用拉丁脚本(尽管并非总是如此),我的目标是一种算法,如果两首歌曲标题似乎是相同的标题,则给出高分,如果它们什么都没有,则给出非常低的分数共同点. 现在我已经不得不使用 Lucene 和 RAMDirectory 编写代码 (Java) 来编写这个 - 但是仅使用 Lucene 来比较两个字符串太重,因此太慢了.我现在开始使用 https://github.com/nic ..
发布时间:2022-01-15 13:13:05 Java开发

在lucene中获取两个文档之间的余弦相似度

我已经在 Lucene 中建立了一个索引.我想不指定查询,只是为了获得索引中两个文档之间的分数(余弦相似度或其他距离?). 例如,我从以前打开的 IndexReader 中获取 id 为 2 和 4 的文档.文档 d1 = ir.document(2);文档 d2 = ir.document(4); 如何获得这两个文档之间的余弦相似度? 谢谢 解决方案 索引时,可以选择存 ..
发布时间:2022-01-15 12:19:37 其他开发

如何求两条曲线的相似度以及相似度的得分?

我有两个数据集 (t,y1) 和 (t,y2).这些数据集在视觉上看起来相同,但它们有一些时间延迟或幅度偏移.我想找到两条曲线之间的相似性(为近似相似的曲线给出相似性分数 1,为不相似的曲线给出 0).由于数据的波动,一些曲线似乎有所不同.所以,我正在寻找找到曲线之间相似性的方法.我已经在 Matlab 中尝试过梯度命令来找到每个时间步的曲线斜率并进行比较.但这并没有给我令人满意的结果.请任何人建 ..
发布时间:2022-01-11 10:12:27 其他开发

来自 nltk 模块的类似方法在不同的机器上产生不同的结果.为什么?

我已经教了一些关于使用 Python 进行文本挖掘的入门课程,课程中使用提供的练习文本尝试了类似的方法.一些学生对 text1.similar() 的结果与其他学生不同. 所有版本等都是一样的. 有谁知道为什么会出现这些差异?谢谢. 在命令行中使用的代码. 蟒蛇>>>导入 nltk>>>nltk.download() #这里使用弹窗下载文本>>>从 nltk.book 导入 * ..
发布时间:2022-01-02 17:58:06 Python

我想创建一个系统,我给出一个句子,系统会吐出与我给出的输入句子含义相似的句子

这是一个 NLP 问题,我想知道我应该如何进行. 问题有多难?我可以用同义词替换这个词并检查语法是否正确吗? 解决方案 用同义词替换单词可能是首先要尝试的事情,但要注意不要错过多个单词的表达和习语.此外,请确保选择具有相同词性的同义词. 他们寻找一个好的解决方案 他们查看/盯着/...寻找一个好的解决方案 他们努力工作他们的工作/任务/......很难 ..

如何检测两个句子相似?

我想计算两个任意句子彼此之间的相似程度.例如: 一位数学家找到了解决问题的方法. 这个问题是由一位年轻的数学家解决的. 我可以使用标记器、词干分析器和解析器,但我不知道如何检测这些句子是否相似. 解决方案 这两句话不仅相似,几乎是释义,即表达相同含义的两种可选方式.这也是一个非常简单的释义案例,其中两个话语都使用相同的词,唯一的例外是一个是主动形式而另一个是被动形式.(这两个 ..
发布时间:2022-01-02 17:41:15 其他开发

查找 DataFrame 的两个字符串列之间的相似性

我是编程新手.我有一个 Pandas 数据框,其中存在两个字符串列. 数据框如下: Col-1 Col-2更新有账号帐户帐户摘要账户DTH取消余额余额汇总信用卡 更新信用卡 这里我需要检查 Col-2 元素与 Col-1 的每个元素的相似性.这意味着我必须将 have a account 与 Col-1 的所有元素进行比较.然后找到前3个相似的.假设相似度分数为:Account(85), ..
发布时间:2022-01-02 17:21:29 Python

是否有与 ASP.NET 的 PrimeFaces 等效的东西?

我多年来一直是 ASP.NET 开发人员,但最近我开始使用一些带有 JSF 2.0 的 PrimeFaces 解决方案.我没有什么可抱怨的. 值得强调让我喜欢 PrimeFaces 的几点:许多组件,易于使用,完全基于 jQuery 和 jQuery UI(对我来说非常重要)并且非常专注于网络标准(对我来说更重要). 但在某些情况下,我真的希望我的服务器端使用 ASP.NET.我不想在 ..
发布时间:2021-12-31 10:38:46 C#/.NET

如何在 Google BigQuery 中执行三元组运算?

我确实使用 PostgreSQL 中的 pg_trgm 模块来使用三元组计算两个字符串之间的相似度.特别是我使用: similarity(text, text) 返回一个数字,表明两个参数的相似程度(0 和 1 之间). 如何在 Google BigQuery 上执行相似度函数(或等效函数)? 解决方案 试试下面的方法.至少作为增强蓝图 SELECT text1, text2, ..
发布时间:2021-12-30 22:56:55 其他开发

Solr 自定义相似度

我想在我的 solr schema.xml 中设置我自己的自定义相似性,但我在理解此功能时遇到了一些问题.我想完全停用 solr 评分(tf、idf、coord 和 fieldNorm). 我不知道从哪里开始.我知道的事情 我必须编写自己的 DefaultSimilarity 实现. 覆盖 (tf,idf,coord and fieldNorm) - 方法. 在 schem.xml ..
发布时间:2021-12-30 08:05:00 其他开发

字符串相似度得分/哈希

有没有一种方法可以计算字符串的一般“相似度分数"?在某种程度上,我不是将两个字符串比较在一起,而是为每个字符串获取一些数字(哈希),稍后可以告诉我两个字符串相似或不相似.两个相似的字符串应该具有相似(接近)的哈希值. 让我们以这些字符串和分数为例: Hello world 1000你好世界!1010你好地球 1125福吧 3250FooBarbar 3750福吧!3300福世界!2350 ..
发布时间:2021-12-27 16:32:55 其他开发

在 Unicode 中查找相似的 ASCII 字符

有人知道在 Unicode 中查找与 ASCII 字符相似的字符的简单方法吗?一个例子是“西里尔小写字母 DZE (S)".我想搜索并替换相似的字符.类似的意思是人类可读的.光看是看不出区别的. 解决方案 正如其他评论者所指出的,Unicode 规范化(“兼容性字符")在这里不会帮助你,因为你不是在寻找官方的等价物,而是在寻找字形(字母形状)的相似性.(链接的 Unicode 技术报告仍然 ..
发布时间:2021-12-25 09:20:11 其他开发

Javascript文本相似度算法

我正在建立一个网站,该网站应该收集各种新闻提要,并希望对文本进行相似性比较.我需要的是某种新闻文本相似度算法.我知道 php 有 similar_text 函数,但我不确定它有多好 + 我需要它用于 javascript.因此,如果有人可以向我指出一个示例或插件或任何有关如何实现这一点的说明,或者至少可以从哪里查看并开始调查. 解决方案 Levenshtein 距离的 javascript ..
发布时间:2021-12-22 20:05:48 前端开发