sentence-similarity相关内容

伯特针对语义相似性进行了微调

我想应用微调 Bert 来计算句子之间的语义相似度.我搜索了很多网站,但我几乎没有在下游找到有关此的信息. 我刚刚找到了 STS 基准.我想知道是否可以使用 STS 基准数据集来训练微调 bert 模型,并将其应用于我的任务.合理吗? 据我所知,计算相似度的方法有很多,包括余弦相似度、皮尔逊相关性、曼哈顿距离等.语义相似度如何选择? 解决方案 作为前面的一般性评论,我想强调的是 ..

在python中找到最相似的句子

建议/参考链接/代码表示赞赏. 我有一个超过 1500 行的数据.每一行都有一个句子.我正在尝试找出在所有句子中找到最相似句子的最佳方法. 我的尝试 我尝试了 K-mean 算法,该算法将相似的句子分组在一个集群中.但是我发现了一个缺点,我必须通过 K 来创建一个集群.很难猜到K.我尝试了 elbo 方法来猜测集群,但将所有组合在一起是不够的.在这种方法中,我将所有数据分组.我正 ..
发布时间:2021-09-05 19:52:19 Python

熊猫:仅当另一列中的值匹配时才计算行之间的重叠单词

我有一个如下所示的数据框,但有很多行: 将pandas导入为pddata = {'intent': ['order_food', 'order_food','order_taxi','order_call','order_call','order_taxi'],'发送':['我需要汉堡包','她想要寿司','我需要一辆出租车','6 点给我打电话','她打电话给我','我想要一辆新出租车'],' ..
发布时间:2021-08-31 18:33:49 Python

如何使用Gensim doc2vec执行有效查询?

我正在研究具有以下用例的句子相似性算法:给定一个新句子,我想从给定集合中检索其n个最相似的句子.我正在使用Gensim v.3.7.1,并且已经训练了word2vec和doc2vec模型.后者的结果优于word2vec,但我无法在Doc2Vec模型上执行有效的查询.此模型使用分布式词袋实现(dm = 0). 我曾经使用内置方法model.most_similar()来推论相似性,但是一旦我开 ..
发布时间:2020-11-13 06:19:25 Python

如何训练一个模型,该模型将导致两个新闻标题之间的相似度得分?

我正在尝试构建一个假新闻分类器,并且在这个领域我还很新.我有一列"title_1_en",其中包含虚假新闻的标题,另一列名为"title_2_en".有3个目标标签;如果"title_2_en"列中的新闻标题与第一栏中的新闻标题相同,不同意或无关,则“同意",“不同意"和“无关". 在将句子中的单词转换为向量之后,我尝试计算两个标题之间的基本余弦相似度.这导致了余弦相似性评分,但是由于根本没 ..

即使单词有区别,如何在两个问题之间找到相似点

有什么方法可以找到字符串的含义是否相似,即使字符串中的单词有所区别 直到现在我尝试模糊-模糊,列文斯坦距离,余弦相似度匹配字符串,但是全部匹配单词而不是单词的含义 Str1 =“谈判的类型是什么” Str2 =“谈判的优点是什么” Str3 =“谈判的种类是什么” 比率= fuzz.ratio(Str1.lower(), Str2.lower()) Partial_Rat ..
发布时间:2020-10-01 04:04:53 Python

两份文件清单之间的相似性

我需要在Python的两个短文本列表之间找到相似之处. 文字可以是1-4个字长.每个列表的长度可以是10K. 我没有找到如何在spaCy中有效地执行此操作.也许其他软件包可以做到这一点? 我假设单词由向量(300d)表示,但是其他任何选项也都可以. 此任务可以循环执行,但是应该有一种更有效的方法来确保.此任务适合TensorFlow,pyTorch和类似的程序包,但我不熟悉这些程序包的详细信息. ..
发布时间:2020-05-18 01:07:40 其他开发

针对语义相似性对Bert进行了微调

我想应用微调的Bert来计算句子之间的语义相似度. 我搜索了很多网站,但在下游几乎找不到. 我刚刚找到了 STS基准. 我想知道是否可以使用STS基准数据集来训练微调的bert模型,并将其应用于我的任务. 合理吗? 据我所知,有很多计算相似度的方法,包括余弦相似度,皮尔逊相关度,曼哈顿距离等. 如何选择语义相似性? 解决方案 作为前面的一般性评论,我想强调一下,此类问题可能不被 ..

使用keras的句子相似度

我正在尝试基于STS数据集的工作来实现句子相似性架构.标签是从0到1的归一化相似度评分,因此我们将其视为回归模型. 我的问题是,损失从第一个时期开始直接流向NaN.我在做什么错了? 我已经尝试更新到最新的keras和theano版本. 我的模型的代码是: def create_lstm_nn(input_dim): seq = Sequential()` # ..
发布时间:2020-04-25 09:51:00 Python