sentence-similarity相关内容
我尝试了不同的方法来句子相似度,即: 空间模型:en_core_web_md和en_core_web_lg。 变形金刚:使用包sentence-similarity和sentence-transformers,我尝试了distilbert-base-uncased、bert-base-uncased或sentence-transformers/all-mpnet-base-v2等模型。
..
我想应用微调 Bert 来计算句子之间的语义相似度.我搜索了很多网站,但我几乎没有在下游找到有关此的信息. 我刚刚找到了 STS 基准.我想知道是否可以使用 STS 基准数据集来训练微调 bert 模型,并将其应用于我的任务.合理吗? 据我所知,计算相似度的方法有很多,包括余弦相似度、皮尔逊相关性、曼哈顿距离等.语义相似度如何选择? 解决方案 作为前面的一般性评论,我想强调的是
..
将 tensforflow 与 Flask REST API 结合使用 我应该如何减少 session.run 的时间 我在 REST API 中使用 tf 1/2,而不是在我的服务器上使用它. 我已经尝试过 tensorflow 1 和 2. tensorflow 1 花费了太多时间. tensorflow 2 甚至没有返回文本的向量. 在 tensorflow
..
建议/参考链接/代码表示赞赏. 我有一个超过 1500 行的数据.每一行都有一个句子.我正在尝试找出在所有句子中找到最相似句子的最佳方法. 我的尝试 我尝试了 K-mean 算法,该算法将相似的句子分组在一个集群中.但是我发现了一个缺点,我必须通过 K 来创建一个集群.很难猜到K.我尝试了 elbo 方法来猜测集群,但将所有组合在一起是不够的.在这种方法中,我将所有数据分组.我正
..
我有一个如下所示的数据框,但有很多行: 将pandas导入为pddata = {'intent': ['order_food', 'order_food','order_taxi','order_call','order_call','order_taxi'],'发送':['我需要汉堡包','她想要寿司','我需要一辆出租车','6 点给我打电话','她打电话给我','我想要一辆新出租车'],'
..
我正在研究具有以下用例的句子相似性算法:给定一个新句子,我想从给定集合中检索其n个最相似的句子.我正在使用Gensim v.3.7.1,并且已经训练了word2vec和doc2vec模型.后者的结果优于word2vec,但我无法在Doc2Vec模型上执行有效的查询.此模型使用分布式词袋实现(dm = 0). 我曾经使用内置方法model.most_similar()来推论相似性,但是一旦我开
..
我正在尝试构建一个假新闻分类器,并且在这个领域我还很新.我有一列"title_1_en",其中包含虚假新闻的标题,另一列名为"title_2_en".有3个目标标签;如果"title_2_en"列中的新闻标题与第一栏中的新闻标题相同,不同意或无关,则“同意",“不同意"和“无关". 在将句子中的单词转换为向量之后,我尝试计算两个标题之间的基本余弦相似度.这导致了余弦相似性评分,但是由于根本没
..
有什么方法可以找到字符串的含义是否相似,即使字符串中的单词有所区别 直到现在我尝试模糊-模糊,列文斯坦距离,余弦相似度匹配字符串,但是全部匹配单词而不是单词的含义 Str1 =“谈判的类型是什么” Str2 =“谈判的优点是什么” Str3 =“谈判的种类是什么” 比率= fuzz.ratio(Str1.lower(), Str2.lower()) Partial_Rat
..
我需要在Python的两个短文本列表之间找到相似之处. 文字可以是1-4个字长.每个列表的长度可以是10K. 我没有找到如何在spaCy中有效地执行此操作.也许其他软件包可以做到这一点? 我假设单词由向量(300d)表示,但是其他任何选项也都可以. 此任务可以循环执行,但是应该有一种更有效的方法来确保.此任务适合TensorFlow,pyTorch和类似的程序包,但我不熟悉这些程序包的详细信息.
..
我想应用微调的Bert来计算句子之间的语义相似度. 我搜索了很多网站,但在下游几乎找不到. 我刚刚找到了 STS基准. 我想知道是否可以使用STS基准数据集来训练微调的bert模型,并将其应用于我的任务. 合理吗? 据我所知,有很多计算相似度的方法,包括余弦相似度,皮尔逊相关度,曼哈顿距离等. 如何选择语义相似性? 解决方案 作为前面的一般性评论,我想强调一下,此类问题可能不被
..
我有一个尺寸为2*1*300的句子对的句子嵌入输出X.我想将此输出分为形状为1*300的两个向量,以计算其绝对差和乘积. x = MaxPooling2D(pool_size=(1,MAX_SEQUENCE_LENGTH),strides=(1,1))(x) x_A = Reshape((1,EMBEDDING_DIM))(x[:,0]) x_B = Reshape((1,EMBEDDING
..
我正在尝试基于STS数据集的工作来实现句子相似性架构.标签是从0到1的归一化相似度评分,因此我们将其视为回归模型. 我的问题是,损失从第一个时期开始直接流向NaN.我在做什么错了? 我已经尝试更新到最新的keras和theano版本. 我的模型的代码是: def create_lstm_nn(input_dim): seq = Sequential()` #
..