tf-idf相关内容

加权词嵌入是什么意思?

在我尝试实施的纸张中, > 在这项工作中,使用三种类型的文本对推文进行了建模 表示.第一个是单词袋模型,权重为 tf-idf(期限频率 -反向文档频率)(部分 2.1.1).第二个表示通过平均所有单词(在句子中)的词嵌入来表示的句子,第三个表示一个 通过对所有单词的加权单词嵌入进行平均来得出句子, 单词的权重由tf-idf给出(部分 2.1.2). 我不确定第三种表示形式是被提及的, ..
发布时间:2020-05-04 09:27:20 AI人工智能

将scipy.sparse.csr.csr_matrix转换为列表列表

我正在学习多标签分类,并尝试从scikit学习中实施tfidf教程. 我正在处理文本语料库以计算其tf-idf分数. 我正在为此目的使用模块sklearn.feature_extraction.text.使用CountVectorizer和TfidfTransformer,现在我为每个词汇集了语料库矢量和tfidf. 问题是我现在有一个稀疏矩阵,例如: (0, 47) 0.104275891 ..
发布时间:2020-05-04 09:17:39 AI人工智能

我可以在scikit-learn中使用CountVectorizer来计数未用于提取令牌的文档的频率吗?

我一直在使用scikit-learn中的CountVectorizer类. 我知道,如果按照以下所示的方式使用,则最终输出将由一个包含特征或标记计数的数组组成. 这些令牌是从一组关键字中提取的,即 tags = [ "python, tools", "linux, tools, ubuntu", "distributed systems, linux, network ..
发布时间:2020-05-04 09:05:15 AI人工智能

Python:tf-idf-cosine:查找文档相似性

我正在关注一个教程,该教程可在第1部分&中找到. 第2部分.不幸的是,作者没有时间进行最后一节,涉及使用余弦相似度实际找到两个文档之间的距离.我在 stackoverflow 中的以下链接的帮助下,遵循了本文中的示例.上面链接中提到的代码(只是为了使生活更轻松) from sklearn.feature_extraction.text import CountVectorizer from ..

Lucene 4.9:从索引中获取一些选定文档的TF-IDF

我已经在stackoverflow以及其他在线资源上看到了很多类似的问题.但是,看起来Lucene API的相应部分发生了很大变化,因此可以总结一下:我找不到任何适用于最新Lucene版本的示例. 我所拥有的: Lucene索引+ IndexReader + IndexSearcher 一堆文件(及其ID) 我想要什么: 对于在至少一个所选文档中仅 出现的所有术语,我想为每个文 ..
发布时间:2020-05-04 07:52:59 其他开发

如何使用Lucene和Java与tf-idf计算余弦相似度

我有一个查询和一组文档.我需要根据与tf-idf的余弦相似度对这些文档进行排名.有人可以告诉我我可以从Lucene那里得到什么支持来进行计算吗?我可以直接从Lucene计算哪些参数(我可以直接通过Lucene中的某种方法获取tf,idf吗?),以及如何计算与Lucene的余弦相似度(如果我传递了查询的两个向量,是否有任何函数可以直接返回余弦相似度?文档?) 预先感谢 解决方案 Luc ..
发布时间:2020-05-04 07:42:02 Java开发

Lucene自定义评分的数字字段

除了在文本内容字段上具有tf-idf相似性的标准术语搜索之外,我还希望基于数字字段的“相似性"进行评分.这种相似性取决于查询和文档中的值之间的距离(例如,高斯,其中m = [用户输入],s = 0.5) 即假设文档代表人,而人员文档有两个字段: 说明(全文) 年龄(数字). 我想查找类似文件 说明:(x y z)年龄:30 但年龄不是过滤条件,而是分数的一部分(30 ..
发布时间:2020-05-04 07:27:38 其他开发

大数据集的TFIDF

我有一个大约有800万条新闻文章的语料库,我需要以稀疏矩阵的形式获取它们的TFIDF表示形式.我已经能够使用scikit-learn来实现相对较少的样本数量的操作,但是我认为它不能用于如此庞大的数据集,因为它首先将输入矩阵加载到内存中,这是一个昂贵的过程. 有人知道,为大型数据集提取TFIDF向量的最佳方法是什么? 解决方案 Gensim具有高效的 tf-idf模型,并且不需要一次将 ..
发布时间:2020-05-04 07:24:05 Python

我如何对solr/lucene分数进行归一化?

我正在尝试找出如何提高solr搜索结果的得分.我的应用程序需要从solr结果中获取分数,并根据查询结果的好坏来显示一些“星星". 5颗星=几乎/精确到0颗星,这意味着与搜索不完全匹配,例如只有一个元素命中.但是我得到的分数从1.4到0.8660254都返回了我将给5星的结果.我需要做的是以某种方式将这些结果转换成一定百分比,以便我可以用正确的星数标记这些结果. 我运行的查询给出的1.4分是: ..
发布时间:2020-05-04 07:22:56 其他开发

在lucene中获得两个文档之间的余弦相似度

我在Lucene中建立了索引.我想要不指定查询,而只是获得索引中两个文档之间的分数(余弦相似度或另一个距离?). 例如,我从先前打开的IndexReader ir中获取ID为2和4的文档. 文档d1 = ir.document(2); 文档d2 = ir.document(4); 如何获得这两个文档之间的余弦相似度? 谢谢 解决方案 建立索引时,可以选择存储项频率向量. ..
发布时间:2020-05-04 07:22:37 其他开发

余弦相似度

我计算了两个文件的tf / idf值。以下是tf / idf值: 1.txt 0.0 0.5 2.txt 0.0 0.5 文件如下: 1.txt =>狗猫 2.txt => cat elephant 如何使用这些值来计算余弦相似度? 我知道我应该计算点积,然后通过它找到距离并除以点积。如何使用我的值来计算? ..
发布时间:2018-12-06 12:52:58 Java开发

如何计算两个向量的余弦相似度?

如何找到矢量之间的余弦相似度? 我需要找到相似度来衡量两行文本之间的相关性。 例如,我有两个句子,如: 用户界面系统 用户界面机 ...及其在tF-idf之后的各自向量,然后使用LSI进行标准化,例如 [1,0.5] 和 [0.5,1] 。 我如何衡量这些向量之间的熟悉程度? 解决方案 公共类CosineSimilarity扩展AbstractSimi ..
发布时间:2018-12-04 13:57:29 Java开发