tf-idf相关内容

弹性搜索词频及其关系

我想知道是否有可能在整个索引或别名中获取Elasticearch字段中最常用的前十个单词。 以下是我正在尝试做的事情: 我正在索引从各种文档类型(Word、Powerpoint、PDF等)中提取的文本文档,这些文档将被分析并存储在名为docContent的字段中。我想知道是否有办法在特定索引中找到存储在文档内容字段中的最常用单词。 为了更清楚起见,我们假设我正在为来自Amazon ..
发布时间:2022-08-19 19:26:28 其他开发

TfidfVectorizer似乎给出了不正确的结果

我有一个长度为7(7个主题)的列表 列表中的每个元素都包含一个很长的单词字符串。 列表中的每个元素都可以被视为一个主题,其中有一个长句将其区分开来 我要检查哪些单词使每个主题具有唯一性(列表中的每个元素) 以下是我的代码: from sklearn.feature_extraction.text import TfidfVectorizer train = read_train_ ..
发布时间:2022-02-21 16:30:19 其他开发

数字字段的 Lucene 自定义评分

除了在文本内容字段上使用 tf-idf 相似性进行标准术语搜索之外,我还希望根据数字字段的“相似性"进行评分.这种相似性将取决于查询中的值与文档中的值之间的距离(例如,m= [用户输入],s= 0.5 的高斯) 即假设文档代表人,并且个人文档有两个字段: 说明(全文) 年龄(数字). 我想查找类似的文档 描述:(x y z) 年龄:30 但年龄不是过滤器,而是分数的 ..
发布时间:2022-01-15 12:45:41 其他开发

大型数据集的 TFIDF

我有一个包含大约 800 万篇新闻文章的语料库,我需要将它们的 TFIDF 表示为稀疏矩阵.对于相对较少数量的样本,我已经能够使用 scikit-learn 做到这一点,但我相信它不能用于如此庞大的数据集,因为它首先将输入矩阵加载到内存中,这是一个昂贵的过程. 有谁知道,为大型数据集提取 TFIDF 向量的最佳方法是什么? 解决方案 Gensim 有一个高效的 tf-idf 模型 并 ..
发布时间:2022-01-15 12:26:59 Python

在lucene中获取两个文档之间的余弦相似度

我已经在 Lucene 中建立了一个索引.我想不指定查询,只是为了获得索引中两个文档之间的分数(余弦相似度或其他距离?). 例如,我从以前打开的 IndexReader 中获取 id 为 2 和 4 的文档.文档 d1 = ir.document(2);文档 d2 = ir.document(4); 如何获得这两个文档之间的余弦相似度? 谢谢 解决方案 索引时,可以选择存 ..
发布时间:2022-01-15 12:19:37 其他开发

在python中使用sklearn为n-gram计算TF-IDF

我有一个包含 n-gram 的词汇表,如下所示. myvocabulary = ['tim tam', 'jam', 'fresh milk', 'chocolates', '饼干布丁'] 我想用这些词来计算 TF-IDF 值. 我还有一个语料字典如下(键=菜谱号,值=菜谱) corpus = {1:“让巧克力饼干布丁变得简单,首先得到你最喜欢的饼干巧克力",2:“tim tam 喝新 ..
发布时间:2022-01-02 17:49:27 Python

用于搜索查询的 TF*IDF

好的,所以我一直在关注 TF*IDF 上的这两篇文章,但有点困惑:http://css.dzone.com/articles/machine-learning-text-feature 基本上,我想创建一个搜索查询,其中包含对多个文档的搜索.我想使用 scikit-learn 工具包以及 Python 的 NLTK 库 问题是我没有看到两个 TF*IDF 向量来自哪里.我需要一个搜索查 ..
发布时间:2022-01-02 17:45:47 Python

NLTK 是否实施了 TF-IDF?

scikit-learn 和 gensim 中有 TF-IDF 实现. 有简单的实现 Python 中 N-Gram、tf-idf 和 Cosine 相似度的简单实现 为了避免重新发明轮子, NLTK 中真的没有 TF-IDF 吗? 是否有我们可以操纵的子包来在 NLTK 中实现 TF-IDF?如果有怎么办? 在这篇博文中,它说 NLTK 没有它.这是真的吗? http: ..
发布时间:2022-01-02 17:36:30 Python

解释跨文档单词的 TF-IDF 分数总和

首先让我们提取每个文档每个术语的 TF-IDF 分数: from gensim 导入语料库、模型、相似点文档 = [“实验室 abc 计算机应用程序的人机界面",《用户对计算机系统响应时间意见的调查》,《EPS用户界面管理系统》,《EPS的系统与人体系统工程测试》,“用户感知响应时间与错误测量的关系",《随机二叉无序树的生成》,"树中路径的交集图",“图未成年人IV树的宽度和井准排序",《图未成 ..
发布时间:2022-01-02 17:25:59 Python

我可以在 scikit-learn 中使用 CountVectorizer 来计算未用于提取标记的文档的频率吗?

我一直在使用 scikit-learn 中的 CountVectorizer 类. 我知道如果以下面所示的方式使用,最终输出将包含一个包含特征计数或标记的数组. 这些标记是从一组关键字中提取的,即 标签 = [“蟒蛇,工具","linux, 工具, ubuntu",“分布式系统、Linux、网络、工具",] 下一步是: from sklearn.feature_extractio ..
发布时间:2021-12-25 14:49:59 AI人工智能

如何使 TF-IDF 矩阵密集?

我正在使用 TfidfVectorizer 将原始文档集合转换为 TF-IDF 特征矩阵,然后我计划将其输入到 k-means 算法(我将实施).在该算法中,我将不得不计算质心(文章类别)和数据点(文章)之间的距离.我将使用欧几里得距离,所以我需要这两个实体具有相同的维度,在我的例子中是 max_features.这是我所拥有的: tfidf = TfidfVectorizer(max_feat ..
发布时间:2021-12-25 14:45:34 Python

SMOTE 初始化期望 n_neighbors <= n_samples,但 n_samples <;n_neighbors

我已经预先清理了数据,下面是前4行的格式: [IN] df.head()[OUT] 清洁年0 1909 熟人收据跟随文员皇冠...1 1909 询问国务秘书国战是否发出声明...2 1909 年我乞求小标志向上的机动车驾驶...3 1909 我想问问国务卿国战少尉...4 1909问国务秘书国战是否会引入... 我按如下方式调用了 train_test_split(): [IN] X_t ..
发布时间:2021-12-25 14:43:30 其他开发

如何使用 Pandas 数据框获取 tfidf?

我想从下面的文档中计算 tf-idf.我正在使用 python 和 Pandas. 将pandas导入为pddf = pd.DataFrame({'docId': [1,2,3],'sent': ['这是第一句','这是第二句','这是第三句']}) 首先,我认为我需要为每一行获取 word_count.于是我写了一个简单的函数: def word_count(sent):word2cnt ..
发布时间:2021-12-25 14:29:47 Python

大数据集的 TFIDF

我有一个包含大约 800 万篇新闻文章的语料库,我需要将它们的 TFIDF 表示为稀疏矩阵.我已经能够将 scikit-learn 用于相对较少数量的样本,但我相信它不能用于如此庞大的数据集,因为它首先将输入矩阵加载到内存中,这是一个昂贵的过程. 有谁知道提取大型数据集的 TFIDF 向量的最佳方法是什么? 解决方案 Gensim 有一个高效的 tf-idf 模型 并且不需要一次将所 ..
发布时间:2021-12-25 14:28:43 Python

如何在python中使用tf-idf svm sklearn绘制文本分类

我已经按照 本教程 分类工作正常.现在我想绘制 tf-idf 值(即特征),并查看最终生成的超平面如何将数据分为两类. 实现的代码如下: 导入操作系统将 numpy 导入为 np从 sklearn.naive_bayes 导入 MultinomialNB从 sklearn.metrics 导入混淆_矩阵从 sklearn.svm 导入 LinearSVC从 sklearn.featu ..
发布时间:2021-12-24 14:23:42 Python

如何标准化 solr/lucene 分数?

我正在努力研究如何提高 solr 搜索结果的评分.我的应用程序需要从 solr 结果中获取分数,并根据查询结果的好坏程度显示一些“星星".5 颗星 = 几乎/精确到 0 颗星意味着与搜索不匹配,例如只有一个元素命中.然而,我得到的分数从 1.4 到 0.8660254 都返回了我会给 5 星的结果.我需要做的是以某种方式将这些结果转换为百分比,以便我可以用正确的星数标记这些结果. 我运行的给 ..
发布时间:2021-12-20 13:56:30 其他开发