tf-idf相关内容

scikit-learn 中的 TfidfVectorizer:ValueError: np.nan is an invalid document

我正在使用 scikit-learn 的 TfidfVectorizer 从文本数据中提取一些特征.我有一个带有分数(可以是 +1 或 -1)和评论(文本)的 CSV 文件.我将这些数据提取到 DataFrame 中,以便我可以运行 Vectorizer. 这是我的代码: 将pandas导入为pd将 numpy 导入为 np从 sklearn.feature_extraction.text ..
发布时间:2021-12-14 09:40:37 AI人工智能

Python:tf-idf-cosine:查找文档相似度

我正在学习 第 1 部分 上的教程 &第 2 部分.不幸的是,作者没有时间进行最后一节,其中涉及使用余弦相似度来实际找到两个文档之间的距离.我在 stackoverflow 的以下链接的帮助下遵循了文章中的示例,其中包括上面链接中提到的代码(只是为了让生活更轻松) from sklearn.feature_extraction.text import CountVectorizer从 sklea ..

如何保留 Spark HashingTF() 函数的输入键或索引?

基于 1.4 的 Spark 文档(https://spark.apache.org/docs/1.4.0/mllib-feature-extraction.html) 我正在编写一个 TF-IDF 示例,用于将文本文档转换为值向量.给出的示例显示了如何做到这一点,但输入是一个 RDD,没有键.这意味着我的输出 RDD 不再包含索引或键来引用原始文档.例子是这样的: documents = sc ..
发布时间:2021-11-14 21:09:04 其他开发

如何使用 Spark Naive Bayes 分类器对 IDF 进行文本分类?

我想使用 tf-idf 将文本文档转换为特征向量,然后训练一个朴素贝叶斯算法来对它们进行分类. 我可以轻松加载没有标签的文本文件,并使用 HashingTF() 将其转换为向量,然后使用 IDF() 根据单词的重要性对其进行加权.但是如果我这样做,我会去掉标签,即使顺序相同,似乎也不可能将标签与向量重新组合. 另一方面,我可以在每个单独的文档上调用 HashingTF() 并保留标签, ..

用于 LogisticRegression 的 Spark MLLib TFIDF 实现

我尝试使用 Spark 1.1.0 提供的新 TFIDF 算法.我正在用 Java 为 MLLib 编写我的工作,但我不知道如何让 TFIDF 实现工作.出于某种原因 IDFModel 只接受 JavaRDD 作为方法 transform 而不是简单的 Vector.如何使用给定的类为我的标签点建模 TFIDF 向量? 注意:文档行的格式为 [Label;文字] 这是我目前的代码: ..
发布时间:2021-11-14 20:58:22 Java开发

sklearn如何从每个主题中获取10个单词

我想得到每个话题的前10个词频,在我使用TfidfTransformer之后,我得到:并且类型是scipy.sparse.csr.csr_matrix 但是我不知道如何从每个列表中获得最高的十个,在数据中,(0, ****) 表示 0 列表,直到 (5170, *****) 表示 5170 列表. 我尝试将其转换为 numpy,但失败了. (0, 19016) 0.02421418 ..
发布时间:2021-09-06 20:00:00 Python

Tfidfvectorizer - 如何查看已处理的令牌?

如何检查在 TfidfVertorizer() 中标记的字符串?如果我没有在参数中传递任何内容,TfidfVertorizer() 将使用一些预定义的方法标记字符串.我想观察它如何标记字符串,以便我可以更轻松地调整我的模型. from sklearn.feature_extraction.text import TfidfVectorizercorpus = ['这是第一个文件.','这个文件是 ..
发布时间:2021-09-06 19:59:55 Python

用语料库计算 tf-idf

所以,我复制了一份关于如何创建一个可以运行 tf-idf 的系统的源代码,代码如下: #module 导入从 __future__ 导入师,unicode_literals导入数学导入字符串进口重新导入操作系统从 text.blob 导入 TextBlob 作为 tb#创建一个新数组单词 = {}def tf(word, blob):返回 blob.words.count(word)/len( ..
发布时间:2021-09-06 19:59:52 Python

在 Elasticsearch 中获取索引文档的倒排索引

我有很多文档(带有分析文本字段title).它们已在 Elasticsearch 中建立索引,现在我只需要获取字段 title 中每个词的词频 TF 和逆文档频率 IDF,无需任何查询.(只是索引文档并检索字段中所有术语的倒排索引title) 这在 Elasticsearch 中可行吗? 解决方案 我写了一个 教程 关于如何从 ES 获取术语文档矩阵.这确实涵盖了获取 TF 而不是 ..
发布时间:2021-09-06 19:59:50 其他开发

在 Python 中使用 TF-IDF、NGrams 和 Cosine Similarity 进行字符串匹配

我正在从事我的第一个主要数据科学项目.我试图将来自一个源的大量数据列表与另一个源中的清理过的字典之间的名称匹配.我正在使用 this 字符串匹配博客作为指南. 我正在尝试使用两个不同的数据集.不幸的是,我似乎无法获得好的结果,而且我认为我没有适当地应用它. 代码: 导入pandas为pd,numpy为np,re,sparse_dot_topn.sparse_dot_topn为ct从 ..
发布时间:2021-09-06 19:59:47 Python

为预测集群创建一个新列:SettingWithCopyWarning

不幸的是,这个问题将是重复的,但即使查看了其他类似问题及其相关答案,我也无法解决我的代码中的问题.我需要将我的数据集拆分为训练一个测试数据集.但是,当我添加一个用于预测集群的新列时,我似乎犯了一些错误.我得到的错误是: /anaconda3/lib/python3.7/site-packages/ipykernel_launcher.py:3: SettingWithCopyWarning:试图 ..
发布时间:2021-09-06 19:59:44 Python

BigQuery/DataPrep:提取字数的有效方法;将 HTML 转换为纯文本

我有一个存储在 BigQuery 中的大约 470 万个文档的表格.有些是纯文本,有些是 HTML.它们每个大约 2k 个令牌,变化很大.我主要使用 DataPrep 进行处理. 我想提取这些标记并计算 TF-IDF 值.> 令牌计数 执行此操作是耗时较多的步骤之一: id,文档1、“foo bar foo baz"2、“foo bar bar qux" 然后变成这样: id, ..

关于余弦相似度

我发现文档之间的余弦相似性..我是这样做的 D1=(8,0,0,1) 其中 8,0,0,1 是术语 t1, t2, t3 , t4 的 tf-idf 分数 D2=(7,0,0,1) cos(theta) = (56 + 0 + 0 + 1)/sqrt(64 + 49) sqrt(1 +1) 结果是 cos(theta)= 5 现在我根据这个值评估什么...我不明 ..
发布时间:2021-09-06 19:59:38 其他开发

Python Tf idf 算法

我想在一组文档中找到最相关的词. 我想在 3 个文档上调用 Tf Idf 算法并返回一个包含每个单词及其频率的 csv 文件. 之后,我只取高数的我会使用它们. 我发现这个实现可以满足我的需求 https://github.com/mccurdyc/tf-idf/. 我使用 subprocess 库调用该 jar.但是这段代码有一个很大的问题:它在分析单词时犯了很多错误.它 ..
发布时间:2021-09-06 19:59:35 Python

用户警告:您的 stop_words 可能与您的预处理不一致

我正在关注 this 文档聚类教程.作为输入,我提供了一个 txt 文件,可以在这里下载.它是 3 个其他 txt 文件的组合文件,使用 \n 分隔.创建 tf-idf 矩阵后,我收到此警告: ,,UserWarning: 你的 stop_words 可能与你的预处理不一致.标记停用词生成的标记 ['abov', 'afterward', 'alon', 'alreadi', 'alway' ..