tf-idf相关内容

我可以在 scikit-learn 中将 TfidfVectorizer 用于非英语语言吗?另外,我如何在 Python 中阅读非英文文本?

我必须阅读包含英语和非英语(特别是马拉雅拉姆语)Python 语言的文本文档.以下是我看到的: >>>text_english = '今天是个好日子'>>>text_non_english = 'ആരാണുസന്തോഷമാഗ്രഹിക്കാത്തत 现在,如果我编写一个代码来使用 提取第一个字母 >>>print(text_english[0])'T' 当我跑步时 >>>print(t ..
发布时间:2021-07-16 20:29:08 Python

如何使用 sklearn 的 SGDClassifier 返回前 N 个预测的准确率?

我正在尝试修改这篇文章中的结果(如何使用 sklearn 的 SGDClassifier 获得前 3 名或前 N 名预测)以获得返回的准确率,但是我得到的准确率为零,我无法弄清楚为什么.有什么想法吗?任何想法/编辑将不胜感激!谢谢你. from sklearn.feature_extraction.text import TfidfVectorizer将 numpy 导入为 np从 sklear ..
发布时间:2021-07-16 20:13:19 Python

为什么以下 tfidf 矢量化失败?

您好,我正在进行以下实验,首先我创建了一个名为:tfidf: tfidf_vectorizer = TfidfVectorizer(min_df=10,ngram_range=(1,3),analyzer='word',max_features=500) 然后我矢量化了以下列表: tfidf = tfidf_vectorizer.fit_transform(listComments) 我的 ..
发布时间:2021-07-16 20:10:54 其他开发

TFIDF 向量化器给出错误

我正在尝试使用 TFIDF 和 SVM 对某些文件进行文本分类.每次选择 3 个词的功能.我的数据文件已经是这样的格式:angel eyes has, each one for, on its own.没有停用词,也不能进行旅鼠或词干提取.我希望将功能选为:天使眼具有...我写的代码如下: 导入操作系统导入系统导入 numpy从 sklearn.svm 导入 LinearSVC从 sklearn ..
发布时间:2021-07-16 20:08:06 Python

TfIdfVectorizer:固定词汇的向量化器如何处理新词?

我正在处理大约 10 万篇研究论文的语料库.我正在考虑三个领域: 纯文本 标题 摘要 我使用 TfIdfVectorizer 来获取纯文本字段的 TfIdf 表示,并将由此产生的词汇反馈回标题和摘要的向量化器中,以确保所有三种表示都使用相同的词汇.我的想法是,由于纯文本字段比其他两个字段大得多,因此它的词汇很可能会覆盖其他字段中的所有单词.但如果不是这样的话,TfIdfVector ..
发布时间:2021-07-16 19:56:02 Python

将新文本添加到 Sklearn TFIDIF Vectorizer (Python)

是否有添加到现有语料库的功能?我已经生成了我的矩阵,我希望定期添加到表格中,而无需重新处理整个 sha-bang 例如; articleList = ['这里有一些文本等等','另一个文本对象','现在你的酒吧有更多的东西']tfidf_vectorizer = TfidfVectorizer(max_df=.8,max_features=2000,min_df=.05,预处理器=prep ..
发布时间:2021-07-16 19:54:47 Python

TfidfVectorizer 中如何计算词频?

我搜索了很多来理解这一点,但我无法理解.我知道默认情况下 TfidfVectorizer 将对词频应用 l2 归一化.这个文章解释了它的等式.我在用古吉拉特语编写的文本中使用 TfidfVectorizer.以下是有关它的输出详细信息: 我的两个文件是: ખુબવખાણકરેછેખુબ વધારે છે 我使用的代码是: vectorizer = TfidfVectorizer(tok ..
发布时间:2021-06-28 19:16:23 其他开发

tfidf.transform() 函数没有返回正确的值

我正在尝试在某个文本语料库上拟合 tfidf 向量化器,然后使用相同的向量化器来查找新文本的 tfidf 值的总和.但是,总和值并不符合预期.示例如下: text = [“我是python和R的新手,谁能帮我",“为什么没有人帮助就没有人能够破解python代码"]tf= TfidfVectorizer(stop_words='english',ngram_range =(1,1))tf.fit ..
发布时间:2021-06-26 19:04:29 Python

N_gram频率python NTLK

我想编写一个函数,返回给定文本的 n-gram 中每个元素的频率.请帮助.我做了这个代码来计算 2 克的频率 代码: from nltk import FreqDist从 nltk.util 导入 ngrams定义计算频率():textfile = "请写一个函数"bigramfdist = FreqDist()Threeramfdist = FreqDist()对于文本文件中的行:如果 ..
发布时间:2021-06-07 20:44:30 Python

tf-idf 用于大量 (65k) 文本文件

我想用 scikit-learn(或 nltk 或我愿意接受其他建议)尝试 tfidf.我拥有的数据是我们抓取并存储在 mongoDB 中的相对大量的讨论论坛帖子(~65k).每个帖子都有帖子标题、帖子的日期和时间、帖子消息的文本(或回复:如果是对现有帖子的回复)、用户名、消息 ID 以及它是子帖子还是父帖子(在线程中),你有原始帖子,然后回复这个操作,或者嵌套回复,树). 我认为每个帖子都 ..
发布时间:2021-06-07 20:38:06 其他开发

了解 TfidfVectorizer 输出

我正在用简单的示例测试 TfidfVectorizer,但我无法弄清楚结果. corpus = [“我想要一个苹果",“一天一苹果,医生远离我",“永远不要将苹果与橙子进行比较",“我更喜欢 scikit-learn 而不是 Orange",“scikit-learn 文档是橙色和蓝色的"]vect = TfidfVectorizer(min_df=1, stop_words=“english" ..
发布时间:2021-06-07 20:35:24 Python

一般来说,TF-IDF 什么时候会降低精度?

我正在使用朴素贝叶斯模型将包含 200000 条评论的语料库训练成正面和负面评论,我注意到执行 TF-IDF 实际上降低了准确度(在 50000 条评论的测试集上进行测试时)大约 2%.所以我想知道 TF-IDF 是否对它所使用的数据或模型有任何潜在的假设,即任何使用它会降低准确性的情况? 解决方案 TF*IDF 的 IDF 组件在某些情况下会损害您的分类准确性. 假设以下人工的、简 ..

如何查看每个单词的tf-idf分数

我试图了解文档中每个单词的 tf-idf 分数.但是,它只返回矩阵中的值,但是我看到了针对每个单词的 tf-idf 分数的一种特定类型的表示形式. 我已经使用了处理过的代码,但是我想更改其显示方式: 代码: 来自sklearn.feature_extraction.text的 导入CountVectorizer从sklearn.feature_extraction.text导入Tf ..