TFIDF计算混乱 [英] TFIDF calculating confusion

查看：429 发布时间：2020/10/17 21:55:13 python data-mining text-processing information-retrieval tf-idf

本文介绍了TFIDF计算混乱的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我在互联网上找到了以下代码来计算TFIDF：

I found the following code on the internet for calculating TFIDF:

https://github.com/timtrueman/tf-idf/blob/master/tf-idf.py

我在函数中添加了 1+ def idf（word，documentList），所以我不会被0错误除：

I added "1+" in the function def idf(word, documentList) so i won't get divided by 0 error:

return math.log(len(documentList) / (1 + float(numDocsContaining(word,documentList))))

但是我很困惑两件事：

在某些情况下我得到负值，这是正确的吗？

我是与第62、63和64行混淆。

代码：

 documentNumber = 0
  for word in documentList[documentNumber].split(None):
       words[word] = tfidf(word,documentList[documentNumber],documentList)

仅应在第一个文档上计算TFIDF？

Should TFIDF be calculated on the first document only?

TFIDF计算混乱 [英] TFIDF calculating confusion

问题描述

推荐答案

相关文章

AI人工智能最新文章

热门教程

热门工具

登录关闭

TFIDF计算混乱 [英] TFIDF calculating confusion

问题描述

推荐答案

相关文章

AI人工智能最新文章

热门教程

热门工具

登录 关闭

登录关闭