tf-idf 第3页 - IT屋-程序员软件开发技术分享社区

我可以在 scikit-learn 中将 TfidfVectorizer 用于非英语语言吗?另外，我如何在 Python 中阅读非英文文本?

我必须阅读包含英语和非英语(特别是马拉雅拉姆语)Python 语言的文本文档.以下是我看到的: >>>text_english = '今天是个好日子'>>>text_non_english = 'ആരാണുസന്തോഷമാഗ്രഹിക്കാത്തत 现在，如果我编写一个代码来使用提取第一个字母 >>>print(text_english[0])'T' 当我跑步时 >>>print(t ..

发布时间：2021-07-16 20:29:08 python utf-8 scikit-learn tf-idf python-textprocessing Python

如何根据 tfidf 指数和分数找出哪些词最具代表性

我已经为我的语料库中的单词生成了 tfidf 分数，并想确定它们是哪些单词.这是我的代码和结果: from sklearn.feature_extraction.text import CountVectorizercount_vect = CountVectorizer(stop_words = 'english')X_counts = count_vect.fit_transform(X)X ..

发布时间：2021-07-16 20:29:07 scikit-learn tf-idf 其他开发

如何使用 sklearn 的 SGDClassifier 返回前 N 个预测的准确率?

我正在尝试修改这篇文章中的结果(如何使用 sklearn 的 SGDClassifier 获得前 3 名或前 N 名预测)以获得返回的准确率，但是我得到的准确率为零，我无法弄清楚为什么.有什么想法吗?任何想法/编辑将不胜感激！谢谢你. from sklearn.feature_extraction.text import TfidfVectorizer将 numpy 导入为 np从 sklear ..

发布时间：2021-07-16 20:13:19 python scikit-learn tf-idf Python

为什么以下 tfidf 矢量化失败?

您好，我正在进行以下实验，首先我创建了一个名为:tfidf: tfidf_vectorizer = TfidfVectorizer(min_df=10,ngram_range=(1,3),analyzer='word',max_features=500) 然后我矢量化了以下列表: tfidf = tfidf_vectorizer.fit_transform(listComments) 我的 ..

发布时间：2021-07-16 20:10:54 scikit-learn tf-idf 其他开发

TFIDF 向量化器给出错误

我正在尝试使用 TFIDF 和 SVM 对某些文件进行文本分类.每次选择 3 个词的功能.我的数据文件已经是这样的格式:angel eyes has, each one for, on its own.没有停用词，也不能进行旅鼠或词干提取.我希望将功能选为:天使眼具有...我写的代码如下: 导入操作系统导入系统导入 numpy从 sklearn.svm 导入 LinearSVC从 sklearn ..

发布时间：2021-07-16 20:08:06 python scikit-learn tf-idf Python

错误预测:X 每个样本有 n 个特征，期望 m

我得到了以下代码，我将文本转换为 tf: ...x_train, x_test, y_train, y_test = model_selection.train_test_split(dataset['documents'],dataset['classes'],test_size=test_percentil)#Term 文档矩阵count_vect = CountVectorizer(ngr ..

发布时间：2021-07-16 20:06:14 python python-3.x scikit-learn tf-idf Python

AttributeError: getfeature_names 未找到；使用 scikit-learn

from sklearn.feature_extraction.text import CountVectorizer矢量化器 = CountVectorizer()vectorizer = vectorizer.fit(word_data)freq_term_mat = vectorizer.transform(word_data)从 sklearn.feature_extraction.tex ..

发布时间：2021-07-16 20:06:08 python scikit-learn tf-idf Python

使用 sklearn 如何计算文档和查询之间的 tf-idf 余弦相似度?

我的目标是输入 3 个查询并找出哪个查询与一组 5 个文档最相似. 到目前为止，我已经计算了文档的 tf-idf 执行以下操作: from sklearn.feature_extraction.text import TfidfVectorizerdef get_term_frequency_inverse_data_frequency(文档):allDocs = []对于文档中的文档:a ..

发布时间：2021-07-16 20:03:01 python scikit-learn tf-idf cosine-similarity Python

TfIdfVectorizer:固定词汇的向量化器如何处理新词?

我正在处理大约 10 万篇研究论文的语料库.我正在考虑三个领域: 纯文本标题摘要我使用 TfIdfVectorizer 来获取纯文本字段的 TfIdf 表示，并将由此产生的词汇反馈回标题和摘要的向量化器中，以确保所有三种表示都使用相同的词汇.我的想法是，由于纯文本字段比其他两个字段大得多，因此它的词汇很可能会覆盖其他字段中的所有单词.但如果不是这样的话，TfIdfVector ..

发布时间：2021-07-16 19:56:02 python scikit-learn tf-idf cosine-similarity Python

将新文本添加到 Sklearn TFIDIF Vectorizer (Python)

是否有添加到现有语料库的功能?我已经生成了我的矩阵，我希望定期添加到表格中，而无需重新处理整个 sha-bang 例如; articleList = ['这里有一些文本等等'，'另一个文本对象'，'现在你的酒吧有更多的东西']tfidf_vectorizer = TfidfVectorizer(max_df=.8,max_features=2000,min_df=.05,预处理器=prep ..

发布时间：2021-07-16 19:54:47 python scikit-learn tf-idf Python

tf-idf 特征权重使用 sklearn.feature_extraction.text.TfidfVectorizer

这个页面:http://scikit-learn.org/stable/modules/feature_extraction.html 提及: 由于 tf–idf 经常用于文本特征，因此还有另一个名为 TfidfVectorizer 的类，它结合了 CountVectorizer 和 TfidfTransformer 在单个模型中. 然后我按照代码在我的语料库中使用 fit_trans ..

发布时间：2021-07-16 19:50:50 python scikit-learn tf-idf Python

如何存储 TfidfVectorizer 以备将来在 scikit-learn 中使用?

我有一个 TfidfVectorizer 可以对文章集合进行矢量化，然后进行特征选择. vectroizer = TfidfVectorizer()X_train = vectroizer.fit_transform(语料库)选择器 = SelectKBest(chi2, k = 5000)X_train_sel = selector.fit_transform(X_train, y_train ..

发布时间：2021-06-28 19:22:31 python python-3.x scikit-learn tf-idf joblib Python

TfidfVectorizer 中如何计算词频?

我搜索了很多来理解这一点，但我无法理解.我知道默认情况下 TfidfVectorizer 将对词频应用 l2 归一化.这个文章解释了它的等式.我在用古吉拉特语编写的文本中使用 TfidfVectorizer.以下是有关它的输出详细信息: 我的两个文件是: ખુબવખાણકરેછેખુબ વધારે છે 我使用的代码是: vectorizer = TfidfVectorizer(tok ..

发布时间：2021-06-28 19:16:23 python-3.x scikit-learn tf-idf 其他开发

tfidf.transform() 函数没有返回正确的值

我正在尝试在某个文本语料库上拟合 tfidf 向量化器，然后使用相同的向量化器来查找新文本的 tfidf 值的总和.但是，总和值并不符合预期.示例如下: text = [“我是python和R的新手，谁能帮我"，“为什么没有人帮助就没有人能够破解python代码"]tf= TfidfVectorizer(stop_words='english',ngram_range =(1,1))tf.fit ..

发布时间：2021-06-26 19:04:29 python python-2.7 scikit-learn tf-idf Python

N_gram频率python NTLK

我想编写一个函数，返回给定文本的 n-gram 中每个元素的频率.请帮助.我做了这个代码来计算 2 克的频率代码: from nltk import FreqDist从 nltk.util 导入 ngrams定义计算频率():textfile = "请写一个函数"bigramfdist = FreqDist()Threeramfdist = FreqDist()对于文本文件中的行:如果 ..

发布时间：2021-06-07 20:44:30 python pandas nltk tf-idf countvectorizer Python

tf-idf 用于大量 (65k) 文本文件

我想用 scikit-learn(或 nltk 或我愿意接受其他建议)尝试 tfidf.我拥有的数据是我们抓取并存储在 mongoDB 中的相对大量的讨论论坛帖子(~65k).每个帖子都有帖子标题、帖子的日期和时间、帖子消息的文本(或回复:如果是对现有帖子的回复)、用户名、消息 ID 以及它是子帖子还是父帖子(在线程中)，你有原始帖子，然后回复这个操作，或者嵌套回复，树). 我认为每个帖子都 ..

发布时间：2021-06-07 20:38:06 nlp nltk scikit-learn tf-idf 其他开发

了解 TfidfVectorizer 输出

我正在用简单的示例测试 TfidfVectorizer，但我无法弄清楚结果. corpus = [“我想要一个苹果"，“一天一苹果，医生远离我"，“永远不要将苹果与橙子进行比较"，“我更喜欢 scikit-learn 而不是 Orange"，“scikit-learn 文档是橙色和蓝色的"]vect = TfidfVectorizer(min_df=1, stop_words=“english" ..

发布时间：2021-06-07 20:35:24 python scikit-learn nlp tf-idf tfidfvectorizer Python

一般来说，TF-IDF 什么时候会降低精度?

我正在使用朴素贝叶斯模型将包含 200000 条评论的语料库训练成正面和负面评论，我注意到执行 TF-IDF 实际上降低了准确度(在 50000 条评论的测试集上进行测试时)大约 2%.所以我想知道 TF-IDF 是否对它所使用的数据或模型有任何潜在的假设，即任何使用它会降低准确性的情况? 解决方案 TF*IDF 的 IDF 组件在某些情况下会损害您的分类准确性. 假设以下人工的、简 ..

发布时间：2021-06-07 18:33:27 sentiment-analysis tf-idf text-classification naivebayes 其他开发

如何查看每个单词的tf-idf分数

我试图了解文档中每个单词的 tf-idf 分数.但是，它只返回矩阵中的值，但是我看到了针对每个单词的 tf-idf 分数的一种特定类型的表示形式. 我已经使用了处理过的代码，但是我想更改其显示方式: 代码: 来自sklearn.feature_extraction.text的导入CountVectorizer从sklearn.feature_extraction.text导入Tf ..

发布时间：2021-05-31 18:43:33 machine-learning scikit-learn nlp tf-idf tfidfvectorizer AI人工智能

AttributeError:'int'对象在TFIDF和CountVectorizer中没有属性"lower"

我试图预测输入消息的不同类别，并且我使用波斯语.我使用Tfidf和Naive-Bayes对输入数据进行分类.这是我的代码: 将pandas导入为pddf = pd.read_excel('dataset.xlsx')col = ['label'，'body']df=df[col]df.columns = ['label'，'body']df['class_type'] = df['label'] ..

发布时间：2021-05-31 18:39:09 python machine-learning scikit-learn tf-idf AI人工智能

tf-idf相关内容