text-classification相关内容

使用 Scikit-learn 计算信息增益

我正在使用 Scikit-learn 进行文本分类.我想针对(稀疏)文档项矩阵中的类计算每个属性的信息增益. 信息增益定义为H(Class) - H(Class | Attribute),其中H是熵. 使用weka,这可以通过信息增益属性.但是我在scikit-learn中没有找到这个度量. 然而,建议公式上述信息增益与互信息的度量相同.这也符合维基百科中的定义. 是否可以 ..

CountVectorizer: AttributeError: 'numpy.ndarray' 对象没有属性 'lower'

我有一个一维数组,每个元素都有大字符串.我正在尝试使用 CountVectorizer 将文本数据转换为数值向量.但是,我收到一条错误消息: AttributeError: 'numpy.ndarray' 对象没有属性 'lower' mealarray 在每个元素中都包含大字符串.有 5000 个这样的样本.我正在尝试将其矢量化,如下所示: vectorizer = CountVector ..
发布时间:2021-12-25 14:41:17 Python

预期密集有形状,但有形状的阵列

在 keras 中运行文本分类模型时调用 model.predict 函数时出现以下错误.我到处搜索,但对我不起作用. ValueError: 检查输入时出错:预期dense_1_input 具有形状(100,) 但得到形状为(1,) 的数组 我的数据有 5 个类,总共只有 15 个示例.下面是数据集 查询标签0 嗨介绍1 你好吗2 你好介绍3 怎么了?4 生活怎么样?5gb 再见6 再见 ..
发布时间:2021-12-19 12:45:16 Python

如何将另一个特征(文本长度)添加到当前的词袋分类中?Scikit-学习

我正在使用词袋对文本进行分类.它运行良好,但我想知道如何添加一个不是单词的功能. 这是我的示例代码. 将 numpy 导入为 np从 sklearn.pipeline 导入管道从 sklearn.feature_extraction.text 导入 CountVectorizer从 sklearn.svm 导入 LinearSVC从 sklearn.feature_extraction.t ..

在 Scala Spark 中使用数据框的朴素贝叶斯多项式文本分类器

我正在尝试构建一个 NaiveBayes 分类器,将数据库中的数据加载为包含(标签、文本)的 DataFrame.这是数据样本(多项标签): 标签|特点|+-----+--------------------+|1|燃烧准备...||1|工业用粘合剂...||1|||1|保鲜盐||1|辅助流体...| 我对标记化、停用词、n-gram 和 hashTF 使用了以下转换: val select ..

如何使用 Spark Naive Bayes 分类器对 IDF 进行文本分类?

我想使用 tf-idf 将文本文档转换为特征向量,然后训练一个朴素贝叶斯算法来对它们进行分类. 我可以轻松加载没有标签的文本文件,并使用 HashingTF() 将其转换为向量,然后使用 IDF() 根据单词的重要性对其进行加权.但是如果我这样做,我会去掉标签,即使顺序相同,似乎也不可能将标签与向量重新组合. 另一方面,我可以在每个单独的文档上调用 HashingTF() 并保留标签, ..

在 Tensorflow 中限制多类分类中的输出类

我正在构建一个双向 LSTM 来进行多类句子分类.我总共有 13 个类可供选择,我将 LSTM 网络的输出乘以维数为 [2*num_hidden_​​unit,num_classes] 的矩阵,然后应用 softmax 来获得句子的概率属于 13 个类别中的 1 个. 因此,如果我们将 output[-1] 视为网络输出: W_output = tf.Variable(tf.trunc ..
发布时间:2021-09-06 19:30:16 其他开发

R - 维基百科文章的自动分类

我一直在努力遵循这个 我尝试直接运行“hclust",然后我能够进行绘图,但没有任何可读的结果. 这是我得到的错误: rownames(docsdissim2) 另一个: plot(h, labels = titles, sub = "")图形错误:::plotHclust(n1, merge, height, order(x$order), hang, :无效的树状图输入 ..
发布时间:2021-09-06 19:30:13 其他开发

如何将文档拆分为训练集和测试集?

我正在尝试构建分类模型.我在本地文件夹中有 1000 个文本文档.我想将它们分成训练集和测试集,分割比为 70:30(70 -> 训练和 30 -> 测试)什么是更好的方法?我正在使用 python. 我想要一种以编程方式拆分训练集和测试集的方法.首先读取本地目录中的文件.其次,构建这些文件的列表并对其进行洗牌.第三,将它们分成训练集和测试集. 我尝试了几种方法,使用内置的 pytho ..

Spacy 的 BERT 模型没有学习

我一直在尝试使用 spaCy 的预训练 BERT 模型 de_trf_bertbasecased_lg 来提高我的分类项目的准确性.我曾经使用 de_core_news_sm 从头开始​​构建模型,一切正常:我的准确率约为 70%.但现在我改用 BERT 预训练模型,准确度为 0%.我不相信它的工作如此糟糕,所以我假设我的代码有问题.我可能错过了一些重要的东西,但我不知道是什么.我以这篇文章中的代 ..

使用 TensorFlow 的多标签文本分类

文本数据被组织为具有 20,000 个元素的向量,例如 [2, 1, 0, 0, 5, ...., 0].第 i 个元素表示第 i 个词在文本中的出现频率. ground truth 标签数据也表示为具有 4,000 个元素的向量,如 [0, 0, 1, 0, 1, ...., 0].第 i 个元素指示第 i 个标签是否是文本的正标签.文本的标签数量因文本而异. 我有一个用于单标签文本 ..

无法将 Tensorflow 模型冻结到冻结(.pb)文件中

我指的是 (此处) 将模型冻结到 .pb 文件中.我的模型是用于文本分类的 CNN 我正在使用 (Github) 链接来训练用于文本分类和以模型形式导出的 CNN.我已经将模型训练到 4 个时期,我的检查点文件夹如下所示: 我想将此模型冻结到(.pb 文件)中.为此,我使用以下脚本: import os, argparse将张量流导入为 tf# 原始的 freeze_graph 函数# 从 ..

使用 OneVsRestClassifier 时 sklearn.svm.SVC 的哪个 decision_function_shape?

我正在做多标签分类,我试图预测问题的正确标签: (X = 问题,y = X 中每个问题的标签列表). 我想知道 sklearn.svm.SVC 应与 OneVsRestClassifier? 从文档我们可以读到 decision_function_shape 可以有两个值 'ovo' 和 'ovr': decision_function_shape : ‘ovo’, ‘ov ..

从多类分类算法输出前 2 个类

我正在研究 text 的多类分类问题,我有很多不同的类(15+).我已经训练了一个 Linearsvc svm 方法(方法只是一个例子).但是它只输出概率最高的单个类,有没有办法让算法同时输出两个类 我正在使用的示例代码: from sklearn.svm import LinearSVC导入 matplotlib.pyplot 作为 plt从 sklearn.feature_extrac ..

sklearn中带有词袋和附加情感特征的文本分类器

我正在尝试构建一个分类器,除了词袋之外,还使用情绪或主题(LDA 结果)等特征.我有一个带有文本和标签的 Pandas DataFrame,我想添加一个情绪值(介于 -5 和 5 之间的数值)和 LDA 分析的结果(带有句子主题的字符串). 我有一个工作袋分类器,它使用来自 sklearn 的 CountVectorizer 并使用 MultinomialNaiveBayes 执行分类. ..
发布时间:2021-07-16 20:08:26 Python