text-classification - IT屋-程序员软件开发技术分享社区

R-文本分类中的Plot支持向量机模型

我在R中使用的是e1017中的支持向量机模型。我曾使用支持向量机进行文本挖掘和分类。所以我的数据是DTM(从文档语料库获得的文档术语矩阵)。如何开始绘制我的支持向量机模型？下面是我在类预测代码中使用的支持向量机模型 model ..

发布时间：2022-04-07 23:09:58 r machine-learning svm text-classification AI人工智能

Fine-Tuning DistilBertForSequenceClassification:不是在学习，为什么loss没有变化?权重没有更新?

我对 PyTorch 和 Huggingface-transformers 比较陌生，并在这个 Kaggle 上试验了 DistillBertForSequenceClassification-数据集. from Transformers import DistilBertForSequenceClassification导入 torch.optim 作为 optim将 torch.nn 导入为 ..

发布时间：2022-01-06 19:44:50 nlp pytorch text-classification loss-function huggingface-transformers 其他开发

在特定文件上测试 NLTK 分类器

以下代码运行朴素贝叶斯电影评论分类器.该代码生成了一份信息量最大的功能列表. 注意: **movie review** 文件夹在 nltk 中. 来自 itertools 导入链从 nltk.corpus 导入停用词从 nltk.probability 导入 FreqDist从 nltk.classify 导入 NaiveBayesClassifier从 nltk.corpus 导入 mo ..

发布时间：2022-01-02 17:25:27 python-2.7 nlp classification nltk text-classification 其他开发

使用 Scikit-learn 计算信息增益

我正在使用 Scikit-learn 进行文本分类.我想针对(稀疏)文档项矩阵中的类计算每个属性的信息增益. 信息增益定义为H(Class) - H(Class | Attribute)，其中H是熵. 使用weka，这可以通过信息增益属性.但是我在scikit-learn中没有找到这个度量. 然而，建议公式上述信息增益与互信息的度量相同.这也符合维基百科中的定义. 是否可以 ..

发布时间：2021-12-25 14:53:48 python machine-learning scikit-learn text-classification feature-selection AI人工智能

CountVectorizer: AttributeError: 'numpy.ndarray' 对象没有属性 'lower'

我有一个一维数组，每个元素都有大字符串.我正在尝试使用 CountVectorizer 将文本数据转换为数值向量.但是，我收到一条错误消息: AttributeError: 'numpy.ndarray' 对象没有属性 'lower' mealarray 在每个元素中都包含大字符串.有 5000 个这样的样本.我正在尝试将其矢量化，如下所示: vectorizer = CountVector ..

发布时间：2021-12-25 14:41:17 python numpy scikit-learn text-classification Python

预期密集有形状，但有形状的阵列

在 keras 中运行文本分类模型时调用 model.predict 函数时出现以下错误.我到处搜索，但对我不起作用. ValueError: 检查输入时出错:预期dense_1_input 具有形状(100,) 但得到形状为(1,) 的数组我的数据有 5 个类，总共只有 15 个示例.下面是数据集查询标签0 嗨介绍1 你好吗2 你好介绍3 怎么了?4 生活怎么样?5gb 再见6 再见 ..

发布时间：2021-12-19 12:45:16 python keras shape text-classification Python

如何将另一个特征(文本长度)添加到当前的词袋分类中?Scikit-学习

我正在使用词袋对文本进行分类.它运行良好，但我想知道如何添加一个不是单词的功能. 这是我的示例代码. 将 numpy 导入为 np从 sklearn.pipeline 导入管道从 sklearn.feature_extraction.text 导入 CountVectorizer从 sklearn.svm 导入 LinearSVC从 sklearn.feature_extraction.t ..

发布时间：2021-12-14 09:42:24 python machine-learning scikit-learn classification text-classification AI人工智能

在 Scala Spark 中使用数据框的朴素贝叶斯多项式文本分类器

我正在尝试构建一个 NaiveBayes 分类器，将数据库中的数据加载为包含(标签、文本)的 DataFrame.这是数据样本(多项标签): 标签|特点|+-----+--------------------+|1|燃烧准备...||1|工业用粘合剂...||1|||1|保鲜盐||1|辅助流体...| 我对标记化、停用词、n-gram 和 hashTF 使用了以下转换: val select ..

发布时间：2021-11-14 21:05:48 apache-spark text-classification apache-spark-mllib naivebayes 其他开发

如何使用 Spark Naive Bayes 分类器对 IDF 进行文本分类?

我想使用 tf-idf 将文本文档转换为特征向量，然后训练一个朴素贝叶斯算法来对它们进行分类. 我可以轻松加载没有标签的文本文件，并使用 HashingTF() 将其转换为向量，然后使用 IDF() 根据单词的重要性对其进行加权.但是如果我这样做，我会去掉标签，即使顺序相同，似乎也不可能将标签与向量重新组合. 另一方面，我可以在每个单独的文档上调用 HashingTF() 并保留标签， ..

发布时间：2021-11-14 21:04:46 python apache-spark tf-idf text-classification apache-spark-mllib Python

在 Tensorflow 中限制多类分类中的输出类

我正在构建一个双向 LSTM 来进行多类句子分类.我总共有 13 个类可供选择，我将 LSTM 网络的输出乘以维数为 [2*num_hidden_unit,num_classes] 的矩阵，然后应用 softmax 来获得句子的概率属于 13 个类别中的 1 个. 因此，如果我们将 output[-1] 视为网络输出: W_output = tf.Variable(tf.trunc ..

发布时间：2021-09-06 19:30:16 classification tensorflow text-classification 其他开发

R - 维基百科文章的自动分类

我一直在努力遵循这个我尝试直接运行“hclust"，然后我能够进行绘图，但没有任何可读的结果. 这是我得到的错误: rownames(docsdissim2) 另一个: plot(h, labels = titles, sub = "")图形错误:::plotHclust(n1, merge, height, order(x$order), hang, :无效的树状图输入 ..

发布时间：2021-09-06 19:30:13 r text-classification 其他开发

如何将文档拆分为训练集和测试集?

我正在尝试构建分类模型.我在本地文件夹中有 1000 个文本文档.我想将它们分成训练集和测试集，分割比为 70:30(70 -> 训练和 30 -> 测试)什么是更好的方法?我正在使用 python. 我想要一种以编程方式拆分训练集和测试集的方法.首先读取本地目录中的文件.其次，构建这些文件的列表并对其进行洗牌.第三，将它们分成训练集和测试集. 我尝试了几种方法，使用内置的 pytho ..

发布时间：2021-09-06 19:30:10 machine-learning scikit-learn text-classification AI人工智能

多标签分类中的 Spacy TextCat 分数

在spacy的文本分类中train_textcat 示例，有两个标签指定了Positive 和Negative.因此猫的分数表示为 cats = [{"POSITIVE": bool(y), "NEGATIVE": not bool(y)} for y in label] 我正在使用多标签分类，这意味着我有两个以上的标签要在一个文本中进行标记.我已将标签添加为 textcat.a ..

发布时间：2021-09-06 19:30:07 spacy text-classification multilabel-classification 其他开发

Spacy 的 BERT 模型没有学习

我一直在尝试使用 spaCy 的预训练 BERT 模型 de_trf_bertbasecased_lg 来提高我的分类项目的准确性.我曾经使用 de_core_news_sm 从头开始构建模型，一切正常:我的准确率约为 70%.但现在我改用 BERT 预训练模型，准确度为 0%.我不相信它的工作如此糟糕，所以我假设我的代码有问题.我可能错过了一些重要的东西，但我不知道是什么.我以这篇文章中的代 ..

发布时间：2021-09-06 19:30:04 python spacy text-classification multiclass-classification bert-language-model Python

使用 TensorFlow 的多标签文本分类

文本数据被组织为具有 20,000 个元素的向量，例如 [2, 1, 0, 0, 5, ...., 0].第 i 个元素表示第 i 个词在文本中的出现频率. ground truth 标签数据也表示为具有 4,000 个元素的向量，如 [0, 0, 1, 0, 1, ...., 0].第 i 个元素指示第 i 个标签是否是文本的正标签.文本的标签数量因文本而异. 我有一个用于单标签文本 ..

发布时间：2021-09-05 19:07:55 python tensorflow text-classification multilabel-classification Python

无法将 Tensorflow 模型冻结到冻结(.pb)文件中

我指的是 (此处) 将模型冻结到 .pb 文件中.我的模型是用于文本分类的 CNN 我正在使用 (Github) 链接来训练用于文本分类和以模型形式导出的 CNN.我已经将模型训练到 4 个时期，我的检查点文件夹如下所示: 我想将此模型冻结到(.pb 文件)中.为此，我使用以下脚本: import os, argparse将张量流导入为 tf# 原始的 freeze_graph 函数# 从 ..

发布时间：2021-09-05 19:04:07 python python-3.x tensorflow text-classification tensorflow-serving Python

python sklearn pipiline fit:“属性错误:未找到下限"

我正在尝试使用 sklearn 将 sveveral 文本数据分为 3 个类别.但我得到了 “属性错误:未找到下层" 运行时. 代码: train, test = train_test_split(df, random_state=42, test_size=0.3, shuffle=True)X_train = train.contentsX_test = test.cont ..

发布时间：2021-09-01 19:27:45 python machine-learning scikit-learn svm text-classification AI人工智能

使用 OneVsRestClassifier 时 sklearn.svm.SVC 的哪个 decision_function_shape?

我正在做多标签分类，我试图预测问题的正确标签: (X = 问题，y = X 中每个问题的标签列表). 我想知道 sklearn.svm.SVC 应与 OneVsRestClassifier? 从文档我们可以读到 decision_function_shape 可以有两个值 'ovo' 和 'ovr': decision_function_shape : ‘ovo’, ‘ov ..

发布时间：2021-09-01 19:26:32 python scikit-learn svm text-classification multilabel-classification Python

从多类分类算法输出前 2 个类

我正在研究 text 的多类分类问题，我有很多不同的类(15+).我已经训练了一个 Linearsvc svm 方法(方法只是一个例子).但是它只输出概率最高的单个类，有没有办法让算法同时输出两个类我正在使用的示例代码: from sklearn.svm import LinearSVC导入 matplotlib.pyplot 作为 plt从 sklearn.feature_extrac ..

发布时间：2021-07-16 20:14:53 python-3.x scikit-learn text-classification multiclass-classification 其他开发

sklearn中带有词袋和附加情感特征的文本分类器

我正在尝试构建一个分类器，除了词袋之外，还使用情绪或主题(LDA 结果)等特征.我有一个带有文本和标签的 Pandas DataFrame，我想添加一个情绪值(介于 -5 和 5 之间的数值)和 LDA 分析的结果(带有句子主题的字符串). 我有一个工作袋分类器，它使用来自 sklearn 的 CountVectorizer 并使用 MultinomialNaiveBayes 执行分类. ..

发布时间：2021-07-16 20:08:26 python scikit-learn text-classification Python

text-classification相关内容