text-classification相关内容
我在R中使用的是e1017中的支持向量机模型。我曾使用支持向量机进行文本挖掘和分类。所以我的数据是DTM(从文档语料库获得的文档术语矩阵)。如何开始绘制我的支持向量机模型? 下面是我在类预测代码中使用的支持向量机模型 model
..
我对 PyTorch 和 Huggingface-transformers 比较陌生,并在这个 Kaggle 上试验了 DistillBertForSequenceClassification-数据集. from Transformers import DistilBertForSequenceClassification导入 torch.optim 作为 optim将 torch.nn 导入为
..
以下代码运行朴素贝叶斯电影评论分类器.该代码生成了一份信息量最大的功能列表. 注意: **movie review** 文件夹在 nltk 中. 来自 itertools 导入链从 nltk.corpus 导入停用词从 nltk.probability 导入 FreqDist从 nltk.classify 导入 NaiveBayesClassifier从 nltk.corpus 导入 mo
..
我正在使用 Scikit-learn 进行文本分类.我想针对(稀疏)文档项矩阵中的类计算每个属性的信息增益. 信息增益定义为H(Class) - H(Class | Attribute),其中H是熵. 使用weka,这可以通过信息增益属性.但是我在scikit-learn中没有找到这个度量. 然而,建议公式上述信息增益与互信息的度量相同.这也符合维基百科中的定义. 是否可以
..
我有一个一维数组,每个元素都有大字符串.我正在尝试使用 CountVectorizer 将文本数据转换为数值向量.但是,我收到一条错误消息: AttributeError: 'numpy.ndarray' 对象没有属性 'lower' mealarray 在每个元素中都包含大字符串.有 5000 个这样的样本.我正在尝试将其矢量化,如下所示: vectorizer = CountVector
..
在 keras 中运行文本分类模型时调用 model.predict 函数时出现以下错误.我到处搜索,但对我不起作用. ValueError: 检查输入时出错:预期dense_1_input 具有形状(100,) 但得到形状为(1,) 的数组 我的数据有 5 个类,总共只有 15 个示例.下面是数据集 查询标签0 嗨介绍1 你好吗2 你好介绍3 怎么了?4 生活怎么样?5gb 再见6 再见
..
我正在使用词袋对文本进行分类.它运行良好,但我想知道如何添加一个不是单词的功能. 这是我的示例代码. 将 numpy 导入为 np从 sklearn.pipeline 导入管道从 sklearn.feature_extraction.text 导入 CountVectorizer从 sklearn.svm 导入 LinearSVC从 sklearn.feature_extraction.t
..
我正在尝试构建一个 NaiveBayes 分类器,将数据库中的数据加载为包含(标签、文本)的 DataFrame.这是数据样本(多项标签): 标签|特点|+-----+--------------------+|1|燃烧准备...||1|工业用粘合剂...||1|||1|保鲜盐||1|辅助流体...| 我对标记化、停用词、n-gram 和 hashTF 使用了以下转换: val select
..
我想使用 tf-idf 将文本文档转换为特征向量,然后训练一个朴素贝叶斯算法来对它们进行分类. 我可以轻松加载没有标签的文本文件,并使用 HashingTF() 将其转换为向量,然后使用 IDF() 根据单词的重要性对其进行加权.但是如果我这样做,我会去掉标签,即使顺序相同,似乎也不可能将标签与向量重新组合. 另一方面,我可以在每个单独的文档上调用 HashingTF() 并保留标签,
..
我正在构建一个双向 LSTM 来进行多类句子分类.我总共有 13 个类可供选择,我将 LSTM 网络的输出乘以维数为 [2*num_hidden_unit,num_classes] 的矩阵,然后应用 softmax 来获得句子的概率属于 13 个类别中的 1 个. 因此,如果我们将 output[-1] 视为网络输出: W_output = tf.Variable(tf.trunc
..
我一直在努力遵循这个 我尝试直接运行“hclust",然后我能够进行绘图,但没有任何可读的结果. 这是我得到的错误: rownames(docsdissim2) 另一个: plot(h, labels = titles, sub = "")图形错误:::plotHclust(n1, merge, height, order(x$order), hang, :无效的树状图输入
..
我正在尝试构建分类模型.我在本地文件夹中有 1000 个文本文档.我想将它们分成训练集和测试集,分割比为 70:30(70 -> 训练和 30 -> 测试)什么是更好的方法?我正在使用 python. 我想要一种以编程方式拆分训练集和测试集的方法.首先读取本地目录中的文件.其次,构建这些文件的列表并对其进行洗牌.第三,将它们分成训练集和测试集. 我尝试了几种方法,使用内置的 pytho
..
在spacy的文本分类中train_textcat 示例,有两个标签指定了Positive 和Negative.因此猫的分数表示为 cats = [{"POSITIVE": bool(y), "NEGATIVE": not bool(y)} for y in label] 我正在使用多标签分类,这意味着我有两个以上的标签要在一个文本中进行标记.我已将标签添加为 textcat.a
..
我一直在尝试使用 spaCy 的预训练 BERT 模型 de_trf_bertbasecased_lg 来提高我的分类项目的准确性.我曾经使用 de_core_news_sm 从头开始构建模型,一切正常:我的准确率约为 70%.但现在我改用 BERT 预训练模型,准确度为 0%.我不相信它的工作如此糟糕,所以我假设我的代码有问题.我可能错过了一些重要的东西,但我不知道是什么.我以这篇文章中的代
..
文本数据被组织为具有 20,000 个元素的向量,例如 [2, 1, 0, 0, 5, ...., 0].第 i 个元素表示第 i 个词在文本中的出现频率. ground truth 标签数据也表示为具有 4,000 个元素的向量,如 [0, 0, 1, 0, 1, ...., 0].第 i 个元素指示第 i 个标签是否是文本的正标签.文本的标签数量因文本而异. 我有一个用于单标签文本
..
我指的是 (此处) 将模型冻结到 .pb 文件中.我的模型是用于文本分类的 CNN 我正在使用 (Github) 链接来训练用于文本分类和以模型形式导出的 CNN.我已经将模型训练到 4 个时期,我的检查点文件夹如下所示: 我想将此模型冻结到(.pb 文件)中.为此,我使用以下脚本: import os, argparse将张量流导入为 tf# 原始的 freeze_graph 函数# 从
..
我正在尝试使用 sklearn 将 sveveral 文本数据分为 3 个类别.但我得到了 “属性错误:未找到下层" 运行时. 代码: train, test = train_test_split(df, random_state=42, test_size=0.3, shuffle=True)X_train = train.contentsX_test = test.cont
..
我正在做多标签分类,我试图预测问题的正确标签: (X = 问题,y = X 中每个问题的标签列表). 我想知道 sklearn.svm.SVC 应与 OneVsRestClassifier? 从文档我们可以读到 decision_function_shape 可以有两个值 'ovo' 和 'ovr': decision_function_shape : ‘ovo’, ‘ov
..
我正在研究 text 的多类分类问题,我有很多不同的类(15+).我已经训练了一个 Linearsvc svm 方法(方法只是一个例子).但是它只输出概率最高的单个类,有没有办法让算法同时输出两个类 我正在使用的示例代码: from sklearn.svm import LinearSVC导入 matplotlib.pyplot 作为 plt从 sklearn.feature_extrac
..
我正在尝试构建一个分类器,除了词袋之外,还使用情绪或主题(LDA 结果)等特征.我有一个带有文本和标签的 Pandas DataFrame,我想添加一个情绪值(介于 -5 和 5 之间的数值)和 LDA 分析的结果(带有句子主题的字符串). 我有一个工作袋分类器,它使用来自 sklearn 的 CountVectorizer 并使用 MultinomialNaiveBayes 执行分类.
..