classification相关内容

神经网络(感知器) - 在执行二元分类时可视化决策边界(作为超平面)

我想将一个只有一个神经元(3 个输入,二进制输出)的简单神经网络的决策边界可视化.我正在从 Keras NN 模型中提取权重,然后尝试使用 matplotlib 绘制表面平面.不幸的是,超平面没有出现在散点图上的点之间,而是显示在所有数据点的下方(参见输出图像). 我正在使用等式计算超平面的 z 轴z = (d - ax - by)/c 对于定义为 ax + by + cz = d 的超平 ..
发布时间:2021-12-31 16:49:48 Python

如何修复 RuntimeError“标量类型 Float 的预期对象,但参数为 Double 的标量类型"?

我正在尝试通过 PyTorch 训练分类器.但是,当我为模型提供训练数据时,我遇到了训练问题.我在 y_pred = model(X_trainTensor) 上收到此错误: 运行时错误:标量类型为 Float 的预期对象,但参数 #4 'mat1' 的标量类型为 Double 以下是我的代码的关键部分: # 超参数D_in = 47 # 我调查了 47 个参数H = 33D_out ..
发布时间:2021-12-27 17:00:02 Python

斯坦福 NER:我可以在我的代码中同时使用两个分类器吗?

在我的代码中,我从第一个分类器中获得了 Person 识别,对于我制作的第二个分类器,我添加了一些要识别或注释为 Organization 的词> 但它不注释Person. 我需要从他们两个中受益,我该怎么做? 我正在使用 Netbeans,这是代码: String serializedClassifier = "classifiers/english.all.3class.diss ..
发布时间:2021-12-26 15:25:33 其他开发

scikit learn 中的样本权重和类权重选项有什么区别?

我有类不平衡问题,想使用成本敏感学习来解决这个问题. 欠采样和过采样 为类赋予权重以使用修改后的损失函数 问题 Scikit learn 有 2 个选项,称为类权重和样本权重.样本权重实际上是否在执行选项 2) 和类权重选项 1).选项 2) 是处理类不平衡的推荐方法. 解决方案 是类似的概念,但是使用 sample_weights 可以强制 estimator 关注某 ..

如何将标准化应用于 scikit-learn 中的 SVM?

我正在使用 scikit-learn 的当前稳定版本 0.13.我正在使用 sklearn.svm.LinearSVC. 在 scikit-learn 文档的关于预处理的章节中,我已经阅读以下内容: 在学习算法的目标函数中使用的许多元素(例如支持向量机的 RBF 内核或线性模型的 l1 和 l2 正则化器)假设所有特征都以零为中心并且具有相同顺序的方差.如果一个特征的方差比其他特征大几 ..
发布时间:2021-12-25 14:52:49 Python

用于不平衡二元分类的过采样数据的过程

我有大约 30% 和 70% 的 0 类(少数类)和 1 类(多数类).由于我没有很多数据,我计划对少数类进行过采样以平衡这些类,使其成为 50-50 的分割.我想知道是否应该在将数据拆分为训练集和测试集之前或之后进行过采样.我通常在在线示例中看到它在拆分之前完成,如下所示: df_class0 = train[train.predict_var == 0]df_class1 = train[t ..

scikit 管道 python 中的多个分类模型

我正在使用 Python 解决一些文本文档的二进制分类问题并实现 scikit-learn 库,我希望尝试不同的模型来比较和对比结果 - 主要使用 朴素贝叶斯分类器,具有 K 折 CV 和 CV=5 的 SVM.鉴于后两种模型使用 gridSearchCV(),我发现将所有方法组合到一个管道中存在困难.由于并发问题,我不能在单个实现过程中运行多个管道,因此我需要使用一个管道实现所有不同的模型. ..
发布时间:2021-12-25 14:43:52 Python

sklearn LogisticRegression 并更改分类的默认阈值

我正在使用 sklearn 包中的 LogisticRegression,并且有一个关于分类的快速问题.我为我的分类器构建了一条 ROC 曲线,结果证明我的训练数据的最佳阈值约为 0.25.我假设创建预测时的默认阈值是 0.5.在进行 10 倍交叉验证时,如何更改此默认设置以找出模型中的准确度?基本上,我希望我的模型为大于 0.25 而不是 0.5 的任何人预测“1".我一直在查看所有文档,但似乎 ..
发布时间:2021-12-25 14:37:32 Python

在 scikit-learn 中获得多标签预测的准确性

在多标签分类设置中,sklearn.metrics.accuracy_score 仅计算子集精度 (3):即为样本预测的标签集必须与 y_true 中对应的标签集完全匹配. 这种计算准确度的方法有时被称为精确匹配率 (1): 有没有办法获得另一种在 scikit-learn 中计算准确度的典型方法,即 (如 (1) 和 (2) 中所定义,也不太含糊地称为 Hamming scor ..
发布时间:2021-12-25 14:37:17 Python

在scikit学习中结合随机森林模型

我有两个 RandomForestClassifier 模型,我想将它们组合成一个元模型.他们都使用相似但不同的数据进行训练.我该怎么做? rf1 #这是我第一个拟合的 RandomForestClassifier 对象,有 250 棵树rf2 #这是我第二个拟合的 RandomForestClassifier 对象,也有 250 棵树 我想创建 big_rf 将所有的树组合成一个 500 棵 ..
发布时间:2021-12-25 14:30:17 Python

使用scikit-learn进行多类分类

我正在尝试使用 scikit-learn 的一种监督学习方法将文本片段分为一个或多个类别.我试过的所有算法的 predict 函数只返回一个匹配. 例如我有一段文字: “纽约剧院与伦敦剧院的对比" 而且我已经训练算法为我提供的每个文本片段选择一个位置. 在上面的例子中,我希望它返回 New York 和 London,但它只返回 New York. 是否可以使用 scikit ..
发布时间:2021-12-25 14:17:05 Python

序列数据上的 LSTM,预测离散列

我是机器学习的新手,只是触及了它的表面,所以如果我的问题没有意义,我深表歉意. 我对某个对象有一系列连续测量值(获取其重量、大小、温度等)和一个离散列,用于确定对象的属性(有限范围的整数,比如 0,1,2).这是我想预测的列. 有问题的数据确实是一个序列,因为属性列的值可能会根据围绕它的上下文而变化,并且序列本身也可能有一些循环属性.简而言之:数据的顺序对我很重要. 一个小例子如 ..
发布时间:2021-12-19 13:04:12 其他开发

ConfusionMatrix 中的错误数据和参考因素必须具有相同的级别数

我用 R 插入符训练了一个树模型.我现在正在尝试生成一个混淆矩阵并不断收到以下错误: confusionMatrix.default(predictionsTree, testdata$catgeory) 中的错误: 数据和参考因子必须具有相同的水平数 prob 生成混淆矩阵时出现错误.两个对象的级别相同.我无法弄清楚问题是什么.它们的结构和层次如下.他们应该是一样的.任何帮助将不胜感 ..
发布时间:2021-12-14 10:16:07 AI人工智能

为什么只在输出层使用 softmax 而不是在隐藏层?

我见过的大多数分类任务的神经网络示例都使用 softmax 层作为输出激活函数.通常,其他隐藏单元使用 sigmoid、tanh 或 ReLu 函数作为激活函数.在这里使用 softmax 函数 - 据我所知 - 也可以在数学上解决. 不使用 softmax 函数作为隐藏层激活函数的理论依据是什么? 是否有关于此的任何出版物,可以引用的内容? 解决方案 我还没有找到任何关于为什么在 ..

先PCA还是先标准化?

在进行回归或分类时,预处理数据的正确(或更好)方法是什么? 规范化数据 -> PCA -> 训练 PCA -> 标准化 PCA 输出 -> 训练 规范化数据 -> PCA -> 规范化 PCA 输出 -> 训练 以上哪个更正确,或者是预处理数据的“标准化"方式?“标准化"是指标准化、线性缩放或其他一些技术. 解决方案 你应该在做 PCA 之前规范化数据.例如,请考虑以下情况 ..