classification相关内容
我使用WEKA gui训练并创建了J48模型.我将模型文件保存到计算机上,现在我想用它来对Java代码中的单个实例进行分类.我想对属性"cluster"进行预测.我要做的是以下事情: 公共无效分类(double lat,double lon,double co){//创建要与分类器一起使用的属性属性latitude = new Attribute("latitude");属性经度=新属性(“经度
..
我正在使用Google colab.使用 EfficientNetB3 时,出现以下错误 资源耗尽:分配带有shape [15,95,95,192]并键入float的张量时,OOM 我理解这一点,因为我的数据不适合GPU.但是当我尝试 InceptionResNetV2 时,我没有得到任何错误. EfficientNetB3 中可训练参数的数量为 22,220,824 Incept
..
获得以下二进制分类结果的数据点总数=1500.其中,我有 1473分别标记为 0 和 其余27个为 1 . 从混淆矩阵中可以看出,在属于类 1 的27个数据点中,我只有1个数据点被误分类为 0 .因此,我计算了各个类别的准确度,得出类别的准确度标记为0 = 98.2%,另一个类别的准确度标记为1.7333%.这个计算正确吗?我不确定...对于标记为 1 的类,我确实得到了很好的分类,
..
基本上我的问题与以下论文有关(仅阅读 1.Introduction 部分, 3.Precision模型结构和部分就足够了> 3.1决策树功能转换,其他所有内容都可以跳过) https://pdfs.semanticscholar.org/daf9/ed5dc6c6bad5367d7fd8561527da. 本文建议,与仅使用决策树或线性分类(不是同时使用二者)相比,在组合决策树+线性分
..
我有一个缺少数据的数据集(培训-测试),我想在分类之前估算数据. 我尝试使用插入符号包和preProcess函数,我想使用针对训练集的预测变量来插补数据,并且仅使用训练集的知识而不使用测试集的预测符来插补测试集上的数据(我不知道). p =预处理(x =训练,方法="knnImpute",k = 10)pred =预测(对象= p,newdata =训练)pred1 =预测(对象= p,
..
我正在研究一个基于分类的项目,并且我正在根据它们的训练准确性,测试准确性,混淆矩阵和AUC分数来评估不同的ML模型.我现在仍然无法理解通过计算测试集上的ML模型(X_test)的准确性而获得的得分与AUC得分之间的区别. 如果我是正确的话,那么这两个指标都会计算出ML模型能够很好地预测以前看不见的数据的正确类别.我也明白,只要模型不是过拟合或欠拟合,数字都越大越好. 假设ML模型既不是
..
我有一个二进制分类问题,在该问题中,我使用以下代码获取我的加权平均变量精度,加权平均变量召回率,加权平均变量f度量和 roc_auc . df = pd.read_csv(input_path + input_file)X = df [功能]y = df [[“" gold_standard“]]clf = RandomForestClassifier(random_state = 42,cl
..
我将使用 n-gram 在样本数据集上训练分类器.我搜索了相关内容,并在下面编写了代码.因为我是python的初学者,所以我有两个问题. 1-为什么词典要具有“真"结构(标有注释)?这与朴素贝叶斯分类器输入有关吗? 2-您建议使用哪个分类器来执行此任务? 欢迎其他任何缩短代码的建议:). 来自nltk.corpus的 导入movie_reviews从nltk.corpus导入
..
我正在尝试使用keras对我的数据集进行分类,但出现 ValueError:分类指标无法处理多类目标和multilabel-indicator目标混合错误. y_pred 中的值如下 array([[2.95522604e-02,9.70325887e-01,3.20542094e-05,...,1.74383260e-07,1.98587145e-07,9.88743452e-08],[3.
..
我正在做一个声音识别项目. 我有1500个带标签的5类声音样本.(每个类别300个声音样本,持续2秒). 我正在使用在线工具来计算MFCC系数(Egde脉冲)(因此我无法提供代码),然后我正在训练神经网络. 数据集已拆分: 80%->分为80/20的训练集-训练/验证 20%->测试集 经过200个训练周期,我的网络的第一个发行版具有以下表现(非常糟糕):
..
我正在使用RandomForestClassifier实现具有二进制结果的分类任务,并且我知道进行数据预处理以提高准确性得分的重要性.特别是,我的数据集包含100多个特征和将近4000个实例,并且我想执行降维技术以避免过度拟合,因为数据中存在大量噪声. 对于这些任务,我通常使用经典的特征选择方法(过滤器,包装器,特征重要性),但最近我阅读了有关结合主成分分析(PCA)(第一步),然后在转换后
..
我有5个名为 class_i 的文件夹,每个文件夹都有 i 类图像.图像采用.jpg格式.如何进行扩充以使每个文件夹中的图像数量等于该文件夹中图像数量最多的图像数量,从而平衡每个文件夹中的图像?另外,请您帮忙绘制一条曲线,以显示平衡前后每个文件夹中的图像数量? 解决方案 只需扩展使用算法的我的其他答案正是您想要在这个问题上.算法位于我的答案的最后. 它接受两个文件夹-一个用于输入,一
..
我想估算特征的均值,但仅根据另一列中具有相同类别/标称值的其他示例来计算均值,我想知道使用scikit-learn的Imputer类是否可能?这样只会更容易将其添加到管道中. 例如: 使用kaggle中的泰坦尼克号数据集:源 我该如何估算每个 pclass 的平均票价.其背后的想法是,不同阶级的人机票之间的成本差异会很大. 更新:在与一些人讨论之后,我应该使用的短语是“在班
..
import sys从class_vis导入prettyPicture从prep_terrain_data导入makeTerrainData从sklearn.tree导入DecisionTreeClassifier从sklearn.metrics导入precision_score将numpy导入为np导入pylab为plfeatures_train,labels_train,featureste
..
我正在pytorch中尝试实现代码,但出现以下错误.我的python版本是3.6,我的操作系统是linux ubuntu 16.04 lts.我在Mac os的旁边安装了linux.我们将使用torchvision和torch.utils.data包来加载数据.每个类有75个验证图像. OSError追溯(最近一次通话)在
..
我正在尝试在Tensorflow中针对生成的数据创建一个非常简单的二进制分类器. 我正在从两个单独的正态分布中生成随机数据.然后,如果结果数据小于或大于数字A,则将其分类为二进制类. 理想情况下,A将是两个法线中间的一个截止点.例如.如果我的数据是由N(1,1)+ N(-1,1)生成的,则A应该约为0. 我遇到了“没有为任何变量提供渐变..."错误.具体来说: 没有为任何变量提
..
任何人都可以将sklearn混淆矩阵与水相匹配吗? 他们从不匹配.... 用Keras做类似的事情会产生完美的匹配. 但是在h2o中,它们始终处于关闭状态.尝试了每种方式... 从以下位置借用了一些代码: H2O和Scikit-Learn指标得分之间有何区别? #In [30]:将熊猫作为pd导入进口水从h2o.estimators.gbm导入H2OGradientBoo
..
我正在使用以下代码( 我想从上面的代码中获取所选功能的名称. 为此,我使用了 grid_search.best_estimator_.support _ .但是,这返回了一条错误消息: AttributeError:“管道"对象没有属性"support_" 是否有一种方法来获取选定的功能名称,如上面python sklearn中的代码所示? 如果需要,我很乐意提供更多详细
..
Given是scikit学习中训练有素的分类器,例如 RandomForestClassifier .分类器已经过训练,样本大小为,例如.25x25. 如何轻松将其应用于大图像(例如640x480)中的所有图块/窗口? 我可以能做的是(慢速执行代码!) x_train = np.arange(25 * 25 * 1000).reshape(25,25,1000)#只是一些伪训练数据
..
我不知道如何获取矩阵并计算每一行的字母数字值的数量.我只会使用我正在计算的值来处理矩阵.例如,如果我得到了: ABA4557L9O36GDZLFPEI 对于第一行,我会得到类似于A:2 B:1 4:1 5:2的信息,并且每一行都将被独立计数.我最想了解所使用的运算符,如果您也可以解释一下的话.谢谢. 解决方案 以下内容适用于任何主流APL实现. 让我们从一个简单的字符向量开始
..