classification相关内容

使用TRAIN_TEST_SPLIT拆分数据时的精度与之后加载CSV文件时的精度不同

我已经构建了一个模型来预测客户是企业客户还是私人客户。在对模型进行训练后,我预测了我没有用于训练的1000个数据集的类别。此预测将保存在CSV文件中。 现在我有两种不同的行为: 在程序中拆分样本数据 当我使用train, sample = train_test_split(train, test_size=1000, random_state=seed)创建样本时,预测在训练期间获得相 ..

作为管道步骤的孤立点的检测和去除

我遇到了一个问题,我正在尝试构建我自己的类以放入到python中的管道中,但它不起作用。 我尝试解决的问题是一个多类分类问题。 我要做的是在管道中添加一个步骤来检测和删除离群值。 我发现这个detect and remove outliers in pipeline python与我所做的非常相似。 这是我的班级: from sklearn.neighbors import Lo ..
发布时间:2022-08-03 11:14:11 Python

如何在自组织映射中重新关联到原始数据点

我正在使用R Kohonen包来实现SOM。我发现将自组织映射产生的代码向量与原始数据点关联起来很麻烦。我试着在训练过程中加入没有重量的标签,但结果令人费解。 培训过程完成后,有没有办法引用每个节点的原始数据点? 推荐答案 您将从 获取中心值和缩放值 x= attr(som_model$data,"scaled:center") y= attr(som_model$data ..

如何将RGB或HEX颜色代码分组为更大的颜色组?

我正在分析大量图像并提取主色码。 我要将它们分组为通用颜色名称范围,如绿色、深绿色、浅绿色、蓝色、深蓝、浅蓝色等。 我正在寻找一种语言不可知的方式,以便自己实现一些东西,如果有我可以研究的例子来实现这一点,我将非常感激。 推荐答案 @saastn的精彩答案假设您有一组要对图像进行排序的预定义颜色。如果您只想将图像分类为某组X个等距颜色中的一种颜色(如直方图),则实现起来会更 ..
发布时间:2022-06-28 21:34:52 其他开发

对火炬NLLLOS的理解

PyTorch的负对数似然损失nn.NLLLoss定义为: 因此,如果损失是以一批一的标准重量计算的,则损失的公式始终为: -1*(模型对正确类的预测) 示例: 正确类=0 正确类别的模型预测=0.5 损耗=-1*0.5 那么,如果不存在计算损失的对数函数,为什么它被称为负对数似然损失? ​ 推荐答案 实际上没有使用log来计算nn.NLLLoss ..
发布时间:2022-06-28 21:15:17 其他开发

多标签分类KERAS度量

在KERAS中,哪些指标更适合多标签分类:accuracy或categorical_accuracy?显然,在这种情况下,最后一个激活函数是sigmoid,而AS损失函数是binary_crossentropy。 推荐答案 我不会对类别不平衡的分类任务使用准确性。 尤其是对于多标签任务,您可能会认为您的大多数标签都是假的。也就是说,与所有可能的标签的基数相比,每个数据点只能有一小部分标 ..

使用RANGER计算多分类混淆矩阵或对合表时出错

我正在调用Ranger来为一个大型混合数据帧(其中一些分类变量具有超过53个级别)的多分类问题建模。训练和测试运行没有任何问题。然而,解释混淆矩阵/合同表会出现问题。 我用虹膜数据来解释我面临的困难,把物种当作分类变量, library(ranger) library(caret) # Data idx = sample(nrow(iris),100) data = iris # ..

K=4时k近邻选择类标签

在k-NN分类中,输出是类成员。对象按其邻居的多数票进行分类,对象被分配到其k个最近邻居中最常见的类(k是正整数,通常较小)。 如果k=1,则仅将该对象分配给该单个最近邻居的类。 如果k=3,且类标签为Good=2 Bad=1,则预测的类标签为Good,包含多数票。 如果k=4,并且类标签是Good=2 Bad=2,则类标签是什么? 推荐答案 有不同的方法。例如,按照文档he ..

在WEKA中,监督和非监督重采样有什么不同?

我想知道weka.filters.supervised.instance.Resample和weka.filters.unsupervised.instance.Resample有什么区别? 在哪些情况下,我们应该分别使用它们? 推荐答案 监督和非监督重采样的文档都相同,但 监督重采样的文档有以下附加语句: 可以使过滤器保持子样本中的类分布, 或使班级分布偏向均匀分布。 监 ..
发布时间:2022-05-27 12:05:10 Java开发

基于混淆矩阵和Caret统计量的零-R模型计算灵敏度和特异度

这是我从R中的confusionMatrix()函数得到的结果,它基于Zero-R模型。我可能设置了错误的函数,根据它的结果,我手动获得的结果与confusionMatrix()函数的灵敏度答案1.0000之间存在不匹配,因为答案因随机种子而异: > sensitivity1 = 213/(213+128) > sensitivity2 = 211/(211+130) > sensitivi ..
发布时间:2022-05-23 15:32:06 AI人工智能

为什么F度量是调和平均值,而不是精确度和召回率度量的算术平均值?

当我们同时考虑精度和召回率时,我们取这两个度量的调和平均值,而不是简单的算术平均值。 取调和平均值而不是简单平均值背后的直观原因是什么? 推荐答案 这里我们已经有了一些详细的答案,但我认为更多关于它的信息会对一些想要深入研究(特别是为什么要研究F度量)的人有所帮助。 根据测量理论,综合测量应满足以下6个定义: 连通性(两对可排序)和传递性(如果e1>;=e2且e2 ..
发布时间:2022-05-23 15:03:20 AI人工智能

提高功能重要性

我正在处理一个分类问题。我有大约1000个功能和目标变量有2个类。所有1000个要素的值都为1或0。我正在尝试确定功能重要性,但我的功能重要性值从0.0%到0.003不等。我不确定这么低的值是否有意义。 是否有方法可以提高功能重要性。 # Variable importance rf = RandomForestClassifier(min_samples_split=10, rand ..

WEKA分类在精度、FMEASURE和MCC方面没有给出任何结果

我有一个数据集。该数据集具有一些类别值和一些离散值。我的数据集是不平衡的数据集。使用Weka提供的Resample过滤器将数据集分为60%的训练数据和40%的测试数据。为了使数据集平衡,我使用了SMOTE技术。之后,我使用随机森林对数据集进行分类。 结果为 现在我不明白结果中?是什么意思?其次,为什么假阳性和真阳性没有价值?这是否意味着即使在应用SMOTE之后,数据集仍然偏向No类? ..
发布时间:2022-04-22 22:06:26 其他开发

什么时候微观和宏观平均值会有很大不同?

我正在学习机器学习理论。我有一个使用多类别Logistic回归的预测混淆矩阵。 现在我已经计算了微观和宏观平均值(精度和召回)。 值有很大不同。现在我想知道是什么因素影响了这一点。在什么情况下,微观和宏观会有很大的不同? 我注意到的是,对于不同的类别,预测的准确性是不同的。这就是原因吗?或者还有什么其他因素可以导致这种情况? 样本混淆矩阵: 和我计算的微观-宏观平均值 ..

集成分类器(随机森林分类器、袋装分类器、增强型分类器等)在SSAS中

我正在使用SSAS(SQL Server2008R2)为缺少80%的值的数据集开发一个分类模型。基于树的集成分类器被认为是最好的解决方案(例如随机森林)。 有什么好方法可以将集成分类器添加到SSAS中吗?例如AdaBoost或任何其他装袋或助推分类器? 我知道SSAS提供插件功能,但我还没有遇到任何人在做任何集成解决方案...更不用说任何您只需下载并开始使用的内容。 如果没有,有 ..
发布时间:2022-03-27 16:56:56 数据库