classification - IT屋-程序员软件开发技术分享社区

PySpark MLLIB随机林：预测始终为0

使用ml、Spark 2.0(Python)和一个120万行的数据集，我试图创建一个使用Random Forest Classifier预测购买趋势的模型。但是，当将转换应用于拆分的test数据集时，预测始终为0。数据集如下所示： [Row(tier_buyer=u'0', N1=u'1', N2=u'0.72', N3=u'35.0', N4=u'65.81', N5=u'30.6 ..

发布时间：2022-08-14 22:43:44 pyspark classification random-forest apache-spark-mllib 其他开发

Spark中的多输出分类

我们是否可以像在skLearning中执行MultiOutputClassifier()那样，在Pyspark中预测多个目标变量？我有一个包含多个目标变量的数据集 Problem Complexity Skill1 Skill2 Skill3 Skill4 Skill5 0 Pbl1 Low 7 0 ..

发布时间：2022-08-04 18:52:40 python pyspark classification apache-spark-ml Python

使用TRAIN_TEST_SPLIT拆分数据时的精度与之后加载CSV文件时的精度不同

我已经构建了一个模型来预测客户是企业客户还是私人客户。在对模型进行训练后，我预测了我没有用于训练的1000个数据集的类别。此预测将保存在CSV文件中。现在我有两种不同的行为：在程序中拆分样本数据当我使用train, sample = train_test_split(train, test_size=1000, random_state=seed)创建样本时，预测在训练期间获得相 ..

发布时间：2022-08-04 18:44:00 python tensorflow machine-learning keras classification AI人工智能

作为管道步骤的孤立点的检测和去除

我遇到了一个问题，我正在尝试构建我自己的类以放入到python中的管道中，但它不起作用。我尝试解决的问题是一个多类分类问题。我要做的是在管道中添加一个步骤来检测和删除离群值。我发现这个detect and remove outliers in pipeline python与我所做的非常相似。这是我的班级： from sklearn.neighbors import Lo ..

发布时间：2022-08-03 11:14:11 python scikit-learn regression classification Python

如何在自组织映射中重新关联到原始数据点

我正在使用R Kohonen包来实现SOM。我发现将自组织映射产生的代码向量与原始数据点关联起来很麻烦。我试着在训练过程中加入没有重量的标签，但结果令人费解。培训过程完成后，有没有办法引用每个节点的原始数据点？推荐答案您将从获取中心值和缩放值 x= attr(som_model$data,"scaled:center") y= attr(som_model$data ..

发布时间：2022-07-01 20:16:15 r classification cluster-analysis self-organizing-maps 其他开发

为什么Precision_Recall_Curve()返回的值与混淆矩阵不同？

我编写了以下代码来计算多类分类问题的精度和召回率： import numpy as np import matplotlib.pyplot as plt from itertools import cycle from sklearn import svm, datasets from sklearn.metrics import roc_curve, auc, precision_rec ..

发布时间：2022-06-28 21:45:00 python scikit-learn classification confusion-matrix precision-recall Python

如何将RGB或HEX颜色代码分组为更大的颜色组？

我正在分析大量图像并提取主色码。我要将它们分组为通用颜色名称范围，如绿色、深绿色、浅绿色、蓝色、深蓝、浅蓝色等。我正在寻找一种语言不可知的方式，以便自己实现一些东西，如果有我可以研究的例子来实现这一点，我将非常感激。推荐答案 @saastn的精彩答案假设您有一组要对图像进行排序的预定义颜色。如果您只想将图像分类为某组X个等距颜色中的一种颜色(如直方图)，则实现起来会更 ..

发布时间：2022-06-28 21:34:52 image-processing computer-vision classification 其他开发

奇怪的验证损失和准确性

我正在尝试使用MLP进行分类。以下是模特的外观。 import keras from keras.models import Sequential from keras.layers import Dense, Dropout from keras.utils import np_utils model = Sequential() model.add(Dense(256, activ ..

发布时间：2022-06-28 21:24:31 machine-learning neural-network deep-learning keras classification AI人工智能

对火炬NLLLOS的理解

PyTorch的负对数似然损失nn.NLLLoss定义为：因此，如果损失是以一批一的标准重量计算的，则损失的公式始终为： -1*(模型对正确类的预测) 示例：正确类=0 正确类别的模型预测=0.5 损耗=-1*0.5 那么，如果不存在计算损失的对数函数，为什么它被称为负对数似然损失？推荐答案实际上没有使用log来计算nn.NLLLoss ..

发布时间：2022-06-28 21:15:17 pytorch classification loss-function 其他开发

多标签分类KERAS度量

在KERAS中，哪些指标更适合多标签分类：accuracy或categorical_accuracy？显然，在这种情况下，最后一个激活函数是sigmoid，而AS损失函数是binary_crossentropy。推荐答案我不会对类别不平衡的分类任务使用准确性。尤其是对于多标签任务，您可能会认为您的大多数标签都是假的。也就是说，与所有可能的标签的基数相比，每个数据点只能有一小部分标 ..

发布时间：2022-06-28 21:08:49 machine-learning keras classification multilabel-classification AI人工智能

使用RANGER计算多分类混淆矩阵或对合表时出错

我正在调用Ranger来为一个大型混合数据帧(其中一些分类变量具有超过53个级别)的多分类问题建模。训练和测试运行没有任何问题。然而，解释混淆矩阵/合同表会出现问题。我用虹膜数据来解释我面临的困难，把物种当作分类变量， library(ranger) library(caret) # Data idx = sample(nrow(iris),100) data = iris # ..

发布时间：2022-06-28 20:57:39 r machine-learning classification confusion-matrix r-ranger AI人工智能

K=4时k近邻选择类标签

在k-NN分类中，输出是类成员。对象按其邻居的多数票进行分类，对象被分配到其k个最近邻居中最常见的类(k是正整数，通常较小)。如果k=1，则仅将该对象分配给该单个最近邻居的类。如果k=3，且类标签为Good=2 Bad=1，则预测的类标签为Good，包含多数票。如果k=4，并且类标签是Good=2 Bad=2，则类标签是什么？推荐答案有不同的方法。例如，按照文档he ..

发布时间：2022-06-28 20:49:17 machine-learning classification nearest-neighbor knn AI人工智能

在WEKA中，监督和非监督重采样有什么不同？

我想知道weka.filters.supervised.instance.Resample和weka.filters.unsupervised.instance.Resample有什么区别？在哪些情况下，我们应该分别使用它们？推荐答案监督和非监督重采样的文档都相同，但监督重采样的文档有以下附加语句：可以使过滤器保持子样本中的类分布，或使班级分布偏向均匀分布。监 ..

发布时间：2022-05-27 12:05:10 java machine-learning classification weka resampling Java开发

基于混淆矩阵和Caret统计量的零-R模型计算灵敏度和特异度

这是我从R中的confusionMatrix()函数得到的结果，它基于Zero-R模型。我可能设置了错误的函数，根据它的结果，我手动获得的结果与confusionMatrix()函数的灵敏度答案1.0000之间存在不匹配，因为答案因随机种子而异： > sensitivity1 = 213/(213+128) > sensitivity2 = 211/(211+130) > sensitivi ..

发布时间：2022-05-23 15:32:06 r classification data-mining j48 AI人工智能

为什么F度量是调和平均值，而不是精确度和召回率度量的算术平均值？

当我们同时考虑精度和召回率时，我们取这两个度量的调和平均值，而不是简单的算术平均值。取调和平均值而不是简单平均值背后的直观原因是什么？推荐答案这里我们已经有了一些详细的答案，但我认为更多关于它的信息会对一些想要深入研究(特别是为什么要研究F度量)的人有所帮助。根据测量理论，综合测量应满足以下6个定义：连通性(两对可排序)和传递性(如果e1>；=e2且e2 ..

发布时间：2022-05-23 15:03:20 machine-learning classification data-mining AI人工智能

提高功能重要性

我正在处理一个分类问题。我有大约1000个功能和目标变量有2个类。所有1000个要素的值都为1或0。我正在尝试确定功能重要性，但我的功能重要性值从0.0%到0.003不等。我不确定这么低的值是否有意义。是否有方法可以提高功能重要性。 # Variable importance rf = RandomForestClassifier(min_samples_split=10, rand ..

发布时间：2022-04-24 21:41:01 python machine-learning classification random-forest AI人工智能

WEKA分类在精度、FMEASURE和MCC方面没有给出任何结果

我有一个数据集。该数据集具有一些类别值和一些离散值。我的数据集是不平衡的数据集。使用Weka提供的Resample过滤器将数据集分为60%的训练数据和40%的测试数据。为了使数据集平衡，我使用了SMOTE技术。之后，我使用随机森林对数据集进行分类。结果为现在我不明白结果中?是什么意思？其次，为什么假阳性和真阳性没有价值？这是否意味着即使在应用SMOTE之后，数据集仍然偏向No类？ ..

发布时间：2022-04-22 22:06:26 classification precision random-forest weka smote 其他开发

什么时候微观和宏观平均值会有很大不同？

我正在学习机器学习理论。我有一个使用多类别Logistic回归的预测混淆矩阵。现在我已经计算了微观和宏观平均值(精度和召回)。值有很大不同。现在我想知道是什么因素影响了这一点。在什么情况下，微观和宏观会有很大的不同？我注意到的是，对于不同的类别，预测的准确性是不同的。这就是原因吗？或者还有什么其他因素可以导致这种情况？样本混淆矩阵：和我计算的微观-宏观平均值 ..

发布时间：2022-04-19 21:48:17 machine-learning classification logistic-regression multiclass-classification precision-recall AI人工智能

类型错误：在筛选深度学习模型时无法筛选弱对象(&Q；T)

当我运行时 pickle.dump(model,open('modelDL.pkl','wb')) 我得到 TypeError: can't pickle weakref objects 我创建了一个深度学习模型，我正在尝试保存该模型。型号： model = Sequential() model.add( Dense(30,activation='relu') ) mo ..

发布时间：2022-04-01 21:43:31 python-3.x deep-learning classification tensorflow2.0 tf.keras 其他开发

集成分类器(随机森林分类器、袋装分类器、增强型分类器等)在SSAS中

我正在使用SSAS(SQL Server2008R2)为缺少80%的值的数据集开发一个分类模型。基于树的集成分类器被认为是最好的解决方案(例如随机森林)。有什么好方法可以将集成分类器添加到SSAS中吗？例如AdaBoost或任何其他装袋或助推分类器？我知道SSAS提供插件功能，但我还没有遇到任何人在做任何集成解决方案...更不用说任何您只需下载并开始使用的内容。如果没有，有 ..

发布时间：2022-03-27 16:56:56 sql-server ssas classification adaboost ensemble-learning 数据库

classification相关内容