classification相关内容

错误在 Java 代码中使用 WEKA API 时:未设置类属性?

我正在尝试在我的 Java 代码中使用 weka API.我使用 J48 树分类对 MySQL 数据库中的数据集进行分类,但出现此错误: 正在尝试添加数据库驱动程序 (JDBC):RmiJdbc.RJDriver - 错误,不在 CLASSPATH 中?尝试添加数据库驱动程序 (JDBC):jdbc.idbDriver - 错误,不在 CLASSPATH 中?尝试添加数据库驱动程序 (JDBC) ..
发布时间:2021-11-15 02:40:23 Java开发

在 spark mllib 分类器中处理 null/NaN 值

我有一组分类列(字符串),我正在解析它们并将其转换为特征向量以传递给 mllib 分类器(随机森林). 在我的输入数据中,某些列具有空值.说,在其中一列中,我有 p 值 + 一个空值:我应该如何构建我的特征向量和分类器的 categoricalFeaturesInfo 地图? 选项 1:我在 categoricalFeaturesInfo 中告诉 p 值,并在我的输入 Vectors ..

处理 Spark MLlib 中的不平衡数据集

我正在研究具有高度不平衡数据集的特定二元分类问题,我想知道是否有人尝试实施特定技术来处理不平衡数据集(例如 SMOTE) 在使用 Spark 的 MLlib 的分类问题中. 我正在使用 MLLib 的随机森林实现,并且已经尝试了对较大类进行随机欠采样的最简单方法,但它没有像我预期的那样工作. 如果您对类似问题的体验有任何反馈,我将不胜感激. 谢谢, 解决方案 Spark ..

如何根据标签对用户进行聚类

我想根据用户观看的节目的类别或标签对他们进行聚类.执行此操作的最简单/最佳算法是什么? 假设我有大约 20,000 个标签和数百万个监视事件可以用作信号,是否有我可以使用 Pig/hadoop/mortar 或在 neo4j 上实现的算法? 就数据而言,我有用户、他们看过的节目以及节目的标签(通常每个节目大约有 10 个标签). 我希望在最后有 k 个集群(可能是一打?)或广泛的 ..

如何使用 Weka 预测结果

我是 Weka 的新手,我对这个工具感到困惑.我有一个关于水果价格和相关属性的数据集.我正在尝试使用数据集预测特定的水果价格.由于我是 Weka 的新手,我无法弄清楚如何完成这项任务.请帮助我或指导我学习有关如何进行预测的教程,以及执行此任务的最佳方法或算法是什么. 解决方案 如果您想了解更多关于保存训练好的分类器并稍后加载以进行预测的信息,请参阅以下内容. 假设您要使用 Weka ..
发布时间:2021-09-24 20:09:32 AI人工智能

如何在交叉验证期间获取实例索引

我正在做一个二元分类.我可以知道如何在进行 K 折交叉验证时提取训练数据框的错误分类或分类实例的真实索引吗?我没有找到这个问题的答案 此处. 我按照所述获得了折叠中的值 这里: skf=StratifiedKFold(n_splits=10,random_state=111,shuffle=False)cv_results = cross_val_score(模型,X_train,y_tr ..
发布时间:2021-09-09 19:03:03 Python

在 Tensorflow 中限制多类分类中的输出类

我正在构建一个双向 LSTM 来进行多类句子分类.我总共有 13 个类可供选择,我将 LSTM 网络的输出乘以维数为 [2*num_hidden_​​unit,num_classes] 的矩阵,然后应用 softmax 来获得句子的概率属于 13 个类别中的 1 个. 因此,如果我们将 output[-1] 视为网络输出: W_output = tf.Variable(tf.trunc ..
发布时间:2021-09-06 19:30:16 其他开发

Keras:binary_crossentropy &categorical_crossentropy 混淆

在使用 TensorFlow 一段时间后,我阅读了一些 Keras 教程并实现了一些示例.我找到了几个使用 keras.losses.binary_crossentropy 作为损失函数的卷积自编码器教程. 我认为 binary_crossentropy 应该不是一个多类损失函数,很可能会使用二进制标签,但实际上 Keras(TF Python 后端)调用了 tf.nn.sigmoid_cr ..
发布时间:2021-09-05 19:10:19 Python

使用 SVM 进行分层分类

我正在尝试使用 SVM 处理分类问题,一开始我设法解决了第一级的问题,即将我的数据分为 2 类(class1 和 class2).现在我想继续分层分类,即我想将第二个类分成两个类.有没有办法用 Matlab SVM 做到这一点.谢谢 解决方案 你还没有说你的特征,因为在第一次分类之后,你必须为新的分类器定义新的特征. 您可以将特征存储在矩阵中并在新分类器中使用它们. 由于我不确 ..
发布时间:2021-09-01 19:27:21 其他开发

如何在Matlab的Classification Learner App中传递数据集

我的问题是关于将变量(训练数据集、标签和测试变量)作为预测变量和响应传递.我所做的是在matlab的工作区中加载所有3个并启动会话.但是每次我收到错误(在附图中描述)即没有选择响应时,选择响应变量.我的数据集如下: 人脸 [大小:5000 * 10000(5000 个样本,10000 个特征)] TrainingLabels [大小:5000 *1] TestVariable [ ..
发布时间:2021-09-01 19:27:04 其他开发

使用 spatstat 进行点模式分类:我做错了什么?

我正在尝试使用 spatstat 将双变量点模式分类为组.这些图案来源于癌症淋巴结的整个幻灯片图像.我训练了一个神经网络来识别三种类型的细胞(癌症“LP"、免疫细胞“bcell"和所有其他细胞).我不想分析所有其他细胞,而是使用它们来构建淋巴结形状的多边形窗口.因此,要分析的模式是多边形窗口中的免疫细胞和癌细胞.每个模式可以有几个 10k 癌细胞和最多 2mio 免疫细胞.图案属于“小世界模型"类 ..
发布时间:2021-08-30 18:48:58 其他开发

partial_fit Sklearn 的 MLPClassifier

我一直在尝试使用 Sklearn 的神经网络 MLPClassifier.我有一个大小为 1000 个实例(带有二进制输出)的数据集,我想应用一个带有 1 个隐藏层的基本神经网络. 问题是我的数据实例并非同时可用.在任何时候,我只能访问 1 个数据实例.我认为 MLPClassifier 的 partial_fit 方法可以用于此,所以我用 1000 个输入的假想数据集模拟了这个问题,并一次 ..
发布时间:2021-07-16 20:07:20 Python

使用随机森林作为 adaboost 的基本分类器

我可以将 AdaBoost 与随机森林一起用作基本分类器吗?我在互联网上搜索,我没有找到任何人这样做. 就像下面的代码;我尝试运行它,但需要很多时间: estimators = Pipeline([('vectorizer', CountVectorizer()),('变压器', TfidfTransformer()),('分类器', AdaBoostClassifier(learning ..

使用朴素贝叶斯分类来标识Twitter用户的性别

到目前为止,我已经成为学校项目的一部分,这个项目非常有趣,而且变得更加有趣.我拥有大约60万条推文(每条推文都包含屏幕名称,地理位置,文本等),我的目标是尝试将每个用户分类为男性还是女性.现在使用Twitter4J,我可以获得用户的全名,朋友数,转发消息等.因此,我想知道是否可以同时查看用户名和进行文本分析.我原本以为我可以将其变成基于规则的分类器,在该分类器中,我可以先查看用户的名称,然后分析他 ..