classification相关内容
我正在尝试在我的 Java 代码中使用 weka API.我使用 J48 树分类对 MySQL 数据库中的数据集进行分类,但出现此错误: 正在尝试添加数据库驱动程序 (JDBC):RmiJdbc.RJDriver - 错误,不在 CLASSPATH 中?尝试添加数据库驱动程序 (JDBC):jdbc.idbDriver - 错误,不在 CLASSPATH 中?尝试添加数据库驱动程序 (JDBC)
..
我尝试在没有 StringIndexer 的 Pipeline 中使用 Spark ML DecisionTreeClassifier,因为我的特性已经被索引为 (0.0; 1.0).DecisionTreeClassifier 作为标签需要双值,所以这段代码应该可以工作: def trainDecisionTreeModel(training: RDD[LabeledPoint], sqlc:
..
我正在阅读“Spark The Definitive Guide",我在 MLlib 章节中遇到了一个代码部分,其中包含以下代码: var df = spark.read.json("/data/simple-ml")df.orderBy("value2").show()导入 org.apache.spark.ml.feature.RFormula//无法理解这个公式的解释val 监督 = ne
..
我有一组分类列(字符串),我正在解析它们并将其转换为特征向量以传递给 mllib 分类器(随机森林). 在我的输入数据中,某些列具有空值.说,在其中一列中,我有 p 值 + 一个空值:我应该如何构建我的特征向量和分类器的 categoricalFeaturesInfo 地图? 选项 1:我在 categoricalFeaturesInfo 中告诉 p 值,并在我的输入 Vectors
..
我正在使用 RandomForest.featureImportances 但我不明白输出结果. 我有 12 个特征,这是我得到的输出. 我知道这可能不是 apache-spark 特定的问题,但我找不到任何解释输出的地方. //org.apache.spark.mllib.linalg.Vector = (12,[0,1,2,3,4,5,6,7,8,9,10,11],[0.1956
..
我正在研究具有高度不平衡数据集的特定二元分类问题,我想知道是否有人尝试实施特定技术来处理不平衡数据集(例如 SMOTE) 在使用 Spark 的 MLlib 的分类问题中. 我正在使用 MLLib 的随机森林实现,并且已经尝试了对较大类进行随机欠采样的最简单方法,但它没有像我预期的那样工作. 如果您对类似问题的体验有任何反馈,我将不胜感激. 谢谢, 解决方案 Spark
..
我想根据用户观看的节目的类别或标签对他们进行聚类.执行此操作的最简单/最佳算法是什么? 假设我有大约 20,000 个标签和数百万个监视事件可以用作信号,是否有我可以使用 Pig/hadoop/mortar 或在 neo4j 上实现的算法? 就数据而言,我有用户、他们看过的节目以及节目的标签(通常每个节目大约有 10 个标签). 我希望在最后有 k 个集群(可能是一打?)或广泛的
..
我正在处理一个不平衡的数据集,其中我有一个包含 2 个不同值的类变量:0 和 1. “0"值的数量为 1000,“1"值的数量为 3000. 对于 XGBClassifier、LGBMClassifier 和 CatBoostClassifier,我发现有一个名为“scale_pos_weight"的参数.允许修改类值的权重: scale_pos_weight = number_
..
我是 Weka 的新手,我对这个工具感到困惑.我有一个关于水果价格和相关属性的数据集.我正在尝试使用数据集预测特定的水果价格.由于我是 Weka 的新手,我无法弄清楚如何完成这项任务.请帮助我或指导我学习有关如何进行预测的教程,以及执行此任务的最佳方法或算法是什么. 解决方案 如果您想了解更多关于保存训练好的分类器并稍后加载以进行预测的信息,请参阅以下内容. 假设您要使用 Weka
..
我正在做一个二元分类.我可以知道如何在进行 K 折交叉验证时提取训练数据框的错误分类或分类实例的真实索引吗?我没有找到这个问题的答案 此处. 我按照所述获得了折叠中的值 这里: skf=StratifiedKFold(n_splits=10,random_state=111,shuffle=False)cv_results = cross_val_score(模型,X_train,y_tr
..
我正在构建一个双向 LSTM 来进行多类句子分类.我总共有 13 个类可供选择,我将 LSTM 网络的输出乘以维数为 [2*num_hidden_unit,num_classes] 的矩阵,然后应用 softmax 来获得句子的概率属于 13 个类别中的 1 个. 因此,如果我们将 output[-1] 视为网络输出: W_output = tf.Variable(tf.trunc
..
我使用 Keras 创建了一个简单的二元分类模型.代码是: # 创建模型模型 = 顺序()model.add(Dense(250, input_dim=1, activation='relu'))model.add(Dense(1, activation='sigmoid'))# 编译模型model.compile(loss='binary_crossentropy', optimizer='
..
在使用 TensorFlow 一段时间后,我阅读了一些 Keras 教程并实现了一些示例.我找到了几个使用 keras.losses.binary_crossentropy 作为损失函数的卷积自编码器教程. 我认为 binary_crossentropy 应该不是一个多类损失函数,很可能会使用二进制标签,但实际上 Keras(TF Python 后端)调用了 tf.nn.sigmoid_cr
..
我正在尝试使用 SVM 处理分类问题,一开始我设法解决了第一级的问题,即将我的数据分为 2 类(class1 和 class2).现在我想继续分层分类,即我想将第二个类分成两个类.有没有办法用 Matlab SVM 做到这一点.谢谢 解决方案 你还没有说你的特征,因为在第一次分类之后,你必须为新的分类器定义新的特征. 您可以将特征存储在矩阵中并在新分类器中使用它们. 由于我不确
..
我的问题是关于将变量(训练数据集、标签和测试变量)作为预测变量和响应传递.我所做的是在matlab的工作区中加载所有3个并启动会话.但是每次我收到错误(在附图中描述)即没有选择响应时,选择响应变量.我的数据集如下: 人脸 [大小:5000 * 10000(5000 个样本,10000 个特征)] TrainingLabels [大小:5000 *1] TestVariable [
..
我正在尝试使用 spatstat 将双变量点模式分类为组.这些图案来源于癌症淋巴结的整个幻灯片图像.我训练了一个神经网络来识别三种类型的细胞(癌症“LP"、免疫细胞“bcell"和所有其他细胞).我不想分析所有其他细胞,而是使用它们来构建淋巴结形状的多边形窗口.因此,要分析的模式是多边形窗口中的免疫细胞和癌细胞.每个模式可以有几个 10k 癌细胞和最多 2mio 免疫细胞.图案属于“小世界模型"类
..
我一直在尝试使用 Sklearn 的神经网络 MLPClassifier.我有一个大小为 1000 个实例(带有二进制输出)的数据集,我想应用一个带有 1 个隐藏层的基本神经网络. 问题是我的数据实例并非同时可用.在任何时候,我只能访问 1 个数据实例.我认为 MLPClassifier 的 partial_fit 方法可以用于此,所以我用 1000 个输入的假想数据集模拟了这个问题,并一次
..
我正在尝试使用 XGBoosts 分类器对一些二进制数据进行分类.当我做最简单的事情时,只使用默认值(如下) clf = xgb.XGBClassifier()metLearn=CalibratedClassifierCV(clf, method='isotonic', cv=2)metLearn.fit(火车,trainTarget)testPredictions = metLearn.pre
..
我可以将 AdaBoost 与随机森林一起用作基本分类器吗?我在互联网上搜索,我没有找到任何人这样做. 就像下面的代码;我尝试运行它,但需要很多时间: estimators = Pipeline([('vectorizer', CountVectorizer()),('变压器', TfidfTransformer()),('分类器', AdaBoostClassifier(learning
..
到目前为止,我已经成为学校项目的一部分,这个项目非常有趣,而且变得更加有趣.我拥有大约60万条推文(每条推文都包含屏幕名称,地理位置,文本等),我的目标是尝试将每个用户分类为男性还是女性.现在使用Twitter4J,我可以获得用户的全名,朋友数,转发消息等.因此,我想知道是否可以同时查看用户名和进行文本分析.我原本以为我可以将其变成基于规则的分类器,在该分类器中,我可以先查看用户的名称,然后分析他
..