ensemble-learning相关内容

集成分类器(随机森林分类器、袋装分类器、增强型分类器等)在SSAS中

我正在使用SSAS(SQL Server2008R2)为缺少80%的值的数据集开发一个分类模型。基于树的集成分类器被认为是最好的解决方案(例如随机森林)。 有什么好方法可以将集成分类器添加到SSAS中吗?例如AdaBoost或任何其他装袋或助推分类器? 我知道SSAS提供插件功能,但我还没有遇到任何人在做任何集成解决方案...更不用说任何您只需下载并开始使用的内容。 如果没有,有 ..
发布时间:2022-03-27 16:56:56 数据库

在 Spark 中堆叠 ML 算法

是否有用于在 spark 中构建堆叠集成的 spark api 还是应该从头开始构建它们?我还没有在网上找到关于这个主题的任何资源 解决方案 正如 AKSW 的评论中所说,在当前的 Apache Spark MLlib 中只有两种 Ensemble Models 的具体实现,它们是 随机森林 用于装袋和 梯度提升树用于提升. 对于堆叠部分,我认为您在 MLlib 上找不到任何东西,您 ..

Sklearn StackingClassifier:将要素添加为最终估算器的输入

我正在使用管道和堆栈分类器来构建分类管道.在我的设置中,我想将一些额外的原始功能以及上一级模型的预测传递给最终估计器.以图表的方式,如下所示: 我仍然想利用这两个管道(除了添加 Feat x/y 之外,我已经用来设置所有内容)和 注意:输入到最终估计量的特征与输入到模型1和模型2的特征不同,因此我不是在寻找 pass_through = True 标志. 解决方案 此功能不是快速功 ..

无法为多标签分类器进行堆叠

我正在研究多标签文本分类问题(目标标签总数90).数据分布具有长尾和类不平衡以及大约10万条记录的情况.我正在使用OAA策略(反对所有人).我正在尝试使用Stacking创建一个合奏. 文本功能: HashingVectorizer (功能数量2 ** 20,字符分析器) TSVD 降低维度(n_components=200). text_pipeline = Pipeline([(' ..

在GPU上与keras集成预测

我正在尝试使用同样构建的keras模型进行整体预测.单个NN的数据具有相同的形状.我想使用GPU,因为应该并行训练模型.因此,我正在尝试合并模型.因为模型的数量应该是可配置的,所以我想循环进行.我找到了一些解决方案,但是对于每个循环我都有麻烦.这是我的方法: 从keras导入 顺序模型从keras.layers导入Embedding,GlobalAveragePooling1D,Dense,串 ..
发布时间:2021-05-28 19:07:33 Python

如何使用集成学习方法为时间序列数据构建数据框

我正在尝试使用截至时间t的11个技术指标来预测t + 5(即提前5分钟)时的比特币价格,这些指标都可以根据比特币时间的开盘价,最高价,最低价,收盘价和交易量计算系列(请参阅我的完整数据集此处).据我所知,当使用诸如回归树,支持向量机或人工神经网络之类的算法时,无需操纵数据帧,但是当使用诸如随机森林(RF)和Boosting之类的集成方法时,我听说有必要以某种方式重新安排数据帧,因为集成方法从训练数 ..
发布时间:2020-06-13 19:20:36 其他开发

通过h2o集成模型找到每个特征的贡献以做出特定的预测

我正在尝试解释h2o GBM模型所做出的决定.根据想法: https://medium. com/applied-data-science/new-r-package-the-xgboost-explainer-51dd7d1aa211 我想计算每个功能对测试时做出决定的贡献. 是否可以从ensable中获取每个单独的树以及每个节点上的对数奇数? 在进行预测时,还需要按模型遍历每棵树的路径. ..
发布时间:2020-06-13 19:20:34 其他开发

Sklearn投票合奏,具有使用不同功能的模型,并通过k倍交叉验证进行测试

我有一个包含4组不同功能的数据框. 我需要使用这四个不同的功能组创建4个不同的模型,并将它们与整体投票分类器结合起来. 此外,我需要使用k倍交叉验证来测试分类器. 但是,我发现很难将不同的功能集,投票分类器和k倍交叉验证与sklearn中的功能结合起来.以下是我到目前为止的代码. y = df1.index x = preprocessing.scale(df1) SVM = ..

sklearn Pipeline:"ColumnTransformer"类型的参数不可迭代

由于我希望集成学习者使用在不同功能集上训练的模型,因此我尝试使用管道来提供集成投票分类器.为此,我遵循了 [1] . 以下是我到目前为止可以开发的代码. y = df1.index x = preprocessing.scale(df1) phy_features = ['A', 'B', 'C'] phy_transformer = Pipeline(steps=[('impute ..

在R中整合不同的数据集

我正在尝试使用所描述的示例来组合来自不同模型的信号这里.我有不同的数据集,它们预测相同的输出.但是,当我在caretList中组合模型输出并整合信号时,会给出错误 Error in check_bestpreds_resamples(modelLibrary) : Component models do not have the same re-sampling strategies ..
发布时间:2020-06-13 19:20:28 其他开发

在BaggingClassifier的参数内的参数上进行网格搜索

这是关于的后续问题在这里,但我认为它值得拥有自己的线程. 在上一个问题中,我们正在处理“一组Ensemble分类器,每个分类器都有自己的参数."让我们从 MaximeKan 在他的答案中提供的示例开始: my_est = BaggingClassifier(RandomForestClassifier(n_estimators = 100, bootstrap = True, ..

其他参数内部的参数-在集成学习中使用带有随机森林的引导聚合

假设我决定使用整体方法-如果有区别,我们将使用虹膜数据集.在可用的集成技术中,我们将重点介绍并行方法,并从中使用sklearn进行引导聚合. Sklearn通过使用BaggingClassifier实现引导聚合,(文档告诉我们)"c0"是“适合基本分类器的整体元估计器……"在这些基本分类器中,让我们选择RandomForestClassifier,其本身就是“是一个元决策器,它适合许多决策树 ..
发布时间:2020-06-13 19:20:21 其他开发

R中的xgb.plot.tree布局

我正在阅读一本xgb 笔记本,示例中的xgb.plot.tree命令产生如下图片: 但是,当我做同样的事情时,却得到了一张这样的图片,它是两个单独的图形,并且颜色也不同. 那正常吗?这两个图是两棵树吗? 解决方案 我遇到了同样的问题. 根据xgboost github存储库上的一个问题案例,这可能是由于xgboost用于渲染树的DiagrammeR库发生了变化. https://gi ..
发布时间:2020-06-13 19:20:19 其他开发

使用scikit-learn(或任何其他python框架)集成不同类型的回归器

我正在尝试解决回归任务.我发现3个模型对于不同的数据子集运行良好:LassoLARS,SVR和Gradient Tree Boosting.我注意到,当我使用所有这三个模型进行预测,然后制作“真实输出"和这3个模型的输出的表格时,我看到每次至少有一个模型确实接近真实输出,尽管另外两个模型可能相对较远. 当我计算出最小的可能误差时(如果我从每个测试示例的“最佳"预测变量中获取预测结果),我得到 ..
发布时间:2020-06-13 19:20:17 AI人工智能

您将如何解释整体树模型?

在机器学习中,集成树模型(例如随机森林)很常见.该模型由一组所谓的决策树模型组成.但是,我们如何分析这些模型具体学到了什么呢? 解决方案 从这种意义上讲,您不能仅绘制简单的决策树.只有极简单的模型才能轻松研究.更复杂的方法需要更复杂的工具,这些工具仅是近似值,是所寻找内容的一般思路.因此,对于合奏,您可以尝试查看单个模型的一些期望值.例如,您可以寻找一些特征重要性度量,以向您显示哪些特征用 ..
发布时间:2020-05-04 10:23:34 AI人工智能