feature-selection相关内容

sklearn随机森林索引的功能如何_重要_

我已使用sklearn中的RandomForestClassifier确定数据集中的重要特征.如何返回实际的特征名称(我的变量分别标记为x1,x2,x3等),而不是它们的相对名称(它告诉我重要的特征是"12","22"等).下面是我目前用于返回重要功能的代码. important_features = [] for x,i in enumerate(rf.feature_importance ..
发布时间:2020-11-03 23:59:54 Python

管道中的python功能选择:如何确定功能名称?

我使用管道和grid_search选择最佳参数,然后使用这些参数来拟合最佳管道("best_pipe").但是,由于feature_selection(SelectKBest)在管道中,因此没有适合SelectKBest的应用. 我需要知道'k'个选定特征的特征名称.有什么想法如何找回它们吗?预先谢谢你 from sklearn import (cross_validation, fe ..
发布时间:2020-11-03 23:59:49 其他开发

PCA(主成分分析)和特征选择之间的区别

机器学习中的主成分分析(PCA)和特征选择之间有什么区别? PCA是功能选择的一种手段吗? 解决方案 PCA是一种方法,可以找出哪些特征对于最佳描述数据集中的方差非常重要.它最常用于减少大数据集的维数,以便在原始数据本来就具有高维(例如图像识别)的情况下应用机器学习变得更加实用. 但是, PCA有局限性,因为它依赖于要素元素之间的线性关系,并且在开始之前通常不清楚它们之间的关系.由于它 ..
发布时间:2020-11-03 23:58:35 AI人工智能

如何使用混合离散和连续特征的互信息来选择KBest?

我正在使用scikit学习训练分类模型.我的训练数据同时具有离散和连续特征.我想使用最大的相互信息来进行特征选择.如果我有矢量x和标签y,并且前三个特征值是离散的,则可以这样获得MMI值: mutual_info_classif(x, y, discrete_features=[0, 1, 2]) 现在,我想在管道中使用相同的相互信息选择.我想做这样的事情 SelectKBest( ..
发布时间:2020-11-03 23:57:24 其他开发

SciKit-Learn标签编码器导致错误“参数必须是字符串或数字"

我有点困惑-在这里创建ML模型. 我正在尝试从“大"数据框(180列)中获取分类特征并对其进行一次热分析,以便我可以找到特征之间的相关性并选择“最佳"特征. 这是我的代码: # import labelencoder from sklearn.preprocessing import LabelEncoder # instantiate labelencoder object ..

R插入包rfe永远不会完成错误任务1失败-“替换长度为零".

我最近开始研究我正在开发的模型的插入符号包.我正在使用最新版本.第一步,我决定将其用于功能选择.我正在使用的数据具有约760个功能和10k观测值.我根据在线培训材料创建了一个简单的函数.不幸的是,我始终遇到错误,因此该过程永远无法完成.这是产生错误的代码.在此示例中,我使用了一小部分功能.我从全套功能开始.我还更改了子集,折叠次数和重复次数都无济于事.我知道没有数据将很难找到问题所在.我有共享数据 ..
发布时间:2020-11-03 23:56:19 其他开发

使用嵌套在GridSearchCV中的RFECV时,如何避免使用estimator_params?

我目前正在使用scikit-learn在基于树的方法的网格搜索(GridSearchCV)中研究递归特征消除(RFECV).为此,我使用的是GitHub(0.17)上的当前开发版本,该版本允许RFECV使用树方法中的功能重要性来选择要丢弃的功能. 为清楚起见,这意味着: 在超参数上循环使用当前树方法 对每组参数执行递归特征消除以获得最佳特征数 报告“分数"(例如准确性) 确定哪一 ..
发布时间:2020-11-03 23:56:10 其他开发

如何确定RandomForestClassifier中的feature_importances?

我有一个按时间序列作为数据输入的分类任务,其中每个属性(n = 23)代表一个特定的时间点.除了绝对分类结果之外,我还想知道,哪些属性/日期对结果有多大程度的贡献.因此,我只是使用feature_importances_,对我来说效果很好. 但是,我想知道如何计算它们以及使用哪种度量/算法.不幸的是,我找不到有关此主题的任何文档. 解决方案 确实有几种获取功能“重要性"的方法.通常, ..
发布时间:2020-11-03 23:56:08 其他开发

将专长重要性的索引映射到数据框中的列的索引

你好,我使用来自xgboost的feature_importance绘制了一个图形。但是,该图返回“ f值”。我不知道图表中代表了哪个功能。我听说过如何解决此问题的一种方式是将数据框中的要素索引映射到feature_importance“ f-values”的索引,然后手动选择列。我该怎么做?另外,如果还有另一种方法可以帮助您,将不胜感激: 以下是我的代码: feature_impo ..
发布时间:2020-10-17 22:25:44 Python

特征选择+交叉验证,但是如何在R中制作ROC曲线

我遇到了下一个问题。我将数据分成10折。每次,我使用1倍作为测试集,而其他9倍作为训练集(我这样做10次)。在每个训练集上,我都进行特征选择(带有chi.squared的filter methode),然后用训练集和所选特征制作一个SVMmodel。 最后,我变成了10个不同的模型( (因为功能选择)。但是现在,我通常想通过这种过滤方法在R中制作ROC曲线。我该怎么办? Silke ..
发布时间:2020-10-11 19:59:58 其他开发

相关功能和分类准确性

我想问每个人有关相关特征(变量)如何影响机器学习算法分类精度的问题。具有相关特征的意思是它们之间的关联,而不是与目标类别的关联(即几何图形的周长和面积或教育水平和平均收入)。我认为相关特征会对分类算法的准确性产生负面影响,我想说是因为相关性使其中之一变得无用。真的是这样吗?问题是否随分类算法类型而变化?任何关于论文和讲座的建议都非常欢迎!谢谢 解决方案 相关功能本身不会影响分类准确性。现实 ..

XGBoost软件包中的功能得分(/重要性)如何计算?

命令 xgb.importance 返回以 f得分衡量的功能重要性图。 该 f分数代表什么以及如何计算? 输出: 功能重要性图 解决方案 这是一个指标,它简单地总结了每个功能被分割了多少次。它类似于R版本中的“频率”指标。 https:// cran .r-project.org / web / packages / xgboost / xgboost.pdf 它与 ..
发布时间:2020-10-02 03:01:40 Python

如何将文本和数字数据的混合转换为Apache Spark中的特征数据

我有一个文本和数字数据的CSV.我需要将其转换为Spark中的特征向量数据(双精度值).有什么办法吗? 例如,我看到每个关键字都映射到某个double值并使用该值进行转换的情况.但是,如果有多个关键字,则很难做到这一点. 还有其他出路吗?我看到Spark提供了提取器,它将转换为特征向量.有人可以举个例子吗? 48, Private, 105808, 9th, 5, Widowed ..
发布时间:2020-09-04 18:48:05 其他开发