feature-selection相关内容
我正在使用重要的特征选择来实现管道,然后使用相同的特征来训练我的随机森林分类器.以下是我的代码. m = ExtraTreesClassifier(n_estimators = 10) m.fit(train_cv_x,train_cv_y) sel = SelectFromModel(m, prefit=True) X_new = sel.transform(train_cv_x) clf
..
我已使用sklearn中的RandomForestClassifier确定数据集中的重要特征.如何返回实际的特征名称(我的变量分别标记为x1,x2,x3等),而不是它们的相对名称(它告诉我重要的特征是"12","22"等).下面是我目前用于返回重要功能的代码. important_features = [] for x,i in enumerate(rf.feature_importance
..
从Scikit-Learn对一组数据运行方差阈值后,它将删除几个功能.我觉得我在做一些简单而又愚蠢的事情,但是我想保留其余功能的名称.以下代码: def VarianceThreshold_selector(data): selector = VarianceThreshold(.5) selector.fit(data) selector = (pd.DataFr
..
我使用管道和grid_search选择最佳参数,然后使用这些参数来拟合最佳管道("best_pipe").但是,由于feature_selection(SelectKBest)在管道中,因此没有适合SelectKBest的应用. 我需要知道'k'个选定特征的特征名称.有什么想法如何找回它们吗?预先谢谢你 from sklearn import (cross_validation, fe
..
我不知道随机森林模型的varImp函数(caret程序包)和importance函数(randomForest程序包)之间的区别是什么 我计算了一个简单的RF分类模型,当计算变量重要性时,我发现两个函数的预测变量的“排名"不同: 这是我的代码: rfImp
..
机器学习中的主成分分析(PCA)和特征选择之间有什么区别? PCA是功能选择的一种手段吗? 解决方案 PCA是一种方法,可以找出哪些特征对于最佳描述数据集中的方差非常重要.它最常用于减少大数据集的维数,以便在原始数据本来就具有高维(例如图像识别)的情况下应用机器学习变得更加实用. 但是, PCA有局限性,因为它依赖于要素元素之间的线性关系,并且在开始之前通常不清楚它们之间的关系.由于它
..
我对如何在Python的scikit-learn库中使用ngram感到有些困惑,特别是ngram_range参数在CountVectorizer中的工作方式. 运行此代码: from sklearn.feature_extraction.text import CountVectorizer vocabulary = ['hi ', 'bye', 'run away'] cv = Co
..
我正在使用scikit学习训练分类模型.我的训练数据同时具有离散和连续特征.我想使用最大的相互信息来进行特征选择.如果我有矢量x和标签y,并且前三个特征值是离散的,则可以这样获得MMI值: mutual_info_classif(x, y, discrete_features=[0, 1, 2]) 现在,我想在管道中使用相同的相互信息选择.我想做这样的事情 SelectKBest(
..
我有点困惑-在这里创建ML模型. 我正在尝试从“大"数据框(180列)中获取分类特征并对其进行一次热分析,以便我可以找到特征之间的相关性并选择“最佳"特征. 这是我的代码: # import labelencoder from sklearn.preprocessing import LabelEncoder # instantiate labelencoder object
..
我最近开始研究我正在开发的模型的插入符号包.我正在使用最新版本.第一步,我决定将其用于功能选择.我正在使用的数据具有约760个功能和10k观测值.我根据在线培训材料创建了一个简单的函数.不幸的是,我始终遇到错误,因此该过程永远无法完成.这是产生错误的代码.在此示例中,我使用了一小部分功能.我从全套功能开始.我还更改了子集,折叠次数和重复次数都无济于事.我知道没有数据将很难找到问题所在.我有共享数据
..
我想使用scikit-learn通过嵌套网格搜索和交叉验证对每个特征子集执行递归特征消除.在 RFECV 文档中,听起来好像使用estimator_params参数支持这种类型的操作: estimator_params : dict Parameters for the external estimator. Useful for doing grid searches. 但是
..
我目前正在使用scikit-learn在基于树的方法的网格搜索(GridSearchCV)中研究递归特征消除(RFECV).为此,我使用的是GitHub(0.17)上的当前开发版本,该版本允许RFECV使用树方法中的功能重要性来选择要丢弃的功能. 为清楚起见,这意味着: 在超参数上循环使用当前树方法 对每组参数执行递归特征消除以获得最佳特征数 报告“分数"(例如准确性) 确定哪一
..
我有一个按时间序列作为数据输入的分类任务,其中每个属性(n = 23)代表一个特定的时间点.除了绝对分类结果之外,我还想知道,哪些属性/日期对结果有多大程度的贡献.因此,我只是使用feature_importances_,对我来说效果很好. 但是,我想知道如何计算它们以及使用哪种度量/算法.不幸的是,我找不到有关此主题的任何文档. 解决方案 确实有几种获取功能“重要性"的方法.通常,
..
这有效(主要来自sklearn的演示样本): print(__doc__) # Code source: Gaël Varoquaux # Modified for documentation by Jaques Grobler # License: BSD 3 clause import numpy as np import matplotlib.pyplot as plt fr
..
我试图了解如何在sci-kit学习中为决策树计算功能重要性。之前已经问过这个问题,但是我无法重现该算法提供的结果。 例如: 从StringIO导入StringIO 来自sklearn.datasets的 进口load_iris来自sklearn.tree的 进口DecisionTreeClassifier来自sklearn.tree.export的 来自sklearn.feature
..
你好,我使用来自xgboost的feature_importance绘制了一个图形。但是,该图返回“ f值”。我不知道图表中代表了哪个功能。我听说过如何解决此问题的一种方式是将数据框中的要素索引映射到feature_importance“ f-values”的索引,然后手动选择列。我该怎么做?另外,如果还有另一种方法可以帮助您,将不胜感激: 以下是我的代码: feature_impo
..
我遇到了下一个问题。我将数据分成10折。每次,我使用1倍作为测试集,而其他9倍作为训练集(我这样做10次)。在每个训练集上,我都进行特征选择(带有chi.squared的filter methode),然后用训练集和所选特征制作一个SVMmodel。 最后,我变成了10个不同的模型( (因为功能选择)。但是现在,我通常想通过这种过滤方法在R中制作ROC曲线。我该怎么办? Silke
..
我想问每个人有关相关特征(变量)如何影响机器学习算法分类精度的问题。具有相关特征的意思是它们之间的关联,而不是与目标类别的关联(即几何图形的周长和面积或教育水平和平均收入)。我认为相关特征会对分类算法的准确性产生负面影响,我想说是因为相关性使其中之一变得无用。真的是这样吗?问题是否随分类算法类型而变化?任何关于论文和讲座的建议都非常欢迎!谢谢 解决方案 相关功能本身不会影响分类准确性。现实
..
命令 xgb.importance 返回以 f得分衡量的功能重要性图。 该 f分数代表什么以及如何计算? 输出: 功能重要性图 解决方案 这是一个指标,它简单地总结了每个功能被分割了多少次。它类似于R版本中的“频率”指标。 https:// cran .r-project.org / web / packages / xgboost / xgboost.pdf 它与
..
我有一个文本和数字数据的CSV.我需要将其转换为Spark中的特征向量数据(双精度值).有什么办法吗? 例如,我看到每个关键字都映射到某个double值并使用该值进行转换的情况.但是,如果有多个关键字,则很难做到这一点. 还有其他出路吗?我看到Spark提供了提取器,它将转换为特征向量.有人可以举个例子吗? 48, Private, 105808, 9th, 5, Widowed
..