feature-selection 第3页 - IT屋-程序员软件开发技术分享社区

所有中间步骤均应为变形器，并进行拟合和转换

我正在使用重要的特征选择来实现管道，然后使用相同的特征来训练我的随机森林分类器.以下是我的代码. m = ExtraTreesClassifier(n_estimators = 10) m.fit(train_cv_x,train_cv_y) sel = SelectFromModel(m, prefit=True) X_new = sel.transform(train_cv_x) clf ..

发布时间：2020-11-03 23:59:58 python machine-learning scikit-learn feature-selection AI人工智能

sklearn随机森林索引的功能如何_重要_

我已使用sklearn中的RandomForestClassifier确定数据集中的重要特征.如何返回实际的特征名称(我的变量分别标记为x1，x2，x3等)，而不是它们的相对名称(它告诉我重要的特征是"12"，"22"等).下面是我目前用于返回重要功能的代码. important_features = [] for x,i in enumerate(rf.feature_importance ..

发布时间：2020-11-03 23:59:54 python scikit-learn random-forest feature-selection Python

选择Scikit功能后保留功能名称

从Scikit-Learn对一组数据运行方差阈值后，它将删除几个功能.我觉得我在做一些简单而又愚蠢的事情，但是我想保留其余功能的名称.以下代码: def VarianceThreshold_selector(data): selector = VarianceThreshold(.5) selector.fit(data) selector = (pd.DataFr ..

发布时间：2020-11-03 23:59:52 python pandas scikit-learn output feature-selection Python

管道中的python功能选择:如何确定功能名称?

我使用管道和grid_search选择最佳参数，然后使用这些参数来拟合最佳管道("best_pipe").但是，由于feature_selection(SelectKBest)在管道中，因此没有适合SelectKBest的应用. 我需要知道'k'个选定特征的特征名称.有什么想法如何找回它们吗?预先谢谢你 from sklearn import (cross_validation, fe ..

发布时间：2020-11-03 23:59:49 scikit-learn pipeline feature-selection 其他开发

随机森林的varImp(插入符号)和重要性(randomForest)之间的差异

我不知道随机森林模型的varImp函数(caret程序包)和importance函数(randomForest程序包)之间的区别是什么我计算了一个简单的RF分类模型，当计算变量重要性时，我发现两个函数的预测变量的“排名"不同: 这是我的代码: rfImp ..

发布时间：2020-11-03 23:59:45 r random-forest r-caret feature-selection 其他开发

PCA(主成分分析)和特征选择之间的区别

机器学习中的主成分分析(PCA)和特征选择之间有什么区别? PCA是功能选择的一种手段吗? 解决方案 PCA是一种方法，可以找出哪些特征对于最佳描述数据集中的方差非常重要.它最常用于减少大数据集的维数，以便在原始数据本来就具有高维(例如图像识别)的情况下应用机器学习变得更加实用. 但是， PCA有局限性，因为它依赖于要素元素之间的线性关系，并且在开始之前通常不清楚它们之间的关系.由于它 ..

发布时间：2020-11-03 23:58:35 machine-learning pca feature-selection AI人工智能

在sklearn中的CountVectorizer中理解`ngram_range`参数

我对如何在Python的scikit-learn库中使用ngram感到有些困惑，特别是ngram_range参数在CountVectorizer中的工作方式. 运行此代码: from sklearn.feature_extraction.text import CountVectorizer vocabulary = ['hi ', 'bye', 'run away'] cv = Co ..

发布时间：2020-11-03 23:57:27 python scikit-learn n-gram feature-selection Python

如何使用混合离散和连续特征的互信息来选择KBest?

我正在使用scikit学习训练分类模型.我的训练数据同时具有离散和连续特征.我想使用最大的相互信息来进行特征选择.如果我有矢量x和标签y，并且前三个特征值是离散的，则可以这样获得MMI值: mutual_info_classif(x, y, discrete_features=[0, 1, 2]) 现在，我想在管道中使用相同的相互信息选择.我想做这样的事情 SelectKBest( ..

发布时间：2020-11-03 23:57:24 scikit-learn feature-selection 其他开发

SciKit-Learn标签编码器导致错误“参数必须是字符串或数字"

我有点困惑-在这里创建ML模型. 我正在尝试从“大"数据框(180列)中获取分类特征并对其进行一次热分析，以便我可以找到特征之间的相关性并选择“最佳"特征. 这是我的代码: # import labelencoder from sklearn.preprocessing import LabelEncoder # instantiate labelencoder object ..

发布时间：2020-11-03 23:56:22 python machine-learning scikit-learn feature-selection one-hot-encoding AI人工智能

R插入包rfe永远不会完成错误任务1失败-“替换长度为零".

我最近开始研究我正在开发的模型的插入符号包.我正在使用最新版本.第一步，我决定将其用于功能选择.我正在使用的数据具有约760个功能和10k观测值.我根据在线培训材料创建了一个简单的函数.不幸的是，我始终遇到错误，因此该过程永远无法完成.这是产生错误的代码.在此示例中，我使用了一小部分功能.我从全套功能开始.我还更改了子集，折叠次数和重复次数都无济于事.我知道没有数据将很难找到问题所在.我有共享数据 ..

发布时间：2020-11-03 23:56:19 r r-caret feature-selection 其他开发

使用scikit-learn进行递归特征消除和网格搜索

我想使用scikit-learn通过嵌套网格搜索和交叉验证对每个特征子集执行递归特征消除.在 RFECV 文档中，听起来好像使用estimator_params参数支持这种类型的操作: estimator_params : dict Parameters for the external estimator. Useful for doing grid searches. 但是 ..

发布时间：2020-11-03 23:56:15 scikit-learn feature-selection 其他开发

使用嵌套在GridSearchCV中的RFECV时，如何避免使用estimator_params?

我目前正在使用scikit-learn在基于树的方法的网格搜索(GridSearchCV)中研究递归特征消除(RFECV).为此，我使用的是GitHub(0.17)上的当前开发版本，该版本允许RFECV使用树方法中的功能重要性来选择要丢弃的功能. 为清楚起见，这意味着: 在超参数上循环使用当前树方法对每组参数执行递归特征消除以获得最佳特征数报告“分数"(例如准确性) 确定哪一 ..

发布时间：2020-11-03 23:56:10 scikit-learn feature-selection grid-search 其他开发

如何确定RandomForestClassifier中的feature_importances?

我有一个按时间序列作为数据输入的分类任务，其中每个属性(n = 23)代表一个特定的时间点.除了绝对分类结果之外，我还想知道，哪些属性/日期对结果有多大程度的贡献.因此，我只是使用feature_importances_，对我来说效果很好. 但是，我想知道如何计算它们以及使用哪种度量/算法.不幸的是，我找不到有关此主题的任何文档. 解决方案确实有几种获取功能“重要性"的方法.通常， ..

发布时间：2020-11-03 23:56:08 scikit-learn random-forest feature-selection 其他开发

最佳发现的PCA估计器用作RFECV中的估计器

这有效(主要来自sklearn的演示样本): print(__doc__) # Code source: Gaël Varoquaux # Modified for documentation by Jaques Grobler # License: BSD 3 clause import numpy as np import matplotlib.pyplot as plt fr ..

发布时间：2020-11-03 23:54:05 scikit-learn regression feature-extraction feature-selection 其他开发

scikit学习-决策树中的特征重要性计算

我试图了解如何在sci-kit学习中为决策树计算功能重要性。之前已经问过这个问题，但是我无法重现该算法提供的结果。例如：从StringIO导入StringIO 来自sklearn.datasets的进口load_iris来自sklearn.tree的进口DecisionTreeClassifier来自sklearn.tree.export的来自sklearn.feature ..

发布时间：2020-10-19 19:15:05 python scikit-learn decision-tree feature-selection Python

将专长重要性的索引映射到数据框中的列的索引

你好，我使用来自xgboost的feature_importance绘制了一个图形。但是，该图返回“ f值”。我不知道图表中代表了哪个功能。我听说过如何解决此问题的一种方式是将数据框中的要素索引映射到feature_importance“ f-values”的索引，然后手动选择列。我该怎么做？另外，如果还有另一种方法可以帮助您，将不胜感激：以下是我的代码： feature_impo ..

发布时间：2020-10-17 22:25:44 python feature-selection data-science xgboost Python

特征选择+交叉验证，但是如何在R中制作ROC曲线

我遇到了下一个问题。我将数据分成10折。每次，我使用1倍作为测试集，而其他9倍作为训练集（我这样做10次）。在每个训练集上，我都进行特征选择（带有chi.squared的filter methode），然后用训练集和所选特征制作一个SVMmodel。最后，我变成了10个不同的模型（（因为功能选择）。但是现在，我通常想通过这种过滤方法在R中制作ROC曲线。我该怎么办？ Silke ..

发布时间：2020-10-11 19:59:58 r feature-selection cross-validation roc 其他开发

XGBoost软件包中的功能得分（/重要性）如何计算？

命令 xgb.importance 返回以 f得分衡量的功能重要性图。该 f分数代表什么以及如何计算？输出：功能重要性图解决方案这是一个指标，它简单地总结了每个功能被分割了多少次。它类似于R版本中的“频率”指标。 https：// cran .r-project.org / web / packages / xgboost / xgboost.pdf 它与 ..

发布时间：2020-10-02 03:01:40 python r classification feature-selection xgboost Python

如何将文本和数字数据的混合转换为Apache Spark中的特征数据

我有一个文本和数字数据的CSV.我需要将其转换为Spark中的特征向量数据(双精度值).有什么办法吗? 例如，我看到每个关键字都映射到某个double值并使用该值进行转换的情况.但是，如果有多个关键字，则很难做到这一点. 还有其他出路吗?我看到Spark提供了提取器，它将转换为特征向量.有人可以举个例子吗? 48, Private, 105808, 9th, 5, Widowed ..

发布时间：2020-09-04 18:48:05 apache-spark apache-spark-mllib feature-selection 其他开发

feature-selection相关内容