feature-selection相关内容
我们的模型中有一个国家的特征,我们对它使用了标签编码器,例如: BEL-1, US-2, ENG-3, 等... XGBoost模型的最佳实践是将其用作数字还是对其执行一次热编码? 谢谢, TAL 推荐答案 没有黄金标准。 OHE更安全,因为它不会给类别引入人为的秩序。不利的一面是,它增加了具有多个唯一值的功能的内存占用,树可能会在数字功能上的拆分和如此多
..
当我绘制要素重要性图时,我得到了这个杂乱的图。我有超过7000个变量。我知道内置函数只选择最重要的部分,尽管最终的图形不可读。 以下是完整的代码: import numpy as np import pandas as pd df = pd.read_csv('ricerice.csv') array=df.values X = array[:,0:7803] Y = array[:,780
..
我一直在玩一些 SVM 实现,我想知道 - 将特征值标准化以适应一个范围的最佳方法是什么?(从 0 到 1) 假设我有 3 个特征值在以下范围内: 3 - 5. 0.02 - 0.05 10-15. 如何将所有这些值转换为 [0,1] 的范围? 如果在训练期间,我将遇到的特征编号 1 的最大值是 5,而在我开始在更大的数据集上使用我的模型后,我会偶然发现高达 7
..
我正在使用 Scikit-learn 进行文本分类.我想针对(稀疏)文档项矩阵中的类计算每个属性的信息增益. 信息增益定义为H(Class) - H(Class | Attribute),其中H是熵. 使用weka,这可以通过信息增益属性.但是我在scikit-learn中没有找到这个度量. 然而,建议公式上述信息增益与互信息的度量相同.这也符合维基百科中的定义. 是否可以
..
我试图了解如何在 sci-kit learn 中为决策树计算特征重要性.之前已经问过这个问题,但我无法重现算法提供的结果. 例如: from StringIO import StringIO从 sklearn.datasets 导入 load_iris从 sklearn.tree 导入 DecisionTreeClassifier从 sklearn.tree.export 导入 expor
..
这有效(主要来自 sklearn 的演示示例): print(__doc__)# 代码来源:Gaël Varoquaux# 由 Jaques Grobler 修改文档# 许可证:BSD 3 条款将 numpy 导入为 np导入 matplotlib.pyplot 作为 pltfrom sklearn import linear_model, 分解, 数据集从 sklearn.pipeline 导
..
我目前正在使用 scikit-learn 为基于树的方法在网格搜索 (GridSearchCV) 中进行递归特征消除 (RFECV).为此,我使用了 GitHub 上的当前开发版本 (0.17),它允许 RFECV 使用树方法中的特征重要性来选择要丢弃的特征. 为清楚起见,这意味着: 循环当前树方法的超参数 对每组参数执行递归特征消除以获得最佳特征数 报告“分数"(例如准确性)
..
我想使用 scikit-learn 对每个特征子集进行嵌套网格搜索和交叉验证的递归特征消除.从 RFECV 文档看来,使用 estimator_params 参数支持这种类型的操作: estimator_params : dict外部估计器的参数.用于进行网格搜索. 但是,当我尝试将超参数网格传递给 RFECV 对象时 from sklearn.datasets import make_fr
..
我想进行监督学习. 直到现在我知道对所有特征进行监督学习. 不过,我也想对 K 个最好的特征进行实验. 我阅读了文档,发现在 Scikit 中学习了 SelectKBest 方法. 不幸的是,我不知道在找到那些最好的特征后如何创建新的数据框: 假设我想用 5 个最佳特征进行实验: from sklearn.feature_selection import Selec
..
我有一个以时间序列作为数据输入的分类任务,其中每个属性 (n=23) 代表一个特定的时间点.除了绝对分类结果,我想找出哪些属性/日期对结果的贡献程度.因此,我只是使用 feature_importances_,这对我来说效果很好. 但是,我想知道它们是如何计算的以及使用了哪种度量/算法.很遗憾,我找不到有关此主题的任何文档. 解决方案 确实有几种方法可以获取功能“重要性".通常,对于
..
我是机器学习的新手.我正在准备使用 Scikit Learn SVM 进行分类的数据.为了选择最佳功能,我使用了以下方法: SelectKBest(chi2, k=10).fit_transform(A1, A2) 由于我的数据集包含负值,因此出现以下错误: ValueError Traceback(最近一次调用最后一次)/media/5804B87404B856AA/TFM_UC3M/te
..
在我的分类方案中,有几个步骤,包括: SMOTE(合成少数过采样技术) Fisher 特征选择标准 标准化(Z 分数标准化) SVC(支持向量分类器) 上述方案中要调整的主要参数是百分位数 (2.) 和 SVC 的超参数 (4.),我想通过网格搜索进行调整. 当前的解决方案构建了一个“部分"管道包括方案中的第 3 步和第 4 步 clf = Pipeline([('norm
..
我对原始数据集进行了 PCA 分析,并从 PCA 转换的压缩数据集中选择了我想要保留的 PC 数量(它们解释了几乎 94% 的差异).现在我正在努力识别在减少的数据集中很重要的原始特征.在降维后,如何找出哪些特征是重要的,哪些不在剩余的主成分中?这是我的代码: from sklearn.decomposition import PCApca = PCA(n_components=8)pca.fi
..
我有一个包含文本和数字数据的 CSV.我需要将其转换为 Spark 中的特征向量数据(双值).有没有办法做到这一点? 我看到一些例如每个关键字都映射到一些双值并使用它进行转换的地方.但是如果有多个关键字,就很难做到这一点. 还有其他出路吗?我看到 Spark 提供了可转换为特征向量的提取器.有人可以举个例子吗? 48, Private, 105808, 9th, 5, Widowed
..
我正在尝试使用 Spark 的 MLLib 构建一个 NaiveBayes 分类器,该分类器将一组文档作为输入. 我想把一些东西作为特征(即作者、显式标签、隐式关键字、类别),但查看 文档 似乎 LabeledPoint 只包含双打,即它看起来像 LabeledPoint[Double, List[配对[Double,Double]]. 相反,我的其余代码的输出将类似于 Labeled
..
我正在研究 Scala.我有一个大问题, ChiSqSelector 似乎成功地减少了维度,但我无法确定哪些特征被减少了,剩下的部分.我如何知道减少了哪些功能? [WrappedArray(a, b, c),(5,[1,2,3],[1,1,1]),(2,[0],[1])][WrappedArray(b, d, e),(5,[0,2,4],[1,1,2]),(2,[1],[2])][Wrapped
..
这是我在这里的第一篇文章.如果您有关于更有效提问的建议,我很想听听. 我正在使用 Mercedez benz 数据集,它可以在 kaggle 此处.该数据集有 369 个数值特征.删除目标方差和分类特征后,我希望删除低方差特征.我正在使用 Sklearn 的方差阈值. 我将包含代码,但这些步骤似乎很简单.我玩过阈值参数,但每次我拉出转换数据集的形状时,它都有相同的 369 个特征.
..
我希望使用 sklearn 对多标签数据集执行特征选择.我想获得跨标签的最后一组特征,然后我将在另一个机器学习包中使用这些特征.我打算使用我在这里看到的方法,分别为每个标签选择相关特征. from sklearn.svm import LinearSVC从 sklearn.feature_selection 导入 chi2,SelectKBest从 sklearn.multiclass 导入 O
..
在Rstudio中的小型数据集上计算VIF时,出现以下错误.有人可以帮忙吗?如果需要,我可以提供有关数据集的更多信息. "as.vector(y)中的错误-二进制的mean(y)非数字参数运算符". 数据集:80磅.和15个变量(所有变量都是数字) 已执行的步骤: #1.确定相关性图书馆(Corrplot)cor.data
..
我在训练数据集上使用带有LinearSVC的SelectFromModel.训练和测试集已经拆分,并保存在单独的文件中.当我将LinearSVC安装在训练集上时,我得到了一组coef_ [0],我试图找到这些最重要的特征.当我重新运行脚本时,即使它在相同的训练数据上,我也会得到不同的coef_ [0]值.为什么会这样? 请参见下面的代码片段(也许有一个我没有看到的错误): fig = p
..