feature-selection相关内容

XGBoost-国家/地区功能应该是标签还是热编码?

我们的模型中有一个国家的特征,我们对它使用了标签编码器,例如: BEL-1, US-2, ENG-3, 等... XGBoost模型的最佳实践是将其用作数字还是对其执行一次热编码? 谢谢, TAL 推荐答案 没有黄金标准。 OHE更安全,因为它不会给类别引入人为的秩序。不利的一面是,它增加了具有多个唯一值的功能的内存占用,树可能会在数字功能上的拆分和如此多 ..
发布时间:2022-09-04 16:49:30 其他开发

标准化 SVM 的特征值

我一直在玩一些 SVM 实现,我想知道 - 将特征值标准化以适应一个范围的最佳方法是什么?(从 0 到 1) 假设我有 3 个特征值在以下范围内: 3 - 5. 0.02 - 0.05 10-15. 如何将所有这些值转换为 [0,1] 的范围? 如果在训练期间,我将遇到的特征编号 1 的最大值是 5,而在我开始在更大的数据集上使用我的模型后,我会偶然发现高达 7 ..

使用 Scikit-learn 计算信息增益

我正在使用 Scikit-learn 进行文本分类.我想针对(稀疏)文档项矩阵中的类计算每个属性的信息增益. 信息增益定义为H(Class) - H(Class | Attribute),其中H是熵. 使用weka,这可以通过信息增益属性.但是我在scikit-learn中没有找到这个度量. 然而,建议公式上述信息增益与互信息的度量相同.这也符合维基百科中的定义. 是否可以 ..

使用嵌套在 GridSearchCV 中的 RFECV 时,如何避免使用 estimator_params?

我目前正在使用 scikit-learn 为基于树的方法在网格搜索 (GridSearchCV) 中进行递归特征消除 (RFECV).为此,我使用了 GitHub 上的当前开发版本 (0.17),它允许 RFECV 使用树方法中的特征重要性来选择要丢弃的特征. 为清楚起见,这意味着: 循环当前树方法的超参数 对每组参数执行递归特征消除以获得最佳特征数 报告“分数"(例如准确性) ..
发布时间:2021-12-25 14:33:07 其他开发

使用 scikit-learn 进行递归特征消除和网格搜索

我想使用 scikit-learn 对每个特征子集进行嵌套网格搜索和交叉验证的递归特征消除.从 RFECV 文档看来,使用 estimator_params 参数支持这种类型的操作: estimator_params : dict外部估计器的参数.用于进行网格搜索. 但是,当我尝试将超参数网格传递给 RFECV 对象时 from sklearn.datasets import make_fr ..
发布时间:2021-12-25 14:30:33 其他开发

在 Scikit Learn 中运行 SelectKBest 后获取特征名称的最简单方法

我想进行监督学习. 直到现在我知道对所有特征进行监督学习. 不过,我也想对 K 个最好的特征进行实验. 我阅读了文档,发现在 Scikit 中学习了 SelectKBest 方法. 不幸的是,我不知道在找到那些最好的特征后如何创建新的数据框: 假设我想用 5 个最佳特征进行实验: from sklearn.feature_selection import Selec ..
发布时间:2021-12-25 14:28:07 Python

如何确定 RandomForestClassifier 中的 feature_importances?

我有一个以时间序列作为数据输入的分类任务,其中每个属性 (n=23) 代表一个特定的时间点.除了绝对分类结果,我想找出哪些属性/日期对结果的贡献程度.因此,我只是使用 feature_importances_,这对我来说效果很好. 但是,我想知道它们是如何计算的以及使用了哪种度量/算法.很遗憾,我找不到有关此主题的任何文档. 解决方案 确实有几种方法可以获取功能“重要性".通常,对于 ..
发布时间:2021-12-25 14:18:52 其他开发

将自定义函数放入 Sklearn 管道中

在我的分类方案中,有几个步骤,包括: SMOTE(合成少数过采样技术) Fisher 特征选择标准 标准化(Z 分数标准化) SVC(支持向量分类器) 上述方案中要调整的主要参数是百分位数 (2.) 和 SVC 的超参数 (4.),我想通过网格搜索进行调整. 当前的解决方案构建了一个“部分"管道包括方案中的第 3 步和第 4 步 clf = Pipeline([('norm ..

PCA 分析后的特征/变量重要性

我对原始数据集进行了 PCA 分析,并从 PCA 转换的压缩数据集中选择了我想要保留的 PC 数量(它们解释了几乎 94% 的差异).现在我正在努力识别在减少的数据集中很重要的原始特征.在降维后,如何找出哪些特征是重要的,哪些不在剩余的主成分中?这是我的代码: from sklearn.decomposition import PCApca = PCA(n_components=8)pca.fi ..

如何在apache spark中将文本和数字数据的混合转换为特征数据

我有一个包含文本和数字数据的 CSV.我需要将其转换为 Spark 中的特征向量数据(双值).有没有办法做到这一点? 我看到一些例如每个关键字都映射到一些双值并使用它进行转换的地方.但是如果有多个关键字,就很难做到这一点. 还有其他出路吗?我看到 Spark 提供了可转换为特征向量的提取器.有人可以举个例子吗? 48, Private, 105808, 9th, 5, Widowed ..
发布时间:2021-11-14 21:13:06 其他开发

apache spark MLLib:如何为字符串特征构建标记点?

我正在尝试使用 Spark 的 MLLib 构建一个 NaiveBayes 分类器,该分类器将一组文档作为输入. 我想把一些东西作为特征(即作者、显式标签、隐式关键字、类别),但查看 文档 似乎 LabeledPoint 只包含双打,即它看起来像 LabeledPoint[Double, List[配对[Double,Double]]. 相反,我的其余代码的输出将类似于 Labeled ..

在spark中进行特征选择后使测试数据的特征与训练数据相同

我正在研究 Scala.我有一个大问题, ChiSqSelector 似乎成功地减少了维度,但我无法确定哪些特征被减少了,剩下的部分.我如何知道减少了哪些功能? [WrappedArray(a, b, c),(5,[1,2,3],[1,1,1]),(2,[0],[1])][WrappedArray(b, d, e),(5,[0,2,4],[1,1,2]),(2,[1],[2])][Wrapped ..

Sklearn VarianceThreshold 不去除低方差特征

这是我在这里的第一篇文章.如果您有关于更有效提问的建议,我很想听听. 我正在使用 Mercedez benz 数据集,它可以在 kaggle 此处.该数据集有 369 个数值特征.删除目标方差和分类特征后,我希望删除低方差特征.我正在使用 Sklearn 的方差阈值. 我将包含代码,但这些步骤似乎很简单.我玩过阈值参数,但每次我拉出转换数据集的形状时,它都有相同的 369 个特征. ..
发布时间:2021-07-16 20:19:27 Python

使用sklearn进行多标签特征选择

我希望使用 sklearn 对多标签数据集执行特征选择.我想获得跨标签的最后一组特征,然后我将在另一个机器学习包中使用这些特征.我打算使用我在这里看到的方法,分别为每个标签选择相关特征. from sklearn.svm import LinearSVC从 sklearn.feature_selection 导入 chi2,SelectKBest从 sklearn.multiclass 导入 O ..

计算VIF(方差膨胀因子)时出错

在Rstudio中的小型数据集上计算VIF时,出现以下错误.有人可以帮忙吗?如果需要,我可以提供有关数据集的更多信息. "as.vector(y)中的错误-二进制的mean(y)非数字参数运算符". 数据集:80磅.和15个变量(所有变量都是数字) 已执行的步骤: #1.确定相关性图书馆(Corrplot)cor.data ..
发布时间:2021-05-06 20:32:44 其他开发

LinearSVC功能选择在Python中返回不同的coef_

我在训练数据集上使用带有LinearSVC的SelectFromModel.训练和测试集已经拆分,并保存在单独的文件中.当我将LinearSVC安装在训练集上时,我得到了一组coef_ [0],我试图找到这些最重要的特征.当我重新运行脚本时,即使它在相同的训练数据上,我也会得到不同的coef_ [0]值.为什么会这样? 请参见下面的代码片段(也许有一个我没有看到的错误): fig = p ..
发布时间:2021-05-06 20:32:41 Python