feature-engineering - IT屋-程序员软件开发技术分享社区

如何获得具有预处理和分类步骤的决策树管道的特征重要性？

我正在尝试将决策树模型适用于UCI成人数据集。为此，我构建了以下管道： nominal_features = ['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'native-country'] nominal_transfor ..

发布时间：2022-04-09 18:23:23 python scikit-learn pipeline decision-tree feature-engineering Python

用于分类特征的 LabelEncoder?

这可能是一个初学者问题，但我看到很多人使用 LabelEncoder() 将分类变量替换为序数.很多人通过一次传递多个列来使用此功能，但是我对某些功能中的顺序错误以及它将如何影响我的模型有些怀疑.下面是一个例子: 输入将pandas导入为pd将 numpy 导入为 np从 sklearn.preprocessing 导入 LabelEncodera = pd.DataFrame(['高' ..

发布时间：2021-12-14 09:21:30 python machine-learning scikit-learn correlation feature-engineering AI人工智能

我正在使用非常混乱的 Open Food Facts 数据集.有一个称为数量的列，其中包含有关相应食物数量的信息.条目看起来像: 365 克(314 毫升)992 克2.46公斤0,33 升15.87 盎司250毫升1升33厘升 ...等等(非常凌乱！！！)我想创建一个名为 is_liquid 的新列.我的想法是，如果数量字符串包含 l 或 L，则该行中的 is_liquid 字段应为 1，否 ..

发布时间：2021-11-16 23:22:32 python regex pandas apply feature-engineering Python

如何通过FeatureTools中的多个ID创建新变量?

我有一个数据集，该数据集的每个成员和每个事务都有一行，并且购买的商店可能来自"brand_id".我想使用featuretools进行输出，每个成员只有一行，每个品牌ID的总收入为“收入". 我想要什么: 将特征工具导入为ft将熊猫作为pd导入df = pd.DataFrame({'member_id':[1,1,1,1,2,2,3,4,4,4,4,4,5,5,5]，'transactio ..

发布时间：2021-05-13 19:48:14 python pandas group-by feature-engineering featuretools Python

KMeans聚类不平衡数据

我有一组具有50个特征(c1，c2，c3 ...)的数据，具有超过8万行. 每行都包含归一化的数值(范围为0-1).它实际上是一个归一化的伪变量，其中某些行仅具有3-4个很少的功能(即，如果没有值，则分配0).大多数行具有大约10-20个功能. 我使用KMeans对数据进行聚类，总是导致具有大量成员的聚类.经过分析，我注意到具有少于4个特征的行趋于聚集在一起，这不是我想要的. 总 ..

发布时间：2021-02-15 19:03:03 python cluster-analysis k-means data-science feature-engineering Python

根据字母"l"或"L"是否在另一列的字符串中创建新列

我正在使用Open Food Facts数据集，该数据集非常混乱. 有一个称为数量的列，其中包含有关相应食物数量的信息. 条目看起来像: 365 g (314 ml) 992 g 2.46 kg 0,33 litre 15.87oz 250 ml 1 L 33 cl ...等等(非常混乱！) 我想创建一个名为is_liquid的新列. 我的想法是，如 ..

发布时间：2020-06-14 19:17:35 python regex pandas apply feature-engineering Python

结合两个财务数据集，互动帐户余额随时间变化

我有一个与金融交易数据集有关的问题. 我有两个数据集: 第一个包含带有时间戳记的金融交易. Account_from Account_to Value Timestamp 1 1 2 25 1 2 1 3 25 1 3 2 ..

发布时间：2020-06-14 19:17:32 r feature-engineering 其他开发

在python中将字典转换为二进制

我有一本词典，键是我的客户ID，值是我的电影ID.尽管客户已经看过同一部电影很多次，但我还是希望将其制作成一部. 在这里，我需要将字典转换为二进制数据. 在所有行中，我都需要客户ID和列作为电影ID，如果客户已经看过电影，则给出1，否则为0. d = {'121212121' : 111, 222, 333, 333,444, 444, '212121212' : 222, 555, 555 ..

发布时间：2020-05-24 03:55:08 python pandas feature-engineering Python

分类特征相关

我的数据中有一些连续的分类特征.对类别特征进行热编码以使其与其他连续生物一起与标签相关联，这是一个好主意还是绝对坏主意? 解决方案有一种无需对类别变量进行一次热编码就可以计算相关系数的方法. Cramers V统计量是一种用于计算分类变量的相关性的方法.可以如下计算.以下链接很有帮助. 使用熊猫，计算Cramér系数矩阵对于其他连续变量值，可以使用pandas的cut进行分类. i ..

发布时间：2020-05-04 09:28:01 pandas machine-learning categorical-data feature-engineering AI人工智能

用于分类功能的LabelEncoder?

这可能是一个初学者的问题，但是我已经看到很多人使用LabelEncoder()来将分类变量替换为常规变量.很多人一次通过传递多列来使用此功能，但是我对某些功能中的错误序数及其对模型的影响会产生疑问.这是一个示例: 输入 import pandas as pd import numpy as np from sklearn.preprocessing import LabelEncode ..

发布时间：2020-05-04 08:57:58 python machine-learning scikit-learn correlation feature-engineering AI人工智能

feature-engineering相关内容