feature-engineering相关内容
我正在尝试将决策树模型适用于UCI成人数据集。为此,我构建了以下管道: nominal_features = ['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'native-country'] nominal_transfor
..
这可能是一个初学者问题,但我看到很多人使用 LabelEncoder() 将分类变量替换为序数.很多人通过一次传递多个列来使用此功能,但是我对某些功能中的顺序错误以及它将如何影响我的模型有些怀疑.下面是一个例子: 输入 将pandas导入为pd将 numpy 导入为 np从 sklearn.preprocessing 导入 LabelEncodera = pd.DataFrame(['高'
..
我正在使用非常混乱的 Open Food Facts 数据集.有一个称为数量的列,其中包含有关相应食物数量的信息.条目看起来像: 365 克(314 毫升)992 克2.46公斤0,33 升15.87 盎司250毫升1升33厘升 ...等等(非常凌乱!!!)我想创建一个名为 is_liquid 的新列.我的想法是,如果数量字符串包含 l 或 L,则该行中的 is_liquid 字段应为 1,否
..
我有一个数据集,该数据集的每个成员和每个事务都有一行,并且购买的商店可能来自"brand_id".我想使用featuretools进行输出,每个成员只有一行,每个品牌ID的总收入为“收入". 我想要什么: 将特征工具导入为ft将熊猫作为pd导入df = pd.DataFrame({'member_id':[1,1,1,1,2,2,3,4,4,4,4,4,5,5,5],'transactio
..
我有一组具有50个特征(c1,c2,c3 ...)的数据,具有超过8万行. 每行都包含归一化的数值(范围为0-1).它实际上是一个归一化的伪变量,其中某些行仅具有3-4个很少的功能(即,如果没有值,则分配0).大多数行具有大约10-20个功能. 我使用KMeans对数据进行聚类,总是导致具有大量成员的聚类.经过分析,我注意到具有少于4个特征的行趋于聚集在一起,这不是我想要的. 总
..
我正在使用Open Food Facts数据集,该数据集非常混乱. 有一个称为数量的列,其中包含有关相应食物数量的信息. 条目看起来像: 365 g (314 ml) 992 g 2.46 kg 0,33 litre 15.87oz 250 ml 1 L 33 cl ...等等(非常混乱!) 我想创建一个名为is_liquid的新列. 我的想法是,如
..
我有一个与金融交易数据集有关的问题. 我有两个数据集: 第一个包含带有时间戳记的金融交易. Account_from Account_to Value Timestamp 1 1 2 25 1 2 1 3 25 1 3 2
..
我有一本词典,键是我的客户ID,值是我的电影ID.尽管客户已经看过同一部电影很多次,但我还是希望将其制作成一部. 在这里,我需要将字典转换为二进制数据. 在所有行中,我都需要客户ID和列作为电影ID,如果客户已经看过电影,则给出1,否则为0. d = {'121212121' : 111, 222, 333, 333,444, 444, '212121212' : 222, 555, 555
..
我的数据中有一些连续的分类特征.对类别特征进行热编码以使其与其他连续生物一起与标签相关联,这是一个好主意还是绝对坏主意? 解决方案 有一种无需对类别变量进行一次热编码就可以计算相关系数的方法. Cramers V统计量是一种用于计算分类变量的相关性的方法.可以如下计算.以下链接很有帮助. 使用熊猫,计算Cramér系数矩阵对于其他连续变量值,可以使用pandas的cut进行分类. i
..
这可能是一个初学者的问题,但是我已经看到很多人使用LabelEncoder()来将分类变量替换为常规变量.很多人一次通过传递多列来使用此功能,但是我对某些功能中的错误序数及其对模型的影响会产生疑问.这是一个示例: 输入 import pandas as pd import numpy as np from sklearn.preprocessing import LabelEncode
..