categorical-data相关内容

python中的二进制一键式(one-of-K)编码问题

二进制一热(也称为K之一)编码在于为分类变量的每个不同值创建一个二进制列.例如,如果一个颜色列(类别变量)的值是"red","blue","yellow"和"unknown",那么二进制一键编码会用二进制列"color =红色",“颜色=蓝色"和“颜色=黄色".我从熊猫数据框中的数据开始,我想使用此数据来通过scikit-learn训练模型.我知道执行二进制一键式编码的两种方法,但都不令我满意. ..
发布时间:2020-05-24 01:43:40 Python

熊猫获取dummies()以获取数字分类数据

我有2列: 性别(字符串类型的分类值为'male'和'female') 类(整数类型的分类值为1到10) 当我在以上两列上执行pd.get_dummies()时,只有“性别"被编码为两列.但是“类"不是由get_dummies函数转换的. 我也希望将“类"也转换为10个虚拟列,类似于“一次热编码". 这是预期的行为吗?有解决方法吗? 解决方案 您可以将值转换为字符 ..
发布时间:2020-05-24 01:11:47 Python

删除熊猫中未使用类别的更快方法?

我正在Python中运行某些模型,并在类别上添加了数据子集. 对于内存使用和预处理,所有类别变量都存储为类别数据类型. 对于“分组依据"列中分类变量的每个级别,我正在运行回归,在该回归中,我需要将所有分类变量重置为该子集中的分类变量. 我目前正在使用.cat.remove_unused_categories()进行此操作,这占用了我总运行时间的近50%.目前,最严重的违规者是我的 ..
发布时间:2020-05-24 01:08:42 Python

pd.get_dummies()在大级别上变慢

我不确定这是否已经是最快的方法,还是效率不高. 我想对具有27k +可能级别的特定类别列进行热编码.该列在2个不同的数据集中具有不同的值,因此在使用get_dummies()之前,我首先将级别进行了组合 def hot_encode_column_in_both_datasets(column_name,df,df2,sparse=True): col1b = set(df2[ ..
发布时间:2020-05-24 00:46:57 Python

如何在熊猫中将变量指定为序数/分类?

我正在尝试使用scikit-learn在数据集上运行一些机器学习算法.我的数据集具有一些类似于类别的功能.就像一个功能是A一样,它的值1,2,3指定事物的质量. 1:Upper, 2: Second, 3: Third class.因此,这是一个序数变量. 类似地,我将变量City重新编码,将三个值('London', Zurich', 'New York'转换为1,2,3,但对这些值没有特 ..
发布时间:2020-05-23 23:57:34 Python

使用pandas中的多个值从列中创建假人

我正在寻找一种处理以下问题的Python方法. pandas.get_dummies()方法非常适合从数据框的分类列创建虚拟对象.例如,如果该列的值在['A', 'B']中,则get_dummies()创建2个虚拟变量并相应地分配0或1. 现在,我需要处理这种情况.单列(称为“标签")的值类似于['A', 'B', 'C', 'D', 'A*C', 'C*D']. get_dummie ..
发布时间:2020-05-23 21:50:38 Python

熊猫:将类别转换为数字

假设我有一个包含以下国家的数据框: cc | temp US | 37.0 CA | 12.0 US | 35.0 AU | 20.0 我知道有一个pd.get_dummies函数可以将国家/地区转换为“一次性编码".但是,我希望将它们转换为索引,这样我将得到cc_index = [1,2,1,3]. 我假设有一种比使用get_dummies和numpy where子句更快的方法, ..
发布时间:2020-05-23 21:16:05 Python

使用带有包含新标签的数据的MultiIndex追加pandas DataFrame,但保留旧MultiIndex的整数位置

基本方案 对于推荐服务,我正在针对一组用户项目交互训练矩阵分解模型(LightFM).为了使矩阵分解模型产生最佳结果,我需要将用户ID和商品ID映射到从0开始的连续整数ID范围. 我在此过程中使用的是熊猫DataFrame,我发现MultiIndex可以非常方便地创建此映射,就像这样: ratings = [{'user_id': 1, 'item_id': 1, 'rating ..
发布时间:2020-05-18 22:17:26 Python

SQL子查询获取总数

使用SQL子查询,我如何获得每个经理(包括他的团队)的总项目和总收入? 假设我有带有列的此表items_revenue: 所有管理者(is_manager = 1)及其各自的成员都在上表中. Member1在Manager1下,Member2在Manager2下,依此类推,但实际数据是随机排列的. 我希望我的查询输出ff. 这与 SQL查询以获取某些行的小计,但我不想使用CASE表达式 ..
发布时间:2020-05-16 19:32:11 数据库

SQL查询以获取某些行的小计

如果我想获取每个经理(包括他的团队)的总项目和总收入,那SQL查询脚本将是什么? 假设我有此表items_revenue,其中包含列: | id |is_manager|manager_id| name |no_of_items| revenue | | 1 | 1 | 0 | Manager1 | 621 | 833 | | 2 | 1 | 0 | Manager2 | 458 | 62 ..
发布时间:2020-05-15 05:22:56 数据库

排序分类变量是否有优势?

我被告知最好在适当的地方对分类变量进行排序(例如,短小于小于中小于长).我想知道,在将分类变量建模为解释变量的情况下,将分类变量按顺序而不是简单分类进行处理有什么特殊优势?在数学上是什么意思(最好是外行!)? 非常感谢! 解决方案 在其他方面,它允许您比较这些因素的值: > ord.fac ..
发布时间:2020-05-10 19:16:59 其他开发