categorical-data 第7页 - IT屋-程序员软件开发技术分享社区

有什么方法可以在Python熊猫中获取标签编码器的映射?

我正在使用以下代码将字符串转换为数据集中的分类值. data['weekday'] = pd.Categorical.from_array(data.weekday).labels 例如， index weekday 0 Sunday 1 Sunday 2 Wednesday 3 Monday 4 Mon ..

发布时间：2020-05-24 01:45:24 python pandas categorical-data Python

二进制一热(也称为K之一)编码在于为分类变量的每个不同值创建一个二进制列.例如，如果一个颜色列(类别变量)的值是"red"，"blue"，"yellow"和"unknown"，那么二进制一键编码会用二进制列"color =红色"，“颜色=蓝色"和“颜色=黄色".我从熊猫数据框中的数据开始，我想使用此数据来通过scikit-learn训练模型.我知道执行二进制一键式编码的两种方法，但都不令我满意. ..

发布时间：2020-05-24 01:43:40 python pandas scikit-learn categorical-data Python

如何关联熊猫中的“分类类别"列?

我有一个带有非数字列CatColumn的DataFrame df. A B CatColumn 0 381.1396 7.343921 Medium 1 481.3268 6.786945 Medium 2 263.3766 7.628746 High 3 177.2400 5.225647 Medium-High 我想在关联 ..

发布时间：2020-05-24 01:43:03 python pandas scikit-learn correlation categorical-data Python

pandas dataframe将列类型转换为字符串或分类

如何将熊猫数据框的单个列转换为字符串类型?在下面的住房数据df中，我需要将邮政编码转换为字符串，以便在运行线性回归时，邮政编码被视为分类而非数字.谢谢！ df = pd.DataFrame({'zipcode': {17384: 98125, 2680: 98107, 722: 98005, 18754: 98109, 14554: 98155}, 'bathrooms': {17384: ..

发布时间：2020-05-24 01:41:40 pandas dataframe type-conversion categorical-data Python

熊猫获取dummies()以获取数字分类数据

我有2列: 性别(字符串类型的分类值为'male'和'female') 类(整数类型的分类值为1到10) 当我在以上两列上执行pd.get_dummies()时，只有“性别"被编码为两列.但是“类"不是由get_dummies函数转换的. 我也希望将“类"也转换为10个虚拟列，类似于“一次热编码". 这是预期的行为吗?有解决方法吗? 解决方案您可以将值转换为字符 ..

发布时间：2020-05-24 01:11:47 pandas encoding categorical-data Python

删除熊猫中未使用类别的更快方法?

我正在Python中运行某些模型，并在类别上添加了数据子集. 对于内存使用和预处理，所有类别变量都存储为类别数据类型. 对于“分组依据"列中分类变量的每个级别，我正在运行回归，在该回归中，我需要将所有分类变量重置为该子集中的分类变量. 我目前正在使用.cat.remove_unused_categories()进行此操作，这占用了我总运行时间的近50％.目前，最严重的违规者是我的 ..

发布时间：2020-05-24 01:08:42 python pandas categorical-data Python

pd.get_dummies()在大级别上变慢

我不确定这是否已经是最快的方法，还是效率不高. 我想对具有27k +可能级别的特定类别列进行热编码.该列在2个不同的数据集中具有不同的值，因此在使用get_dummies()之前，我首先将级别进行了组合 def hot_encode_column_in_both_datasets(column_name,df,df2,sparse=True): col1b = set(df2[ ..

发布时间：2020-05-24 00:46:57 python pandas categorical-data Python

Pandas DataFrame按分类列排序，但按特定的类排序

我想通过使用df_selected = df_targets.head(N)在特定列的条目的基础上选择Pandas数据框中的顶部条目. 每个条目都有一个target值(按重要性顺序): Likely Supporter, GOTV, Persuasion, Persuasion+GOTV 不幸的是 df_targets = df_targets.sort("target" ..

发布时间：2020-05-24 00:28:54 python-2.7 sorting pandas dataframe categorical-data Python

如何从字符串列生成分类的Pandas DataFrame列?

我可以将pandas字符串列转换为Categorical，但是当我尝试将其作为新的DataFrame列插入时，似乎可以转换回str系列: train['LocationNFactor'] = pd.Categorical.from_array(train['LocationNormalized']) >>> type(pd.Categorical.from_array(train['Loc ..

发布时间：2020-05-24 00:26:15 pandas categorical-data Python

如何在熊猫中将变量指定为序数/分类?

我正在尝试使用scikit-learn在数据集上运行一些机器学习算法.我的数据集具有一些类似于类别的功能.就像一个功能是A一样，它的值1,2,3指定事物的质量. 1:Upper, 2: Second, 3: Third class.因此，这是一个序数变量. 类似地，我将变量City重新编码，将三个值('London', Zurich', 'New York'转换为1,2,3，但对这些值没有特 ..

发布时间：2020-05-23 23:57:34 python pandas scikit-learn categorical-data Python

将较不频繁的类别重命名为"OTHER". Python

在我的数据框中，我有一些带有100多个不同类别的分类列.我想按最频繁的类别进行排名.我保留了前9个最频繁的类别，而不那么频繁的类别则通过以下方式自动将其重命名:OTHER 示例: 这是我的df: print(df) Employee_number Jobrol 0 1 Sales Execut ..

发布时间：2020-05-23 23:19:05 python pandas dataframe counter categorical-data Python

使用pandas中的多个值从列中创建假人

我正在寻找一种处理以下问题的Python方法. pandas.get_dummies()方法非常适合从数据框的分类列创建虚拟对象.例如，如果该列的值在['A', 'B']中，则get_dummies()创建2个虚拟变量并相应地分配0或1. 现在，我需要处理这种情况.单列(称为“标签")的值类似于['A', 'B', 'C', 'D', 'A*C', 'C*D']. get_dummie ..

发布时间：2020-05-23 21:50:38 python pandas dummy-data categorical-data Python

在熊猫中分解一列字符串

正如问题所述，我有一个数据框df_original，它很大，但是看起来像: ID Count Column 2 Column 3 Column 4 RowX 1 234. 255. yes. 452 RowY 1 123. 135. no. 342 RowW 1 ..

发布时间：2020-05-23 21:21:36 python pandas dataframe categorical-data Python

熊猫:将类别转换为数字

假设我有一个包含以下国家的数据框: cc | temp US | 37.0 CA | 12.0 US | 35.0 AU | 20.0 我知道有一个pd.get_dummies函数可以将国家/地区转换为“一次性编码".但是，我希望将它们转换为索引，这样我将得到cc_index = [1,2,1,3]. 我假设有一种比使用get_dummies和numpy where子句更快的方法， ..

发布时间：2020-05-23 21:16:05 python pandas series categorical-data binning Python

使用带有包含新标签的数据的MultiIndex追加pandas DataFrame，但保留旧MultiIndex的整数位置

基本方案对于推荐服务，我正在针对一组用户项目交互训练矩阵分解模型(LightFM).为了使矩阵分解模型产生最佳结果，我需要将用户ID和商品ID映射到从0开始的连续整数ID范围. 我在此过程中使用的是熊猫DataFrame，我发现MultiIndex可以非常方便地创建此映射，就像这样: ratings = [{'user_id': 1, 'item_id': 1, 'rating ..

发布时间：2020-05-18 22:17:26 python pandas numpy recommendation-engine categorical-data Python

如何使用深度学习在python jupyter笔记本中解决此问题

我正在尝试跑步.但是会发生此错误 TypeError:int()参数必须是字符串，类似字节的对象或数字，而不是'NoneType' 这是代码 data = np.asarray(data, dtype="float") / 255.0 labels = np.array(labels) print("Success") # partition the data into trai ..

发布时间：2020-05-18 20:29:51 python numpy deep-learning anaconda categorical-data Python

SQL子查询获取总数

使用SQL子查询，我如何获得每个经理(包括他的团队)的总项目和总收入? 假设我有带有列的此表items_revenue: 所有管理者(is_manager = 1)及其各自的成员都在上表中. Member1在Manager1下，Member2在Manager2下，依此类推，但实际数据是随机排列的. 我希望我的查询输出ff. 这与 SQL查询以获取某些行的小计，但我不想使用CASE表达式 ..

发布时间：2020-05-16 19:32:11 mysql sql mysql-workbench categorical-data 数据库

SQL查询以获取某些行的小计

如果我想获取每个经理(包括他的团队)的总项目和总收入，那SQL查询脚本将是什么? 假设我有此表items_revenue，其中包含列: | id |is_manager|manager_id| name |no_of_items| revenue | | 1 | 1 | 0 | Manager1 | 621 | 833 | | 2 | 1 | 0 | Manager2 | 458 | 62 ..

发布时间：2020-05-15 05:22:56 mysql sql sql-server categorical-data 数据库

Pandas MultiIndex自定义排序级别按分类顺序排列，而不是按字母顺序排列

我是Pandas(0.16.1)的新手，并且希望在multiindex中进行自定义排序，因此我使用了分类. 我的多索引的一部分: Part Defect Own Кузов 504 ИП Кузов 504 Итого Кузов 504 ПС Кузов 505 ПС Кузов 506 ПС Кузов 507 ПС Кузов 530 ИП ..

发布时间：2020-05-13 18:34:17 python pandas sorting multi-index categorical-data Python

排序分类变量是否有优势?

我被告知最好在适当的地方对分类变量进行排序(例如，短小于小于中小于长).我想知道，在将分类变量建模为解释变量的情况下，将分类变量按顺序而不是简单分类进行处理有什么特殊优势?在数学上是什么意思(最好是外行！)? 非常感谢！解决方案在其他方面，它允许您比较这些因素的值: > ord.fac ..

发布时间：2020-05-10 19:16:59 r modeling categorical-data 其他开发

categorical-data相关内容