pandas相关内容

pandas 更新多索引数据帧中的值

如何编辑多索引数据框的值?如果它是非多索引数据帧,我知道我可以这样做:df.at[0,'foo'] = 12.3。 此外,这也不起作用:df.loc[0]['foo']['a'] = 12.3。 考虑多索引列数据帧。 colnames = [ ['foo', 'foo', 'foo', 'po', 'po', 'po', 'di', 'di', 'di'], ['a', ..
发布时间:2022-09-20 21:50:33 Python

基于多个一级列的子集多索引DataFrame

我有一个多=索引的DataFrame,但我希望每个级别1只保留两列,用于每个级别0变量(即列‘1’和‘2’)。我可以单独设置它们的子集,但我想一起设置子集,这样我就可以并排保留这些值 这是DataFrame index = pd.MultiIndex.from_tuples(list(zip(*[['bar1', 'foo1', 'bar1', 'foo2','bar3','foo3' ..
发布时间:2022-09-20 21:16:11 Python

在 pandas 中使用带有多重索引的.loc

有没有人知道是否可以使用DataFrame.loc方法从MultiIndex中进行选择?我有以下DataFrame,并且希望能够访问位于('at', 1)、('at', 3)、('at', 5)等索引(非顺序)的Dwell列中的值。 我希望能够执行类似data.loc[['at',[1,3,5]], 'Dwell']的操作,类似于常规索引的data.loc[[1,3,5], 'Dwell'] ..
发布时间:2022-09-20 21:06:27 Python

如何对多索引数据帧进行重新索引

是否有办法对(不同级别的)两个数据帧重新编制索引,以便它们在所有级别上共享一个公共索引? 演示: 创建名为‘A’的基本数据帧: index = np.array(['AUD','BRL','CAD','EUR','INR']) data = np.random.randint(1, 20, (5,5)) A = pd.DataFrame(data=data, index=inde ..
发布时间:2022-09-20 20:54:33 Python

HDF如何在不重新打包的情况下处理已删除数据集释放的空间

我特别指的是与使用Pyables/Pandas接口的HDF,但我认为这适用于一般的HDF。 我知道,一旦删除数据集,HDF就不会回收空间,您必须使用h5repack/ptrepack来回收该空间。我对这种方法的问题是,我发现这些工具非常慢,特别是对于几十亿字节(我的文件大约是20 GB)的文件。因此,如果您必须有规律地添加/删除派生数据集(例如,在调试构成该数据的东西时),这是不实际的。 ..
发布时间:2022-09-05 15:34:46 Python

如何在h5文件中分层写入大的多个数组?

假设我有10000个系统。对于每个系统,我都有两个数据集:对于每个数据集,我都有x、y和y_err数组。如何使用h5py或pandas将所有系统的数据放到一个h5文件中?下面给出了详细说明。 Systems=np.arange(10000) for sys in Systems: x1,y1,y1_err=np.random.rand(100),np.random.rand(100 ..
发布时间:2022-09-05 15:16:50 Python

如何使用HDF文件(固定格式,多个密钥)作为 pandas 数据帧?

我得到了一个使用PANDA创建的20 GB HDF5文件,但不幸的是,它是以固定格式(而不是表)编写的,每一列都写为一个单独的键。这对于快速加载一个功能非常有效,但它不支持方便的面向表格的过程(例如,统计分析或绘图)。 尝试将文件作为一个整体加载时出现以下错误: ValueError: key must be provided when HDF5 file contains multi ..
发布时间:2022-09-05 14:20:52 Python

用 pandas 将表格直接转换为树形结构

我要转换此CSV文件格式: 转换为具有以下结构的hdf5文件: 我用的是 pandas 。有什么简单的方法可以做到这一点吗? 推荐答案 您可以通过collections.defaultdict使用嵌套词典: from collections import defaultdict import pandas as pd # read csv file # df = p ..
发布时间:2022-09-05 13:33:03 Python

仅对 pandas 数据框中的列表中的一些值进行着色

我有一个数据帧,其中一列中的每个单元格都包含[2,19,25,39,49]格式的列表。我想对列表common = [7,9,16,18,19,20,21,25,33,35,38,40,49]中包含的每个列表中的各个值进行着色,因此在示例19、25和49中应该使用不同的颜色,或者这就是我想要实现的目标。 我已尝试使用: def color_common(x): if x in commo ..
发布时间:2022-09-04 19:49:28 Python

pandas 中的С条件颜色格式

条件格式中的任务(我想是使用样式) 巨蟒, pandas 有一个有两列的盘子 应突出显示第二个表 条件: 如果第一个列数超过第二个列数,则为绿色; 如果第一个列数等于第二个列数,则为黄色; 如果第一个列数小于第二个列数,则为红色。[ 谢谢您的帮助! 推荐答案的想法是使用Styler.apply创建新的按条件填充样式的DataFrame,用于按条件设置行DataFrame. ..
发布时间:2022-09-04 19:38:32 Python

FEATURE_NAMES必须唯一-XgBoost

我正在为一个非常稀疏的矩阵运行xgBoost模型。 我收到此错误。ValueError:FEATURE_NAMES必须唯一 我如何处理此问题? 这是我的代码。 yprob = bst.predict(xgb.DMatrix(test_df))[:,1] 推荐答案 根据xgboost source code documentation,该错误只出现在one pl ..
发布时间:2022-09-04 15:51:25 Python

从NumPy掩码数组创建Pandas DataFrame?

我正在尝试从NumPy掩码数组创建一个PandasDataFrame,我知道这是一个受支持的操作。以下是源数组的示例: a = ma.array([(1, 2.2), (42, 5.5)], dtype=[('a',int),('b',float)], mask=[(True,False),(False,True)]) 哪个输出为: ..
发布时间:2022-09-02 15:07:55 Python

还有比 pandas 填充()更快的方法吗?

Pandasfillna()速度明显较慢,尤其是在数据帧中有大量丢失数据的情况下。 有没有比这更快的方法? (我知道如果我只删除包含Nas的一些行和/或列会有所帮助) 推荐答案 我尝试测试: np.random.seed(123) N = 60000 df = pd.DataFrame(np.random.choice(['a', None], size=(N, 20 ..
发布时间:2022-09-02 14:19:21 Python