pandas相关内容
如何编辑多索引数据框的值?如果它是非多索引数据帧,我知道我可以这样做:df.at[0,'foo'] = 12.3。 此外,这也不起作用:df.loc[0]['foo']['a'] = 12.3。 考虑多索引列数据帧。 colnames = [ ['foo', 'foo', 'foo', 'po', 'po', 'po', 'di', 'di', 'di'], ['a',
..
我有两个以多个索引和日期为一列的数据帧: df1 df1 = pd.DataFrame.from_dict({('group', ''): {0: 'A', 1: 'A', 2: 'A', 3: 'A', 4: 'A', 5: 'A', 6: 'A', 7: 'A', 8: 'B', 9: 'B', 10: 'B', 11: 'B', 1
..
我有一个现有的DataFrame,如下所示: 1 | 1 | 1 | 2 | 2 | 2 | 2 -------------------------------------------------------- | abc | def | ghi | jkl | mno | pqr | stu | 1
..
我有一个多=索引的DataFrame,但我希望每个级别1只保留两列,用于每个级别0变量(即列‘1’和‘2’)。我可以单独设置它们的子集,但我想一起设置子集,这样我就可以并排保留这些值 这是DataFrame index = pd.MultiIndex.from_tuples(list(zip(*[['bar1', 'foo1', 'bar1', 'foo2','bar3','foo3'
..
有没有人知道是否可以使用DataFrame.loc方法从MultiIndex中进行选择?我有以下DataFrame,并且希望能够访问位于('at', 1)、('at', 3)、('at', 5)等索引(非顺序)的Dwell列中的值。 我希望能够执行类似data.loc[['at',[1,3,5]], 'Dwell']的操作,类似于常规索引的data.loc[[1,3,5], 'Dwell']
..
是否有办法对(不同级别的)两个数据帧重新编制索引,以便它们在所有级别上共享一个公共索引? 演示: 创建名为‘A’的基本数据帧: index = np.array(['AUD','BRL','CAD','EUR','INR']) data = np.random.randint(1, 20, (5,5)) A = pd.DataFrame(data=data, index=inde
..
我特别指的是与使用Pyables/Pandas接口的HDF,但我认为这适用于一般的HDF。 我知道,一旦删除数据集,HDF就不会回收空间,您必须使用h5repack/ptrepack来回收该空间。我对这种方法的问题是,我发现这些工具非常慢,特别是对于几十亿字节(我的文件大约是20 GB)的文件。因此,如果您必须有规律地添加/删除派生数据集(例如,在调试构成该数据的东西时),这是不实际的。
..
假设我有10000个系统。对于每个系统,我都有两个数据集:对于每个数据集,我都有x、y和y_err数组。如何使用h5py或pandas将所有系统的数据放到一个h5文件中?下面给出了详细说明。 Systems=np.arange(10000) for sys in Systems: x1,y1,y1_err=np.random.rand(100),np.random.rand(100
..
我得到了一个使用PANDA创建的20 GB HDF5文件,但不幸的是,它是以固定格式(而不是表)编写的,每一列都写为一个单独的键。这对于快速加载一个功能非常有效,但它不支持方便的面向表格的过程(例如,统计分析或绘图)。 尝试将文件作为一个整体加载时出现以下错误: ValueError: key must be provided when HDF5 file contains multi
..
我有一个多维 pandas 数据帧,如下所示: import numpy as np import pandas as pd iterables = [['bar', 'baz', 'foo', 'qux'], ['one', 'two']] mindex = pd.MultiIndex.from_product(iterables, names=['first', 'second']) d
..
我要转换此CSV文件格式: 转换为具有以下结构的hdf5文件: 我用的是 pandas 。有什么简单的方法可以做到这一点吗? 推荐答案 您可以通过collections.defaultdict使用嵌套词典: from collections import defaultdict import pandas as pd # read csv file # df = p
..
我有一个数据帧,其中一列中的每个单元格都包含[2,19,25,39,49]格式的列表。我想对列表common = [7,9,16,18,19,20,21,25,33,35,38,40,49]中包含的每个列表中的各个值进行着色,因此在示例19、25和49中应该使用不同的颜色,或者这就是我想要实现的目标。 我已尝试使用: def color_common(x): if x in commo
..
条件格式中的任务(我想是使用样式) 巨蟒, pandas 有一个有两列的盘子 应突出显示第二个表 条件: 如果第一个列数超过第二个列数,则为绿色; 如果第一个列数等于第二个列数,则为黄色; 如果第一个列数小于第二个列数,则为红色。[ 谢谢您的帮助! 推荐答案的想法是使用Styler.apply创建新的按条件填充样式的DataFrame,用于按条件设置行DataFrame.
..
我正在为一个非常稀疏的矩阵运行xgBoost模型。 我收到此错误。ValueError:FEATURE_NAMES必须唯一 我如何处理此问题? 这是我的代码。 yprob = bst.predict(xgb.DMatrix(test_df))[:,1] 推荐答案 根据xgboost source code documentation,该错误只出现在one pl
..
值: 预算=11,000 实际=10,000 差异=预算-实际(1,000) total, would be the value of budget variable: 11,000 我的代码: percent_val = variance/total format_percent = {:.2f}.format(percent_val) return format_percent
..
我想根据提交的列的值替换缺少的值。 查找以下我拥有的内容:
..
我正在尝试从NumPy掩码数组创建一个PandasDataFrame,我知道这是一个受支持的操作。以下是源数组的示例: a = ma.array([(1, 2.2), (42, 5.5)], dtype=[('a',int),('b',float)], mask=[(True,False),(False,True)]) 哪个输出为:
..
我有一个包含两列的 pandas DataFrame:toy和color。color列包含缺少的值。 如何用该特定toy最频繁的color值填充缺失的color值? 以下是创建示例数据集的代码: import pandas as pd import numpy as np df = pd.DataFrame({ 'toy':['car'] * 4 + ['train']
..
我有一个这样的数据集,其中某些年份的数据丢失。 County Year Pop 12 1999 1.1 12 2001 1.2 13 1999 1.0 13 2000 1.1 我想要 County Year Pop 12 1999 1.1 12 2000 NaN 12 2001 1.2 13 1999 1.0 13
..
Pandasfillna()速度明显较慢,尤其是在数据帧中有大量丢失数据的情况下。 有没有比这更快的方法? (我知道如果我只删除包含Nas的一些行和/或列会有所帮助) 推荐答案 我尝试测试: np.random.seed(123) N = 60000 df = pd.DataFrame(np.random.choice(['a', None], size=(N, 20
..