pandas 第2页 - IT屋-程序员软件开发技术分享社区

pandas 更新多索引数据帧中的值

如何编辑多索引数据框的值？如果它是非多索引数据帧，我知道我可以这样做：df.at[0,'foo'] = 12.3。此外，这也不起作用：df.loc[0]['foo']['a'] = 12.3。考虑多索引列数据帧。 colnames = [ ['foo', 'foo', 'foo', 'po', 'po', 'po', 'di', 'di', 'di'], ['a', ..

合并具有多个索引和列值的数据帧

我有两个以多个索引和日期为一列的数据帧： df1 df1 = pd.DataFrame.from_dict({('group', ''): {0: 'A', 1: 'A', 2: 'A', 3: 'A', 4: 'A', 5: 'A', 6: 'A', 7: 'A', 8: 'B', 9: 'B', 10: 'B', 11: 'B', 1 ..

发布时间：2022-09-20 21:45:05 python pandas merge multi-index Python

如何使第一行变成二级多索引

我有一个现有的DataFrame，如下所示： 1 | 1 | 1 | 2 | 2 | 2 | 2 -------------------------------------------------------- | abc | def | ghi | jkl | mno | pqr | stu | 1 ..

发布时间：2022-09-20 21:33:20 python pandas indexing multi-index Python

基于多个一级列的子集多索引DataFrame

我有一个多=索引的DataFrame，但我希望每个级别1只保留两列，用于每个级别0变量(即列‘1’和‘2’)。我可以单独设置它们的子集，但我想一起设置子集，这样我就可以并排保留这些值这是DataFrame index = pd.MultiIndex.from_tuples(list(zip(*[['bar1', 'foo1', 'bar1', 'foo2','bar3','foo3' ..

发布时间：2022-09-20 21:16:11 python pandas dataframe multi-index Python

在 pandas 中使用带有多重索引的.loc

有没有人知道是否可以使用DataFrame.loc方法从MultiIndex中进行选择？我有以下DataFrame，并且希望能够访问位于('at', 1)、('at', 3)、('at', 5)等索引(非顺序)的Dwell列中的值。我希望能够执行类似data.loc[['at',[1,3,5]], 'Dwell']的操作，类似于常规索引的data.loc[[1,3,5], 'Dwell'] ..

发布时间：2022-09-20 21:06:27 python pandas dataframe multi-index Python

如何对多索引数据帧进行重新索引

是否有办法对(不同级别的)两个数据帧重新编制索引，以便它们在所有级别上共享一个公共索引？演示：创建名为‘A’的基本数据帧： index = np.array(['AUD','BRL','CAD','EUR','INR']) data = np.random.randint(1, 20, (5,5)) A = pd.DataFrame(data=data, index=inde ..

发布时间：2022-09-20 20:54:33 pandas dataframe multi-index Python

HDF如何在不重新打包的情况下处理已删除数据集释放的空间

我特别指的是与使用Pyables/Pandas接口的HDF，但我认为这适用于一般的HDF。我知道，一旦删除数据集，HDF就不会回收空间，您必须使用h5repack/ptrepack来回收该空间。我对这种方法的问题是，我发现这些工具非常慢，特别是对于几十亿字节(我的文件大约是20 GB)的文件。因此，如果您必须有规律地添加/删除派生数据集(例如，在调试构成该数据的东西时)，这是不实际的。 ..

发布时间：2022-09-05 15:34:46 python pandas hdf5 pytables Python

如何在h5文件中分层写入大的多个数组？

假设我有10000个系统。对于每个系统，我都有两个数据集：对于每个数据集，我都有x、y和y_err数组。如何使用h5py或pandas将所有系统的数据放到一个h5文件中？下面给出了详细说明。 Systems=np.arange(10000) for sys in Systems: x1,y1,y1_err=np.random.rand(100),np.random.rand(100 ..

发布时间：2022-09-05 15:16:50 python pandas dataframe hdf5 h5py Python

如何使用HDF文件(固定格式，多个密钥)作为 pandas 数据帧？

我得到了一个使用PANDA创建的20 GB HDF5文件，但不幸的是，它是以固定格式(而不是表)编写的，每一列都写为一个单独的键。这对于快速加载一个功能非常有效，但它不支持方便的面向表格的过程(例如，统计分析或绘图)。尝试将文件作为一个整体加载时出现以下错误： ValueError: key must be provided when HDF5 file contains multi ..

发布时间：2022-09-05 14:20:52 python pandas hdf5 hdf Python

如何将属性添加到作为组存储在HDF5文件中的 pandas 数据帧？

我有一个多维 pandas 数据帧，如下所示： import numpy as np import pandas as pd iterables = [['bar', 'baz', 'foo', 'qux'], ['one', 'two']] mindex = pd.MultiIndex.from_product(iterables, names=['first', 'second']) d ..

发布时间：2022-09-05 13:36:24 python pandas hdf5 h5py Python

用 pandas 将表格直接转换为树形结构

我要转换此CSV文件格式：转换为具有以下结构的hdf5文件：我用的是 pandas 。有什么简单的方法可以做到这一点吗？推荐答案您可以通过collections.defaultdict使用嵌套词典： from collections import defaultdict import pandas as pd # read csv file # df = p ..

发布时间：2022-09-05 13:33:03 python python-3.x pandas hdf5 Python

仅对 pandas 数据框中的列表中的一些值进行着色

我有一个数据帧，其中一列中的每个单元格都包含[2,19,25,39,49]格式的列表。我想对列表common = [7,9,16,18,19,20,21,25,33,35,38,40,49]中包含的每个列表中的各个值进行着色，因此在示例19、25和49中应该使用不同的颜色，或者这就是我想要实现的目标。我已尝试使用： def color_common(x): if x in commo ..

发布时间：2022-09-04 19:49:28 python-3.x pandas styling Python

pandas 中的С条件颜色格式

条件格式中的任务(我想是使用样式) 巨蟒， pandas 有一个有两列的盘子应突出显示第二个表条件：如果第一个列数超过第二个列数，则为绿色；如果第一个列数等于第二个列数，则为黄色；如果第一个列数小于第二个列数，则为红色。[ 谢谢您的帮助！推荐答案的想法是使用Styler.apply创建新的按条件填充样式的DataFrame，用于按条件设置行DataFrame. ..

发布时间：2022-09-04 19:38:32 python pandas styling Python

FEATURE_NAMES必须唯一-XgBoost

我正在为一个非常稀疏的矩阵运行xgBoost模型。我收到此错误。ValueError：FEATURE_NAMES必须唯一我如何处理此问题？这是我的代码。 yprob = bst.predict(xgb.DMatrix(test_df))[:,1] 推荐答案根据xgboost source code documentation，该错误只出现在one pl ..

发布时间：2022-09-04 15:51:25 python pandas xgboost sklearn-pandas Python

使用Python将数字(基于计算)格式设置为两位小数的百分比

值：预算=11,000 实际=10,000 差异=预算-实际(1,000) total, would be the value of budget variable: 11,000 我的代码： percent_val = variance/total format_percent = {:.2f}.format(percent_val) return format_percent ..

发布时间：2022-09-02 16:37:22 python pandas decimal percentage Python

根据Python中特定列的值替换缺少的值

我想根据提交的列的值替换缺少的值。查找以下我拥有的内容： ..

发布时间：2022-09-02 15:43:27 python pandas missing-data fillna ffill Python

从NumPy掩码数组创建Pandas DataFrame？

我正在尝试从NumPy掩码数组创建一个PandasDataFrame，我知道这是一个受支持的操作。以下是源数组的示例： a = ma.array([(1, 2.2), (42, 5.5)], dtype=[('a',int),('b',float)], mask=[(True,False),(False,True)]) 哪个输出为： ..

发布时间：2022-09-02 15:07:55 pandas numpy missing-data Python

如何用每组中出现频率最高的值填充DataFrame中缺失的值？

我有一个包含两列的 pandas DataFrame：toy和color。color列包含缺少的值。如何用该特定toy最频繁的color值填充缺失的color值？以下是创建示例数据集的代码： import pandas as pd import numpy as np df = pd.DataFrame({ 'toy':['car'] * 4 + ['train'] ..

发布时间：2022-09-02 14:41:20 python pandas dataframe missing-data Python

pandas -在具有重复年份的时间序列数据中添加缺失年份

我有一个这样的数据集，其中某些年份的数据丢失。 County Year Pop 12 1999 1.1 12 2001 1.2 13 1999 1.0 13 2000 1.1 我想要 County Year Pop 12 1999 1.1 12 2000 NaN 12 2001 1.2 13 1999 1.0 13 ..

发布时间：2022-09-02 14:28:06 python pandas time-series missing-data reindex Python

还有比 pandas 填充()更快的方法吗？

Pandasfillna()速度明显较慢，尤其是在数据帧中有大量丢失数据的情况下。有没有比这更快的方法？ (我知道如果我只删除包含Nas的一些行和/或列会有所帮助) 推荐答案我尝试测试： np.random.seed(123) N = 60000 df = pd.DataFrame(np.random.choice(['a', None], size=(N, 20 ..

发布时间：2022-09-02 14:19:21 python pandas missing-data Python

pandas相关内容