hdf5相关内容

用h5py并行写入不同的组

我正在尝试使用并行h5py为每个进程创建一个独立的组,并用一些数据填充每个组.实际上,只有一个组被创建并填充了数据.这是程序: 从mpi4py导入MPI的 导入h5py等级= MPI.COMM_WORLD.Get_rank()f = h5py.File('parallel_test.hdf5','w',driver ='mpio',comm = MPI.COMM_WORLD)数据=范围(100 ..
发布时间:2021-05-13 20:14:33 其他开发

我想在python中将非常大的csv数据转换为hdf5

我的csv数据非常大.看起来像这样. [日期,公司名称,值1,值2,...,值60] 我想将其转换为hdf5文件.例如,假设我有两个日期(2019-07-01,2019-07-02),每个日期都有3个公司(公司1,公司2,公司3),每个公司都有[值1,值2,......值60]. 我想将日期和公司名称作为一个组使用.具体来说,我要使用以下层次结构:“日期/公司名称". 例如 ..
发布时间:2021-05-13 20:14:30 Python

Python:是否可以在不将其内容加载到RAM的情况下写入文件?

有一个我想洗牌的大数据集.整套设备无法放入RAM,因此,如果我可以同时打开多个文件(例如hdf5,numpy),按时间顺序遍历我的数据并将每个数据点随机分配给其中一个堆,则会很好(然后将每个数据点随机播放)桩). 我真的没有用python处理数据的经验,所以我不确定是否可以在不将其其余内容保存在RAM中的情况下写入文件(使用np.save和savez几乎没有成功)./p> 在h5py或nu ..
发布时间:2021-05-13 20:14:27 Python

无法写入hdf5文件

我正在尝试创建hdf5文件,但是输出文件为空. 我已经编写了一个python代码,该代码应该循环运行并在创建的数据集中写入字符串.保存文件后,我发现输出文件始终为空. 下面是我写的那段代码: h5_file_name ='sample.h5'hf = h5py.File(h5_file_name,'w')g1 = hf.create_group('Objects')dt = h5p ..
发布时间:2021-05-13 20:14:21 Python

h5py随机无法打开对象(找不到组件)

我正在尝试将hdf5数据集加载到pytorch训练中进行循环. 无论数据加载器中有num_workers个,这都会随机引发"KeyError:'无法打开对象(找不到组件)'"(下面的回溯). 我能够开始训练循环,但是如果没有这个错误,就无法通过一个纪元的1/4,这对于随机的“数据集"(每个2darray)都会发生.我可以使用常规的 f ['group/subroup'] [()] 在控 ..
发布时间:2021-05-13 20:14:18 Python

添加存储在HDF5数据集中的大矩阵

我有两个具有相同结构的HDF5文件,每个文件存储一个相同形状的矩阵.我需要创建第三个HDF5文件,其中的矩阵表示上述两个矩阵的逐元素和.考虑到矩阵的大小非常大(在Gb-Tb范围内),最好的方法是并行处理?我正在使用HDF5库的h5py接口.有图书馆可以做到吗? 解决方案 是的,这是可能的.关键是要访问文件1和文件2中的数据切片.file2,按元素求和,然后将新数据片写入file3.您可以使 ..
发布时间:2021-05-13 20:14:15 Python

向HDF5文件中添加新数据会导致一个空数组

在使用适用于Python的HDF5软件包时,我发现了一个奇怪的行为.我想在表中插入更多数据.但是不知何故我无法使其正常工作.正如您从源代码中看到的那样,我正在使用 fromRow = hf ["X"].shape [0] 获取键'X'中的最后一行数据,并编写了 tempArray2之后.结果是一个空表. 导入h5pytempArray1 = [[0.9293237924575806,-0.327 ..
发布时间:2021-05-13 20:14:06 Python

Python无法打开.h5文件

我正在尝试打开HDF5文件以便使用python读取它,以便以后可以使用它做更多的事情.运行程序以读取文件时出现错误.该程序如下: import h5py#HDF5支持导入numpyfileName ="C:/.../file.h5"f = h5py.File(fileName,"r")对于f.attrs.keys()中的项目:打印项目+“:",f.attrs [项目]mr = f ['/ent ..
发布时间:2021-05-13 20:13:56 Python

具有版本控制的HDF5文件(h5py)-每次保存时哈希更改

我正在使用h5py将来自数字工作的中间数据存储在HDF5文件中.我的项目受版本控制,但是对于HDF5文件来说效果不佳,因为每次重新运行生成HDF5文件的脚本时,即使其中的数据不正确,二进制文件也会更改. 这里有一个小例子来说明这一点: 在[1]中:导入h5py,numpy作为np在[2]中:A = np.arange(5)在[3]中:f = h5py.File('test.h5','w') ..
发布时间:2021-05-13 20:13:52 Python

我们可以为类似python文件的对象禁用h5py文件锁定吗?

使用 h5py 打开HDF5文件时,您可以传入类似python文件的对象.我这样做了,其中类似文件的对象是我自己的基于网络的传输层的自定义实现. 这很好,我可以在高延迟传输层上切片大型HDF5文件.但是,HDF5似乎提供了其自己的文件锁定功能,因此,如果您在同一进程(线程模型)中以只读方式打开多个文件,则该文件仍只会有效地连续运行这些操作. HDF5中有一些支持并行操作的驱动程序,例如 ..
发布时间:2021-05-13 20:13:48 Python

使用h5py以写入模式打开已打开的hdf5文件

我同时运行同一Python程序和不同进程,所有这些程序都希望使用 h5py Python包写入同一 hdf5 文件.但是,只有一个进程可以在写入模式下打开给定的文件,否则会出现错误 OSError:无法打开文件(无法锁定文件,errno = 11,错误message ='资源暂时不可用') 在处理上述异常期间,发生了另一个异常: OSError:无法创建文件(无法打开文件:nam ..
发布时间:2021-05-13 20:13:43 Python

从多个hdf5组创建数据集

从多个hdf5组创建数据集 具有以下功能的组的代码 np.array(hdf.get('all my groups')) 然后我添加了用于从组创建数据集的代码. ,其中h5py.File('/train.h5','w')为hdf:hdf.create_dataset('train',数据= one_T + two_T + three_T + four_T + five_T) ..
发布时间:2021-05-13 20:13:36 Python

将包含jpeg图像的文件夹转换为hdf5

有没有办法在Python中将包含.jpeg图像的文件夹转换为hdf5?我正在尝试建立用于图像分类的神经网络模型.谢谢! 解决方案 有很多方法可以处理和保存图像数据.这是读取1个文件夹中的所有图像文件并将其加载到HDF5文件中的方法的2种变体.此过程的概述: 计算图像数量(用于调整数据集大小). 创建HDF5文件(前缀: 1ds _ ) 创建具有适当形状和类型(整数)的空数据集 ..
发布时间:2021-05-13 20:13:33 其他开发

pytables重复2.5 giga行

我目前有一个.h5文件,其中的表由三列组成:一个64字符的文本列,一个与文本源有关的UInt32列和一个UInt32列(即文本的xxhash).该表由〜2.5e9行组成 我正在尝试查找并计算表中每个文本条目的重复项-本质上将它们合并为一个条目,同时对实例进行计数.我尝试通过在哈希列上建立索引,然后遍历 table.itersorted(hash)来做到这一点,同时跟踪哈希值并检查冲突-与 ..
发布时间:2021-05-03 18:56:53 Python

有没有一种方法可以从HDF5数据集中删除行?

我创建了一个约有210万个实例的H5PY数据集.问题是我已经填满了除最后一行以外的所有行.我想删除最后一行,但不确定这样做是否可行或安全. 这是如何创建数据集的摘录: shape =(dataset_length,args.batch_size,2048,1,1)与h5py.File(path,mode ='a')as hdf5_file:array_40 = hdf5_file.cre ..
发布时间:2021-04-29 18:47:22 Python

如何将大HDF5文件拆分为多个小HDF5数据集

我有一个很大的HDF5文件,其中包含图像及其对应的地面真相密度图.我想将它们放入网络CRSNet,它需要将图像放在单独的文件中.我该如何实现?非常感谢. -基本信息我有一个带有两个键"images"的HDF5文件.和"density_maps".它们的形状是(300,380,676,1).300代表图像数量,380和676分别代表高度和宽度. -我需要放入CRSNet网络中的是带有相应 ..
发布时间:2021-04-23 20:28:35 Python

使用h5py压缩现有文件

我目前正在从事有关HDF5数据集压缩的项目,并且最近开始使用h5py.我遵循了基本教程,并且能够在创建文件时打开,创建和压缩文件.但是,在压缩现有文件方面,我一直没有成功(这是我的工作目标). 我尝试使用'r +'打开文件,然后压缩分块数据集,但文件大小保持不变. 关于使用什么命令的任何建议,或者我会以错误的方式处理事情? 解决方案 HDF组提供了一组工具来转换,显示,分析,编 ..
发布时间:2021-04-23 20:19:18 Python

H5py中更大的压缩文件

我正在使用h5py从python以HDF5格式保存numpy数组.最近,我尝试应用压缩,并且得到的文件更大... 我是从这样的事情开始的(每个文件都有几个数据集) self._h5_current_frame.create_dataset(“估算位置",shape = estimated_pos.shape,dtype = float,data = estimated_pos) 对于 ..
发布时间:2021-04-23 20:18:40 Python

HDF5 C ++接口:编写动态2D数组

我正在使用 HDF5 C ++ API 编写2D数组数据集文件.HDF组具有要创建的示例来自静态定义的数组大小的HDF5文件,我已对其进行了修改以适应下面的需求.但是,我需要一个动态数组,其中 NX 和 NY 都是在运行时确定的.我找到了使用"new"关键字以帮助创建动态数组.这是我所拥有的: #include"StdAfx.h"#include"H5Cpp.h"使用名称空间H5;const ..
发布时间:2021-04-19 20:55:32 C/C++开发