h5py相关内容

有使用 h5py 在 Python 中对大数据进行分析工作的经验吗?

我做了大量的统计工作,并使用 Python 作为我的主要语言.虽然我使用的一些数据集可能占用 20GB 的内存,这使得使用 numpy、scipy 和 PyIMSL 中的内存函数对它们进行操作几乎是不可能的.统计分析语言 SAS 在这里有一个很大的优势,它可以对来自硬盘的数据进行操作,而不是严格的内存处理.但是,我想避免在 SAS 中编写大量代码(出于各种原因),因此我试图确定我对 Python ..
发布时间:2022-01-08 17:18:52 Python

如何从 HDF5 文件中提取单个 JPEG 图像

我有一个很大的 HDF5 文件,其中包含图像及其相应的地面实况密度图.我想将它们放入网络 CRSNet 中,它需要单独文件中的图像.我怎样才能做到这一点?非常感谢. -- 基本信息 我有一个带有两个键“图像"的 HDF5 文件;和“密度地图".它们的形状是 (300, 380, 676, 1).300代表图片数量,380和676分别代表高度和宽度. -- 我需要放入 CRSNet 网络 ..
发布时间:2022-01-06 19:28:36 Python

h5py 无法打开用 h5py 创建的 HDF5 文件

我在 Ubuntu 12.04(32 位版本)下创建了一个 HDF5 文件,显然没有任何问题,使用 Anaconda 作为 Python 发行版并在 ipython 笔记本中编写.底层数据都是numpy数组.例如, 将 numpy 导入为 np导入 h5pyf = h5py.File('myfile.hdf5','w')group = f.create_group('a_group')group ..
发布时间:2022-01-04 08:24:22 Python

如何使用 h5py 将数据附加到 hdf5 文件中的一个特定数据集

我正在寻找使用 Python (h5py) 将数据附加到 .h5 文件中的现有数据集的可能性. 我的项目的简短介绍:我尝试使用医学图像数据训练 CNN.由于在将数据转换为 NumPy 数组的过程中数据量巨大且内存使用量大,我需要将“转换"拆分为几个数据块:加载和预处理前 100 张医学图像并将 NumPy 数组保存到 hdf5文件,然后加载接下来的 100 个数据集并附加现有的 .h5 文件 ..
发布时间:2021-12-27 16:53:17 Python

在 Google Cloud Bucket 中保存 Keras ModelCheckpoint

我正在使用 Keras 和 TensorFlow 后端在 Google Cloud 机器学习引擎上训练 LSTM 网络.在对 gcloud 和我的 python 脚本进行一些调整后,我设法部署了我的模型并执行了成功的训练任务. 然后我尝试使用 Keras modelCheckpoint 回调让我的模型在每个时期之后保存检查点.使用 Google Cloud 运行本地训练作业按预期完美运行.每 ..
发布时间:2021-12-20 19:02:40 其他开发

通过h5py将matlab v7.3文件读入numpy数组的python列表

我知道以前有人问过这个问题,但在我看来,仍然没有答案可以解释正在发生的事情,并且碰巧对我的案例不起作用.我有一个结构如下的 matlab v7.3 文件, --->rank --->每个元素都是 垫子--->比较--->每个元素都是 我希望这足够直截了当.所以我想要做的是使用 h5py 库将 ..
发布时间:2021-12-08 14:57:15 Python

用于读取行的最佳 HDF5 数据集块形状

我有一个合理大小(18GB 压缩)的 HDF5 数据集,并且希望优化读取行的速度.形状是 (639038, 10000).我将多次读取位于整个数据集的一系列行(比如约 1000 行).所以我不能使用 x:(x+1000) 来切片行. 使用 h5py 从内存不足的 HDF5 中读取行已经很慢了,因为我必须传递一个排序列表并使用花哨的索引.有没有办法避免花哨的索引,或者我可以使用更好的块​​形状 ..
发布时间:2021-12-08 11:37:18 Python

使用不同大小的 h5py 数组进行保存

我正在尝试使用 HDF5 数据格式存储大约 3000 个 numpy 数组.数组长度从 5306 到 121999 np.float64 我得到Object dtype dtype('O') 没有原生的 HDF5 等价物错误,因为数据的不规则性质 numpy 使用通用对象类. 我的想法是将所有数组填充到 121999 的长度并将大小存储在另一个数据集中. 但是这在空间上看起来效率 ..
发布时间:2021-11-18 05:04:51 Python

可见的弃用警告......?

我有一些数据从 h5 文件中读取为一个 numpy 数组,并且正在做一些分析.对于上下文,数据绘制了光谱响应曲线.我正在索引数据(以及我为 x 轴制作的后续数组)以获得特定值或值范围.我没有做任何复杂的事情,即使是我正在做的小数学也是非常基本的.但是我在很多地方收到以下警告错误 “VisibleDeprecationWarning:布尔索引与维度 0 的索引数组不匹配;维度为 44,但对应的 ..
发布时间:2021-11-18 04:23:03 Python

如何使用h5py覆盖h5文件中的数组

我试图覆盖一个 numpy 数组,它是一个非常复杂的 h5 文件的一小部分. 我正在提取一个数组,更改一些值,然后想将该数组重新插入到 h5 文件中. 提取嵌套的数组没有问题. f1 = h5py.File(file_name,'r')X1 = f1['meas/frame1/data'].valuef1.close() 我尝试的代码看起来像这样但没有成功: f1 = h5py. ..
发布时间:2021-11-18 03:28:56 Python

输入和输出 numpy 数组到 h5py

我有一个 Python 代码,它的输出是一个 大小的矩阵,其条目都是float 类型.如果我使用扩展名 .dat 保存它,则文件大小约为 500 MB.我读到使用 h5py 可以大大减少文件大小.所以,假设我有一个名为 A 的 2D numpy 数组.如何将其保存到 h5py 文件?另外,我如何读取同一个文件并将其作为 numpy 数组放在不同的代码中,因为我需要对数组进行操作? 解决方案 ..
发布时间:2021-11-18 02:23:27 Python

无法安装h5py

我正在尝试在 Windows10 64 位、Python 3.8.5、Pip 20.2.4 上运行 h5py. 使用这个命令 pip install h5py 但这会引发错误 错误:无法为使用 PEP 517 且无法直接安装的 h5py 构建轮子 看起来这是 pep 517 和其他软件包的众所周知的问题,所以我尝试检查所有解决方案,例如 pip install --no-use-p ..
发布时间:2021-09-25 20:11:33 Python

将matlab数据结构读入numpy数组

我有一组 MAT 文件,其中包含一个 ma​​tlab struct.该结构有一堆数组.我想打开文件并将它们全部传输到数组中.到目前为止,我已经编写了以下代码: 导入h5py>>>fs = h5py.File('statistics_VAD.mat','r')>>>列表(fs.keys())['#refs#', '数据']>>>>>>fs['data'].visititems(lambda n, ..
发布时间:2021-06-11 18:31:58 其他开发

用h5py并行写入不同的组

我正在尝试使用并行h5py为每个进程创建一个独立的组,并用一些数据填充每个组.实际上,只有一个组被创建并填充了数据.这是程序: 从mpi4py导入MPI的 导入h5py等级= MPI.COMM_WORLD.Get_rank()f = h5py.File('parallel_test.hdf5','w',driver ='mpio',comm = MPI.COMM_WORLD)数据=范围(100 ..
发布时间:2021-05-13 20:14:33 其他开发

我想在python中将非常大的csv数据转换为hdf5

我的csv数据非常大.看起来像这样. [日期,公司名称,值1,值2,...,值60] 我想将其转换为hdf5文件.例如,假设我有两个日期(2019-07-01,2019-07-02),每个日期都有3个公司(公司1,公司2,公司3),每个公司都有[值1,值2,......值60]. 我想将日期和公司名称作为一个组使用.具体来说,我要使用以下层次结构:“日期/公司名称". 例如 ..
发布时间:2021-05-13 20:14:30 Python

Python:是否可以在不将其内容加载到RAM的情况下写入文件?

有一个我想洗牌的大数据集.整套设备无法放入RAM,因此,如果我可以同时打开多个文件(例如hdf5,numpy),按时间顺序遍历我的数据并将每个数据点随机分配给其中一个堆,则会很好(然后将每个数据点随机播放)桩). 我真的没有用python处理数据的经验,所以我不确定是否可以在不将其其余内容保存在RAM中的情况下写入文件(使用np.save和savez几乎没有成功)./p> 在h5py或nu ..
发布时间:2021-05-13 20:14:27 Python

如何为H5配置maxshape参数并追加到文件?

我正在尝试将图像数据集合并到H5文件中.到目前为止,我已经设法创建了文件,但是当我追加文件时,它只会覆盖已经存在的文件.我查看了其他答案(例如添加将数据使用h5py沿新轴导入到现有的h5py文件),并尝试了它们的变体,但无济于事. 适用于范围内的i的 (len(files)):如果i == 0:使用h5py.File('input_images.h5','w')为f:img = np.arra ..
发布时间:2021-05-13 20:14:24 Python

无法写入hdf5文件

我正在尝试创建hdf5文件,但是输出文件为空. 我已经编写了一个python代码,该代码应该循环运行并在创建的数据集中写入字符串.保存文件后,我发现输出文件始终为空. 下面是我写的那段代码: h5_file_name ='sample.h5'hf = h5py.File(h5_file_name,'w')g1 = hf.create_group('Objects')dt = h5p ..
发布时间:2021-05-13 20:14:21 Python

h5py随机无法打开对象(找不到组件)

我正在尝试将hdf5数据集加载到pytorch训练中进行循环. 无论数据加载器中有num_workers个,这都会随机引发"KeyError:'无法打开对象(找不到组件)'"(下面的回溯). 我能够开始训练循环,但是如果没有这个错误,就无法通过一个纪元的1/4,这对于随机的“数据集"(每个2darray)都会发生.我可以使用常规的 f ['group/subroup'] [()] 在控 ..
发布时间:2021-05-13 20:14:18 Python