hdf5相关内容

matplotlib - 来自高度矩形阵列的 3d 表面

我正在尝试在 matplotlib 中绘制一些 HDF 数据.使用h5py导入后,数据以数组的形式存储,如下: array([[151, 176, 178],[121, 137, 130],[120, 125, 126]) 在这种情况下,x 和 y 值只是数组字段的索引,而 z 值是特定字段的值.在 (x,y,z) 形式中,它看起来像: (1,1,151)(2,1,176)(3,1,178) ..
发布时间:2021-11-25 01:04:54 C#

使用不同大小的 h5py 数组进行保存

我正在尝试使用 HDF5 数据格式存储大约 3000 个 numpy 数组.数组长度从 5306 到 121999 np.float64 我得到Object dtype dtype('O') 没有原生的 HDF5 等价物错误,因为数据的不规则性质 numpy 使用通用对象类. 我的想法是将所有数组填充到 121999 的长度并将大小存储在另一个数据集中. 但是这在空间上看起来效率 ..
发布时间:2021-11-18 05:04:51 其他开发

写作&将浮点数组附加到 C++ 中 hdf5 文件中的唯一数据集

我正在处理多个文件,文件的每次处理将输出数千个浮点数组,我将将所有文件的数据存储在单个 hdf5 中的一个巨大数据集中以供进一步处理. 问题是目前我对如何将我的数据附加到 hdf5 文件中感到困惑.(上面代码中的注释)在上面的 2 个 for 循环中,如您所见,我想一次将一维浮点数组附加到 hdf5 中,而不是整个过程.我的数据是TB级的,我们只能把数据追加到文件中. 有几个问题: ..
发布时间:2021-11-18 03:59:15 其他开发

是否可以使用python将磁盘上的不连续数据映射到数组?

我想将硬盘上的一个大的 Fortran 记录(12G)映射到一个 numpy 数组.(映射而不是加载以节省内存.) 存储在 fortran 记录中的数据不是连续的,因为它被记录标记分隔.记录结构为“标记、数据、标记、数据、...、数据、标记".数据区域和标记的长度是已知的. 标记之间的数据长度不是4字节的倍数,否则我可以将每个数据区域映射到一个数组. 在memmap中设置offs ..
发布时间:2021-11-18 03:39:55 其他开发

如何使用 M1 在 MacOS 上安装 h5py(Keras 需要)?

我有一台 M1 MacBook.我已经使用 pyenv 安装了 python 3.9.1,并且有 pip3 版本 21.0.1.我已经通过 brew install hdf5 安装了 homebrew 和 hdf5 1.12.0_1. 当我打字时 pip3 install h5py 我收到错误: 要求已经满足:numpy>=1.19.3 in/Users/.../.pyenv/vers ..
发布时间:2021-11-16 20:35:35 其他开发

写作&将浮点数组附加到 C++ 中 hdf5 文件中的唯一数据集

我正在处理多个文件,文件的每次处理将输出数千个浮点数组,我将将所有文件的数据存储在单个 hdf5 中的一个巨大数据集中以供进一步处理. 问题是目前我对如何将我的数据附加到 hdf5 文件中感到困惑.(上面代码中的注释)在上面的 2 个 for 循环中,如您所见,我想一次将一维浮点数组附加到 hdf5 中,而不是整个过程.我的数据是TB级的,我们只能把数据追加到文件中. 有几个问题: ..
发布时间:2021-11-16 19:21:37 其他开发

删除或更新 HDF5 中的数据集?

我想以编程方式更改与 HDF5 文件中的数据集关联的数据.我似乎找不到按名称删除数据集(允许我使用修改后的数据再次添加它)或按名称更新数据集的方法.我将 C API 用于 HDF5 1.6.x,但指向任何 HDF5 API 的指针都会很有用. 解决方案 根据用户指南: HDF5 目前没有提供一种简单的机制来从文件中删除数据集或回收被删除对象占用的存储空间. 如此简单的删除似乎是 ..
发布时间:2021-11-15 02:51:10 其他开发

Spark DataFrame 如何处理大于内存的Pandas DataFrame

我现在正在学习 Spark,它似乎是 Pandas Dataframe 的大数据解决方案,但我有一个让我不确定的问题. 目前我正在使用 HDF5 存储大于内存的 Pandas 数据帧.HDF5 是一个很棒的工具,它允许我对 Pandas 数据框进行分块.因此,当我需要对大型 Pandas 数据帧进行处理时,我会分块进行.但 Pandas 不支持分布式处理,HDF5 仅适用于单台 PC 环境. ..
发布时间:2021-11-14 21:45:43 其他开发

将 HDF5 文件中的大型数据集读入 x_train 并在 keras 模型中使用

我有一个包含 16000 个不同 512x512 numpy 数组的大型 HDF5 文件.显然,将文件读入内存会使其崩溃(文件总大小为 40 GB). 我想将此数组加载到数据中,然后将数据拆分为train_x 和test_x.Tha 标签存储在本地. 我这样做只是创建了文件的路径而不获取 h5 = h5py.File('/file.hdf5', 'r')数据 = h5.get('数 ..
发布时间:2021-09-05 20:03:18 其他开发

缺少可选的依赖“表".在熊猫中 to_hdf

以下代码给了我错误. 将pandas导入为pddf = pd.DataFrame({'a' : [1,2,3]})df.to_hdf('temp.h5', key='df', mode='w') 这给我带来了错误. 缺少可选的依赖项“表".使用 pip 或 conda 安装表. 我已经试过了ImportError HDFStore requires PyTables No mo ..
发布时间:2021-06-13 20:04:12 其他开发

将matlab数据结构读入numpy数组

我有一组 MAT 文件,其中包含一个 ma​​tlab struct.该结构有一堆数组.我想打开文件并将它们全部传输到数组中.到目前为止,我已经编写了以下代码: 导入h5py>>>fs = h5py.File('statistics_VAD.mat','r')>>>列表(fs.keys())['#refs#', '数据']>>>>>>fs['data'].visititems(lambda n, ..
发布时间:2021-06-11 18:31:58 其他开发

是否可以在不知道结构的情况下制作将与python 3.6中的另一个文件相同的hdf5文件?

如果我有一个hdf5文件 f1.h5 ,并且我想将此文件复制到另一个文件中(例如 f2.h5 ),但是我没有我不知道 f1.h5 的结构,我想自动复制它,我可以使用 h5py 的一些技巧来做到这一点吗? 解决方案 我不了解h5py,但是应该可以通过以下方式实现: f1 = open('f1.h5','rb')f2 = open('f2.h5','wb')f2.write(f1.read ..
发布时间:2021-05-13 20:52:13 其他开发

将Python词典保存到netCDF4文件

我正在学习对netCDF4(和一般的netCDF4)使用Python模块.使用HDF5文件格式,有一种自然的方法可以将Python词典转换为HDF5数据结构-使用组的属性: 参数= {'a':1.0,'b':2.0,'c':3.0}f = h5py.File("test.hdf5",'w')hdf_parms = f.create_group("parameters")对于k,v在paramet ..
发布时间:2021-05-13 20:52:10 其他开发

pytables添加重复子类作为列

我正在创建具有严格参数的HDF5文件.它具有1个包含变量列的表.某一时刻,列变得重复,并附加了不同的数据.显然,我不能在IsDescription类中添加循环.当前,类Segments已被添加到类Summary_data下两次.我需要打电话给segments_k 70次.最好的方法是什么?谢谢. 类头(IsDescription):_v_pos = 1id = Int16Col(dflt = 1 ..
发布时间:2021-05-13 20:52:06 其他开发

安装lib表时出错,在Windows中找不到hdf5

我无法在Windows环境中执行表lib的isntall,无法找到解决方案,该错误是关于hdf5安装和hdf5目录的! 有人知道我该如何解决? 错误是: C:\ Users \ thiago.bueno> pip安装-升级表收集表使用缓存的https://files.pythonhosted.org/packages/4d/53/8f34ce887c2a2ad80518980419 ..
发布时间:2021-05-13 20:52:03 其他开发

有没有一种方法可以将指定的表快速提取到另一个HDF5文件中?

我要解决的问题如下-我运行了一个长时间运行的Python(可能需要花费数小时才能完成)的进程,该进程最多可以生成80000个HDF5文件.由于瓶颈之一是不断打开和关闭这些文件,因此我决定编写一个概念验证代码,该代码使用单个HDF5文件作为包含许多表的输出.当然可以,但是我想知道是否存在将指定表(如果可能的话重命名)导出到单独文件中的快速方法? 解决方案 是的,至少有3种方法可以将数据集的内 ..
发布时间:2021-05-13 20:52:00 其他开发

如何在Linux上为netCDF4并行安装I/O?

我正在尝试为netCDF4并行安装I/O.我正在运行的脚本如下: #!/bin/bash模块吹扫模块负载gcc/5.3.1模组mpich/3.2#zlibcd/存储/家庭/htn5098/mkdir -p local_lib/R40cd local_lib/R40wget ftp://ftp.unidata.ucar.edu/pub/netcdf/netcdf-4/zlib-1.2.8.tar. ..
发布时间:2021-05-13 20:51:56 其他开发

C ++ HDF5找不到-lhdf5d

情况:我想创建一个程序来读取 .hdf5 文件中的内容. 我做了什么:什么都没有,只是将 hdf5.lib 添加到项目中. 问题: 我遇到两个错误 . 解决方案 解决方案是我删除此行中的最后一个"d": else:win32:CONFIG(debug,debug | release):LIBS + = -L'C:/Program Files/HDF_Group/ ..
发布时间:2021-05-13 20:51:53 其他开发

使用熊猫将CSV文件转换为HDF5

当我使用熊猫将csv文件转换为hdf5文件时,生成的文件非常大.例如,一个170Mb的测试csv文件(23列,130万行)将产生2Gb的hdf5文件.但是,如果绕过熊猫而直接写入hdf5文件(使用pytables),则只有20Mb.在以下代码(用于在熊猫中进行转换)中,数据框中的对象列的值被显式转换为字符串对象(以防止酸洗): #打开csv文件作为pandas数据框数据= pd.read_csv ..
发布时间:2021-05-13 20:51:48 其他开发