hdf5相关内容

在Java中读取流媒体中的HDF5

我想读取一些几GB的HDF5流。为了便于移植,我还想继续使用原生Java。 我尝试过Java HDF对象包和Java HDF5接口(JHI5),但这些都是一些JNI解决方案(如果找不到更好的选择,我可能会重新考虑)。 https://github.com/jamesmudd/jhdf是本机Java库,但不支持切片或流,因此不适用于大文件。 本机Java中是否有更多选项? 编辑: ..
发布时间:2022-09-05 13:11:28 Java开发

如何在hdf5文件系统中创建组的属性并访问它们?

我想在hdf5文件中创建两个组。第一组/h5mdgroup description和/颗粒/脂质组group2 description。前者仅由一个直接属性‘Version’(=1.0)和两个组Creator和Author及其属性组成,因此这里没有数据集。 在/粒子/脂质组中,唯一缺少的部分是盒组box group description。最小的信息是两个属性:维度(=3)和边界条件,例如, ..
发布时间:2022-09-05 12:39:22 Python

有没有办法在行而不是列中处理pandas.DataFrame的数据类型?

parquet、feather和hdf5等大数据文件格式能够与面向列的表配合使用,以加快读取列的速度。 在我的用例中,我希望从netcdf4文件切换到feather文件格式,因为我读取某些列的速度比使用netcdf4快10倍。但不幸的是,我正在丢失增加文件大小的dtype规范。 所以我的想法是定义行的数据类型,但 pandas 只接受列数据类型。 有没有一种方法可以更像以列为导向的表 ..
发布时间:2022-05-11 23:00:03 Python

使用HDF5追加仿真数据

我当前多次运行模拟,希望保存这些模拟的结果,以便可以将其用于可视化。 模拟运行100次,每个模拟生成大约100万个数据点(即100万集的100万个值),我现在想高效地存储这些数据点。每一集的目标都是在所有100个模拟中生成每个值的平均值。 我的main文件如下: # Defining the test simulation environment def test_simulat ..
发布时间:2022-04-06 22:18:11 Python

h5py写入:如何高效地将数百万个.npy数组写入.hdf5文件?

我必须将大图像的子样本存储为.npy大小为(20,20,5)的数组。为了在训练分类模型时统一采样,我正在寻找一种有效的方法来存储近1000万个子样本,这样就可以做到这一点。 如果我将它们存储为整个图像,则训练期间的采样不能代表分布。我有存储空间,但尝试存储那么多小文件时会用完inode。h5py/写入hdf5文件是解决我问题的自然答案,但是这个过程非常慢。运行一个程序一天半的时间不足以编写所 ..
发布时间:2022-03-01 18:08:56 Python

在处理RAM中不能容纳的数据时,KERAS FIT_GENERATOR是不是最好的选择?

我正在构建一个可以对Knots进行分类的分类器。目前我有一个数据集,其中包含100,000张“解结”、100,000张“加三叶”和100,000张“负三叶”的图像。 在过去的40多天里,我一直在尝试让分类器处理这么大的数据集。到目前为止,我遇到的问题有: 1)数据集不适合CPU主内存:通过使用PyTables和Hdf5创建一些EArrays并将其追加到磁盘上,修复了此问题。现在我有一个1. ..
发布时间:2022-02-25 17:56:47 Python

写作与将浮点数组附加到 C++ 中 hdf5 文件中的唯一数据集

我正在处理多个文件,每次处理文件都会输出数千个浮点数组,我会将所有文件的数据存储在单个 hdf5 中的一个巨大数据集中以供进一步处理. 目前我对如何将数据附加到 hdf5 文件感到困惑.(在上面的代码中注释)在上面的 2 个 for 循环中,如您所见,我想一次将浮点的一维数组附加到 hdf5 中,而不是全部.我的数据是TB,我们只能将数据追加到文件中. 有几个问题: 在这种情况下 ..
发布时间:2022-01-22 11:07:57 C/C++开发

带有指针数组的 HDF5 结构

我正在尝试编写一个 HDF5 文件,其结构包含一个 int 和一个 float* typedef struct s1_t {诠释一个;浮动 *b;} s1_t; 但是,在分配 float* 并将值放入其中后,我仍然无法在 hdf5 文件中输出数据.我相信这是因为 write 函数假定复合数据类型是连续的,而动态分配的数组不会.有没有办法通过仍然使用指针数组来解决这个问题? /** 此示例显示 ..
发布时间:2022-01-21 13:08:35 C/C++开发

连接大量 HDF5 文件

我有大约 500 个 HDF5 文件,每个文件大约 1.5 GB. 每个文件都具有相同的精确结构,即 7 个​​复合(int、double、double)数据集和可变数量的样本. 现在我想通过连接每个数据集来连接所有这些文件,这样最后我就有一个包含 7 个数据集的 750 GB 文件. 目前我正在运行一个 h5py 脚本: 创建一个具有无限最大值的正确数据集的 HDF5 文 ..
发布时间:2022-01-21 12:43:03 其他开发

用 Python 编写 Fortran 无格式文件

我有一些由 Fortran77 编写的单精度 little-endian 无格式数据文件.我正在使用 Python 使用以下命令读取这些文件: 将 numpy 导入为 nporiginal_data = np.dtype('float32')f = 打开(文件名,'rb')original_data = np.fromfile(f,dtype='float32',count=-1)f.close ..
发布时间:2022-01-14 09:39:56 Python

是否可以使用 python 将磁盘上的不连续数据映射到数组?

我想将硬盘上的一个大的 fortran 记录 (12G) 映射到一个 numpy 数组.(映射而不是加载以节省内存.) 存储在 fortran 记录中的数据不连续,因为它被记录标记分割.记录结构为“标记,数据,标记,数据,...,数据,标记".数据区域和标记的长度是已知的. 标记之间的数据长度不是4字节的倍数,否则我可以将每个数据区域映射到一个数组中. 在memmap中设置off ..
发布时间:2022-01-14 09:39:00 Python

IOError:无法读取数据(无法打开目录) - 缺少 gzip 压缩过滤器

我以前从未使用过 HDF5 文件,开始时我收到了一些示例文件.我一直在使用 h5py 查看所有基础知识,查看这些文件中的不同组、它们的名称、键、值等等.一切正常,直到我想查看保存在组中的数据集.我得到了他们的 .shape 和 .dtype,但是当我尝试通过索引访问随机值时(例如 grp["dset"][0]),我收到以下错误: IOError Traceback(最近一次调用最后一次) ..
发布时间:2022-01-10 21:41:16 服务器开发

有使用 h5py 在 Python 中对大数据进行分析工作的经验吗?

我做了大量的统计工作,并使用 Python 作为我的主要语言.虽然我使用的一些数据集可能占用 20GB 的内存,这使得使用 numpy、scipy 和 PyIMSL 中的内存函数对它们进行操作几乎是不可能的.统计分析语言 SAS 在这里有一个很大的优势,它可以对来自硬盘的数据进行操作,而不是严格的内存处理.但是,我想避免在 SAS 中编写大量代码(出于各种原因),因此我试图确定我对 Python ..
发布时间:2022-01-08 17:18:52 Python

如何从 HDF5 文件中提取单个 JPEG 图像

我有一个很大的 HDF5 文件,其中包含图像及其相应的地面实况密度图.我想将它们放入网络 CRSNet 中,它需要单独文件中的图像.我怎样才能做到这一点?非常感谢. -- 基本信息 我有一个带有两个键“图像"的 HDF5 文件;和“密度地图".它们的形状是 (300, 380, 676, 1).300代表图片数量,380和676分别代表高度和宽度. -- 我需要放入 CRSNet 网络 ..
发布时间:2022-01-06 19:28:36 Python