h5py相关内容

python h5py:我可以存储不同列具有不同类型的数据集吗?

假设我有一个表,其中有很多列,只有几列是浮点型的,其他则是小整数,例如: col1, col2, col3, col4 1.31 1 2 3 2.33 3 5 4 ... 我如何有效地存储它,假设我对这个数据集使用np.float32,存储被浪费了,因为其他列只有一个小整数,它们不需要那么多空间.如果我使用np.int16,则float列不准确 ..
发布时间:2020-11-22 01:34:16 Python

h5py-将对象动态写入文件吗?

我正在尝试将常规的python对象(几个键/值对)写入hdf5文件.我正在将h5py 2.7.0与python 3.5.2.3一起使用. 现在,我正在尝试将一个对象完整地写入数据集中: #...read dataset, store one data object in 'obj' #obj could be something like: {'value1': 0.09, 'stat ..
发布时间:2020-11-22 01:34:14 Python

HDF5添加numpy数组缓慢

第一次使用hdf5,所以您能帮我弄清楚什么是错的,为什么添加3d numpy数组比较慢. 预处理需要3s,加上3d numpy数组(100x512x512)30s并随每个样本增加 首先,我使用以下命令创建hdf: def create_h5(fname_): """ Run only once to create h5 file for dicom images """ ..
发布时间:2020-11-22 01:33:08 Python

使用属性从H5文件过滤HDF数据集

我有一个h5文件,其中包含多个组和数据集.每个数据集都有关联的属性.我想根据与之关联的各个属性在此h5文件中查找/过滤数据集. 示例: dataset1 =cloudy(attribute) dataset2 =rainy(attribute) dataset3 =cloudy(attribute) 我想找到具有weather属性/元数据的数据集为cloudy 以 pyth ..
发布时间:2020-11-22 01:33:06 Python

H5PY写得很慢

我有一个h5py数据集,如下所示.我想按字符串而不是按数值索引记录.因此,例如我可以通过dset[dset.attrs['id1']]获取第一条记录的值. 我正在尝试使用下面的代码编写属性,但这非常慢.如果我在循环中执行%timeit dset.attrs[rid] = idx,则一次写入大约为310ms.我写的字符串是36个字符.我有大约10万条记录需要写,大约需要9个小时.一定有什么大不 ..
发布时间:2020-11-22 01:32:57 其他开发

h5py是否将整个文件读入内存?

h5py是否将整个文件读入内存? 如果是的话,如果我有一个非常大的文件怎么办? 如果没有,如果每次我想要一个数据时都从硬盘中获取数据,会不会很慢?我怎样才能更快? 解决方案 h5py是否将整个文件读入内存? 不,不是.特别是,切片(dataset[50:100])允许您将数据集的一部分加载到内存中.有关详细信息,请参见 h5py文档. 如果不是,那么每次我想要一 ..
发布时间:2020-11-22 01:32:51 其他开发

有没有一种方法可以获取存储在hdf5文件中的数组切片的numpy样式视图?

我必须处理大型3D数据立方体.我想将它们存储在HDF5文件中(使用h5py或pytables).我经常只想对这些多维数据集的一部分进行分析.该部分太大,无法保存在内存中.我想对自己感兴趣的部分使用numpy样式视图,而无需将数据复制到内存中(类似于使用numpy memmap可以执行的操作).这可能吗?据我所知,使用h5py执行切片时,您在内存中获得了一个numpy数组. 有人问我为什么要这 ..
发布时间:2020-11-22 01:32:49 Python

如何从插值函数中获取特殊导数

我为一个简单的多维数据集创建了一个h5文件,然后通过python读取它,最后使用RegularGridInterpolator函数进行插值.一切对我来说都很完美.但是,我想知道如何更改代码,以便可以从此内插函数中派生代码?为了给您提供信息,我在这里提供了我的代码: 用于创建h5文件的代码 import numpy as np import h5py def f(x,y,z): retu ..
发布时间:2020-11-22 01:31:47 Python

使用h5py合并所有h5文件

我是编码方面的新手.有人可以使用h5py编写Python脚本吗?我们可以读取所有目录和子目录,以将多个h5文件合并为一个h5文件. 解决方案 您需要的是文件中所有数据集的列表.我认为递归函数的概念是这里所需要的.这将允许您从一个组中提取所有“数据集",但是当其中一个似乎是一个组本身时,递归地执行相同的操作,直到找到所有数据集为止.例如: / |- dataset1 |- group1 ..
发布时间:2020-11-22 01:31:42 Python

如何在h5py中指定自定义压缩过滤器

根据他们的h5py文档,“压缩过滤器可以由基础HDF5库动态加载.这是通过将过滤器编号作为参数作为参数传递给Group.create_dataset()来完成的."我有以下代码(工作正常): import numpy as np a = np.random.random(1e5) with h5py.File(args.baseName + '/allubf.h5', libver='lat ..
发布时间:2020-11-22 01:31:41 Python

使用适用于python的h5py包读取hdf文件时出错

我想从我从 MODIS 网站.链接中提供了一个样本文件.我正在使用以下代码行读取hdf文件: >>> import h5py >>> f = h5py.File( 'MYD08_M3.A2002182.051.2008334061251.psgscs_000500751197.hdf', 'r' ) 我得到的错误: Traceback (most recent call last) ..
发布时间:2020-11-22 01:31:38 Python

如何使用h5py在python中读取matlab数组

我有一个Matlab阵列> 2GB ... 我想用h5py读它.数据是一个简单的3D双数组. 但是我根本无法在互联网上找到线索. 有人可以帮助我吗? 我只需要一个例子,它是如何完成的. h5py文档无法帮助我. 解决方案 使用字典语法的替代方法: import h5py f = h5py.File('somefile.mat','r') myvar = f['myvar'].v ..
发布时间:2020-11-22 01:31:35 Python

使用h5py创建大量数据集-无法注册数据类型atom(无法插入重复键)

我正在尝试将大量numpy结构化数组作为数据集存储在hdf5文件中. 例如, f ['tree1'] =结构数组1 . . f ['tree60000'] =结构数组60000 (大约有6万棵树), 大约70%的读取文件的方式,我得到了错误 RuntimeError:无法注册数据类型原子(无法插入重复的密钥) 仅对于很大的ascii文件(10e7行,5gb)会出现此问题.如果 ..
发布时间:2020-11-22 01:31:20 Python

如何使用NumPy ndarray共享HDF5数据集中的内存

我正在编写一个应用程序,用于从传感器流式传输数据,然后以各种方式处理数据.这些处理组件包括可视化数据,进行一些数字运算(线性代数)以及将数据以HDF5格式写入磁盘.理想情况下,这些组件中的每一个都是自己的模块,所有组件都在同一Python进程中运行,因此IPC不会成为问题.这使我想到了如何有效存储流数据的问题. 数据集非常大(〜5Gb),因此我想通过在需要访问的组件之间共享数据来最大程度地减 ..
发布时间:2020-11-22 01:30:17 Python

如何列出h5py文件中的所有数据集?

我有一个存储numpy数组的h5py文件,但是尝试用我记得的数据集名称打开它时却得到了Object doesn't exist error,所以有什么办法可以列出该文件具有哪些数据集? with h5py.File('result.h5','r') as hf: #How can I list all dataset I have saved in hf? 解决方案 ..
发布时间:2020-11-22 01:29:13 其他开发

如何使用h5py遍历hdf5文件

如何使用h5py遍历hdf5文件的所有组和数据集? 我想使用for循环或类似方法从公用根目录中检索文件的所有内容. 解决方案 visit()和visititems()是您的朋友. cf. http://docs.h5py.org/en/latest/high /group.html#Group.visit .请注意,h5py.File也是h5py.Group.示例(未经测试): ..
发布时间:2020-11-22 01:29:11 其他开发

有使用h5py在Python中对大数据进行分析工作的经验吗?

我做了很多统计工作,并使用Python作为主要语言.我使用的某些数据集可能占用20GB的内存,这使得使用numpy,scipy和PyIMSL中的内存中函数对其进行操作几乎是不可能的.统计分析语言SAS在这里具有很大的优势,因为它可以对硬盘中的数据进行操作,而不是严格地在内存中进行处理.但是,由于各种原因,我想避免不得不在SAS中编写大量代码,因此试图确定我对Python有什么选择(除了购买更多的硬 ..
发布时间:2020-11-22 01:29:08 Python