h5py 第7页 - IT屋-程序员软件开发技术分享社区

合并hdf5文件

我有许多hdf5文件，每个文件都有一个数据集.数据集太大，无法保存在RAM中.我想将这些文件合并为一个单独包含所有数据集的文件(即不将这些数据集串联为一个数据集). 执行此操作的一种方法是创建hdf5文件，然后一个一个地复制数据集.这将很慢并且很复杂，因为它将需要被缓冲的副本. 有没有更简单的方法可以做到这一点?似乎应该存在，因为它实际上只是在创建一个容器文件. 我正在使用pyt ..

发布时间：2020-11-22 01:18:48 python hdf5 h5py Python

H5PY不坚持分块规范?

问题: 我有现有的netCDF4文件(其中约有5000个)(通常形状为96x3712x3712)数据点(float32).这些文件的第一个维度是时间(每天1个文件)，第二个和第三个空间维度是. 目前，由于以下原因，在第一维上切片(甚至是局部切片)将花费大量时间: netCDF文件以1x3712x3712的块大小进行了分块.在时间维度上进行切片基本上会读取整个文件. 在所有较小的文件中循环( ..

发布时间：2020-11-22 01:18:45 python h5py netcdf4 Python

使用h5py增量写入hdf5

我有一个问题，关于如何最好地使用python/h5py写入hdf5文件. 我有类似的数据: ----------------------------------------- | timepoint | voltage1 | voltage2 | ... ----------------------------------------- | 178 | 10 | ..

发布时间：2020-11-22 01:18:41 python hdf5 h5py Python

将数据写入SSD磁盘上的h5py似乎很慢:我该怎么办才能加快速度

我正在尝试将数据写入h5py数据集，但使用高内存12核GCE实例写入SSD磁盘，但是它运行了13个小时，而且看不到尽头. 我正在GCE实例上运行Jupyter Notebook，以释放大量小文件(存储在第二个非SSD磁盘上)，然后再将它们添加到SSD磁盘上存储的文件中的h5py数据集中. 最大形状= (29914, 251328) 大块= (59, 982) 压缩= gzip dtyp ..

发布时间：2020-11-19 00:41:38 python google-compute-engine h5py Python

在Google Cloud Bucket中保存Keras ModelCheckpoints

我正在使用带有TensorFlow后端的Keras在Google Cloud Machine Learning Engine上训练LSTM网络.在对gcloud和python脚本进行一些调整之后，我设法通过它部署了我的模型并执行了成功的训练任务. 然后，我尝试使用Keras modelCheckpoint回调，使每个周期之后的模型都保存检查点.通过Google Cloud运行本地培训工作可以 ..

发布时间：2020-11-18 20:25:16 tensorflow google-cloud-platform keras hdf5 h5py 其他开发

h5py：如何重命名尺寸？

我创建了一个句柄为fw的新文件。 fw.create_dataset（'grp1 / varname'，data = arr ）在此命令之前创建了组。 arr是一个尺寸为（2,3）的numpy数组。文件创建成功。但是，这些维度分别命名为phony_0和phony_1。一般来说，如何在组内创建维，然后将变量与它们关联？我尝试过， fw [ ..

发布时间：2020-10-22 01:42:54 python dimensions h5py Python

使用H5PY删除HDF5数据集

有什么方法可以从hdf5文件中删除数据集，最好使用h5py吗？或者，是否有可能在保留其他数据集完整的同时覆盖一个数据集？据我所知，h5py可以以5种模式读取/写入hdf5文件 f = h5py.File（“ filename.hdf5”，'mode'）其中模式可以是 r 以便读取， r + a 用于读写，但如果不存在则创建一个新文件， w 用于读写写入/覆盖， ..

发布时间：2020-10-17 22:32:26 python dataset hdf5 h5py Python

在SVHN数据集中访问hdf5组的两种方式之间有什么区别？

我需要读取SVHN数据集，并试图读取第一个图像的文件名。我很难理解HDF5的结构，尤其是在理解SVHN数据集的层次结构方面这两种读取图像名称的方法有什么区别？我在 getName（）函数： https： //github.com/bdiesel/tensorflow-svhn/blob/master/digit_struct.py 我在玩hdf5格式文件并想出了方法2 ..

发布时间：2020-10-17 22:28:33 python dataset hdf5 h5py Python

用于读取行的最佳HDF5数据集块形状

我有一个合理的大小（压缩后的18GB）HDF5数据集，并希望优化读取行的速度。形状为（639038，10000）。我将多次读取整个数据集中的某些行（例如〜1000行）。所以我不能使用x：（x + 1000）来切片行。使用h5py从内存不足的HDF5中读取行已经很慢，因为我必须通过一个排序列表并求助于花式索引。有没有办法避免花哨的索引编制，或者我可以使用更好的块形状/大小？我已经 ..

发布时间：2020-10-17 22:27:20 python performance dataset hdf5 h5py Python

核心4D图像tif存储为hdf5 python

我有27GB的2D Tiff文件，它们代表3D图像电影的片段。我希望能够像分割一个简单的numpy4d数组一样对这些数据进行切片。看起来dask.array是将数组作为hdf5文件存储在内存中后可以对其进行干净处理的好工具。如何将这些文件存储为hdf5文件首先，如果它们都不适合内存。我是h5.py和数据库的新手。谢谢。解决方案编辑：使用 dask.array 的 imr ..

发布时间：2020-10-15 18:34:35 python h5py dask Python

错误消息:h5py.h5py_warnings.H5pyDeprecationWarning:dataset.value已被弃用.使用数据集[()]代替

我打算运行 mbin 进行甲基化分析.但收到错误消息:h5py.h5py_warnings.H5pyDeprecationWarning: dataset.value has been deprecated. Use dataset[()] instead. 尝试了几次，同时尝试使用buildcontrols提取控件IPD. 环境: mbin版本:1.1.1 Python版本:2.7.1 ..

发布时间：2020-09-21 03:18:47 python bioinformatics h5py Python

多个小h5文件或一个大h5文件之间的最佳搭配是什么?

我正在处理巨大的卫星数据，这些数据将分成小块以提供深度学习模型.我正在使用pytorch，这意味着数据加载器可以使用多线程. [设置:python，Ubuntu 18.04] 我找不到任何答案，就数据访问和存储之间的最佳而言: 将所有数据注册到一个巨大的HDF5文件中(超过20Go) 将其拆分为多个(超过16000个)小型HDF5文件(大约 1.4Mo). 是否存在多个线程对一 ..

发布时间：2020-09-20 19:43:49 multithreading bigdata h5py 其他开发

如何使用低级Python API关闭HDF5?

通过结合以下堆栈溢出问题中定义的高级和低级Python h5py API，我能够修改HDF5文件的缓存设置:我收到一个错误消息，当我尝试重命名h5文件时，该文件仍处于打开状态. HDF5写入操作完成并刷新文件后，带有contextlib的Python"with"语句似乎没有关闭文件.如何确保使用低级或高级API关闭文件?你能举个例子吗? import h5py import contextl ..

发布时间：2020-08-24 04:28:03 python anaconda hdf5 h5py Python

如何在Python中检查.h5文件

如何查看给定的.h5文件在Python中具有哪些变量，数据集等? 我可以通过运行此文件来读取文件 import h5py f = h5py.File(filename, 'r') 我现在如何查看我的.h5文件具有哪些变量? 正在运行f.keys()会输出非信息 KeysView() 在Matlab中，我只是调 ..

发布时间：2020-08-10 22:44:19 python matlab python-3.x h5py Python

将稀疏矩阵存储为HDF5

我想以HDF5格式压缩并存储一个庞大的Scipy矩阵.我该怎么做呢?我尝试了以下代码: a = csr_matrix((dat, (row, col)), shape=(947969, 36039)) f = h5py.File('foo.h5','w') dset = f.create_dataset("init", data=a, dtype = int, compression ..

发布时间：2020-08-06 02:13:54 python scipy sparse-matrix hdf5 h5py Python

使用Unicode将字符串数据集存储在HDF5中

我正在尝试从包含特殊字符(如ø, æ , and å)的文件中存储变量字符串表达式.这是我的代码: import h5py as h5 file = h5.File('deleteme.hdf5','a') dt = h5.special_dtype(vlen=str) dset = file.create_dataset("text",(1,),dtype=dt) dset.attrs[s ..

发布时间：2020-07-13 05:57:37 python-3.x utf-8 h5py 其他开发

图像另存为HDF5彩色

我目前正在开发将文本文件和jpg图像转换为HDF5-Format的程序.用HDFView 3.0打开后，图像似乎只保存为灰度. hdf = h5py.File("Sample.h5") img = Image.open("Image.jpg") data = np.asarray((img), dtype="uint8") hdf.create_dataset("Photos/Image 1 ..

发布时间：2020-06-18 18:33:01 python image hdf5 h5py hdf Python

如何合并多个.h5文件?

在线提供的所有内容都太复杂了.对于部分导出的数据库，我的数据库很大.我现在有三个.h5文件，我想将它们合并为一个.h5文件，以进行进一步的工作.我该怎么办? 解决方案这些示例展示了如何使用 h5py 在2个HDF5文件之间复制数据集.有关 PyTables 示例，请参见我的其他答案.我创建了一些简单的HDF5文件来模拟CSV类型的数据(所有浮点数，但是如果您使用的是混合数据类型，则过程相 ..

发布时间：2020-06-18 18:32:53 hdf5 h5py pytables hdf 其他开发

在Matplotlib中使用动画的Colormap问题

我使用 matplotlib.animation 为名为 arr 的3D数组中的数据设置动画。我使用 h5py 库从h5文件中读取数据，一切正常。但是当使用动画时，颜色图卡在数据范围的第一帧中，经过一些步骤后，它在绘制时会显示未归一化的颜色。这是我的代码： import numpy as np import h5py import matplotlib.pyplot as ..

发布时间：2020-06-06 18:40:31 python animation matplotlib color-mapping h5py Python

为什么pickle + gzip在重复数据集上的表现优于h5py?

我正在保存一个包含重复数据的numpy数组: import numpy as np import gzip import cPickle as pkl import h5py a = np.random.randn(100000, 10) b = np.hstack( [a[cnt:a.shape[0]-10+cnt+1] for cnt in range(10)] ) f_pkl_gz ..

发布时间：2020-05-27 20:26:28 python numpy gzip pickle h5py Python

h5py相关内容