hdf5相关内容

在熊猫中查询HDF5

我有以下数据(18,619,211行)存储为hdf5文件中的熊猫数据框对象: date id2 w id 100010 1980-03-31 10401 0.000839 100010 1980-03-31 10604 0.020140 100010 1980-03-31 12490 0.026149 100010 1980-03-31 13047 0.033560 ..
发布时间:2017-04-14 05:56:00 Python

连接大量的HDF5文件

我有大约500个HDF5文件,每个文件大约有1.5 GB。 每个文件具有相同的精确结构,这是7个复合(int,double,double )数据集和可变数量的样本。 现在我想通过连接每个数据集来连接所有这些文件,以便最终我有一个750 GB的文件,我的7个数据集。 目前我正在运行一个h5py脚本: 创建一个HDF5文件,正确的数据集无限制最大值 按顺序打开所有文件 检查 ..
发布时间:2017-04-02 11:55:46 其他数据库

更新大熊猫DataFrame存储在一个Pytable与另一个大熊猫DataFrame

我正在尝试创建一个功能,可以将存储在PyTable中的大熊猫DataFrame更新为一个来自大熊猫DataFrame的新数据。我想检查在特定DatetimeIndexes(值为NaN或新的Timestamp可用)中的PyTable中是否缺少某些数据,将其替换为给定的大熊猫DataFrame中的新值,并将其附加到Pytable。基本上只是更新一个Pytable。我可以在Pandas中使用combin ..
发布时间:2017-03-26 02:42:52 Python

当字符串列的内容长于那些时,HDFStore.append(string,DataFrame)失败

我有一个通过HDFStore存储的Pandas DataFrame,它基本上存储有关我正在做的测试运行的汇总行。 每行中的几个字段包含描述性字符串可变长度。 当我进行测试运行时,我创建一个新的DataFrame,其中包含一行: def export_as_df(self): return pd.DataFrame(data = [self._to_dict()],index ..
发布时间:2017-03-26 01:31:56 Python

评估HDF5:HDF5为数据建模提供了哪些限制/特性?

我们正在评估我们将用于存储在分析C / C ++代码期间收集的数据的技术。在C ++的情况下,数据量可以相对较大,每TU〜20Mb。 读取以下SO answer 它让我认为 HDF5 可能是一种适合我们使用的技术。我想知道这里的人是否可以帮助我回答一些我最初的问题: 性能。数据的一般用法将是写一次并读取“几次”,类似于由编译器生成的“.o”文件的生存期。 HDF5如何与使用类似SQLi ..
发布时间:2017-03-14 01:04:11 其他数据库

Pandas ParserError当读取多个csv文件到HDF5时的EOF字符

使用Python3,Pandas 0.12 我试图向HDF5商店写入多个csv文件(总大小为7.9 GB),以便稍后处理。 csv文件每个包含大约一百万行,15列和数据类型大多是字符串,但是有一些浮动。但是当我试图读取csv文件时,我得到以下错误: 跟踪(最近最后调用): 中的文件“filter-1.py”,第38行 to_hdf() 文件“filter-1.py” ..
发布时间:2017-02-24 20:00:24 Python

将列添加到Pandas中HDF文件的框架

我正在使用CSV格式的大型数据集。我试图逐列处理数据,然后将数据附加到HDF文件中的帧。所有这一切都使用熊猫。我的动机是,虽然整个数据集比我的物理内存大得多,列大小是可管理的。在稍后的阶段,我将通过将这些列加载到内存中并对其进行操作来执行特征智能逻辑回归。 我可以创建一个新的HDF文件,并使用第一列创建一个新框架: hdf_file = pandas.HDFStore('train_ ..
发布时间:2017-02-24 17:34:03 Python

将大csv转换为hdf5

我有一个100M行csv文件(实际上许多单独的csv文件),总计84GB。我需要将其转换为具有单个浮点数据集的HDF5文件。我在测试中使用了 h5py ,没有任何问题,但现在我无法在不耗尽内存的情况下执行最终数据集。 我如何写入HDF5而不必将整个数据集存储在内存中?我希望在这里的实际代码,因为它应该很简单。 我只是看着 pytables ,但它不看像数组类(对应于HDF5数据集)可以 ..
发布时间:2017-02-24 17:32:11 Python

对于HDF5的快速读/写性能(在Python / pandas中)推荐的压缩是什么?

我已经读过几次,在HDF5中打开压缩可以带来更好的读/写性能。 我不知道什么理想的设置可以实现良好的读/写性能: data_df.to_hdf(...,format ='fixed',complib = ...,complevel = ...,chunksize = ...) 我已经在使用固定的格式(即 h5py ),因为它比 table 更快。我有很强的处理器,不在 ..
发布时间:2016-12-25 13:48:28 Python

C ++ void指针

我使用HDF5库从c ++中的HDF5文件读取数据,我遇到的问题是以下: status = H5Dread( hdf5_dataset, hdf5_datatype, hdf5_dataspace_in_memory, hdf5_dataspace_in_file, H5P_DEFAULT, buf ); 最后一个参数应该是一个void指针,但是当我尝试传递 ..
发布时间:2016-11-01 22:28:56 C/C++开发

无法写入矢量大于2 ^ 13的HDF5文件

我使用C ++& HDF5写一个文件。但遇到问题。这是我使用的代码: void fileRead :: writeFile(string name,const vector * data){ int dimn = data-> size(); hsize_t dim [1] = {data-> size()}; // - > 2 ^ 13! hid_t ..
发布时间:2016-10-30 03:13:32 C/C++开发

CLion“实例化未引用的未知结构”但编译良好

我一直在试图使用CLion编辑器和MinGW在Windows 10(64位)上使用HDF5设置我的cmake项目。经过一段时间试图让我的CMakeLists文件设置正确,我有一些工作 - 代码编译,没有从mingw32-make或从cmake的错误。然而,我仍然得到红色下划线的错误在CLION,这似乎没有任何影响建设,但我有一种感觉,他们在那里,因为我做了一些不正确的。 (我是非常新的做比C ++ ..
发布时间:2016-10-30 01:43:33 C/C++开发

使用Visual C ++将2-D数组int [n] [m]写入HDF5文件

我有一个2-d数组: data [] [] 传递到方法。方法如下: void WriteData(int data [48] [100],int sizes [48]) 数据的大小实际上不是48 x 100,而是48 x [i]。也就是说每行可以有不同的长度!在一个简单的情况下,我处理,所有行是相同的大小(但不是100),所以你可以说数组是48 X sizes [0]。 ..
发布时间:2016-10-28 05:08:23 C/C++开发

从C ++中的hdf5读取字符串

我在Microsoft Visual C ++ 2008中的H5文件中读取数据集。一切对于int类型和double类型的数据都很好,但是当我遇到字符串时遇到问题。在H5文件中,我有18个字符串,每个固定长度为24.我的代码如下: StrType strdatatype C_S1,24); char * buffer1 [18]; DataSet datasetCurveNames ..
发布时间:2016-10-19 21:47:52 C/C++开发

HDF5实例code

使用 HDF5DotNet ,任何人都可以点我在例如code,这将打开一个HDF5文件,解压缩数据集的内容,并打印内容到标准输出? 到目前为止,我有以下几点: H5.Open(); VAR H5 = H5F.open(“example.h5”,H5F.OpenMode.ACC_RDONLY); var数据= H5D.open(H5“/时序/ aaPCBTime ..
发布时间:2016-08-29 13:48:46 C#/.NET

写一个boost :: multi_array的到HDF5数据集

是否有可用,使编写C ++载体或升压任何库或标题:: multi_arrays到HDF5数据集容易? 我已经看过了HDF5 C ++的例子,他们只是使用C ++语法来调用C函数,他们只写静态C阵列的数据集(见create.cpp)。 我缺少的地步!?提前 非常感谢, 亚当 解决方案 下面是怎么写的N维欧的multi_array 在HDF5格式S 下面是一个简单的例子: 的#in ..
发布时间:2016-08-12 17:59:07 C/C++开发

如何批量选择和numpy的计算阵列?

如何(1)批量选择下HDF5文件中的所有阵列,则(2)对这些阵列应用的计算,最后3批在另一个HDF5文件中创建新的数组? 例如: 进口numpy的 导入表文件=中openFile('文件1“,”R“)数组1 = file.root.array1 array1_cal =(数组1< = 1) newfile.createArray('/','array1_cal',array1_cal)数 ..
发布时间:2016-06-03 11:07:24 Python