hdf5相关内容
我有以下数据(18,619,211行)存储为hdf5文件中的熊猫数据框对象: date id2 w id 100010 1980-03-31 10401 0.000839 100010 1980-03-31 10604 0.020140 100010 1980-03-31 12490 0.026149 100010 1980-03-31 13047 0.033560
..
我有大约500个HDF5文件,每个文件大约有1.5 GB。 每个文件具有相同的精确结构,这是7个复合(int,double,double )数据集和可变数量的样本。 现在我想通过连接每个数据集来连接所有这些文件,以便最终我有一个750 GB的文件,我的7个数据集。 目前我正在运行一个h5py脚本: 创建一个HDF5文件,正确的数据集无限制最大值 按顺序打开所有文件 检查
..
我正在尝试创建一个功能,可以将存储在PyTable中的大熊猫DataFrame更新为一个来自大熊猫DataFrame的新数据。我想检查在特定DatetimeIndexes(值为NaN或新的Timestamp可用)中的PyTable中是否缺少某些数据,将其替换为给定的大熊猫DataFrame中的新值,并将其附加到Pytable。基本上只是更新一个Pytable。我可以在Pandas中使用combin
..
我有一个通过HDFStore存储的Pandas DataFrame,它基本上存储有关我正在做的测试运行的汇总行。 每行中的几个字段包含描述性字符串可变长度。 当我进行测试运行时,我创建一个新的DataFrame,其中包含一行: def export_as_df(self): return pd.DataFrame(data = [self._to_dict()],index
..
我有一个大约90 GB的 gzip 。这在磁盘空间中很好,但远远大于RAM。 如何将其导入熊猫数据框?我在命令行中尝试了以下操作: #从Python开始3.4.5 将pandas作为pd filename ='filename.gzip'#size 90 GB df = read_table(filename,compression ='gzip') 然而,几
..
我们正在评估我们将用于存储在分析C / C ++代码期间收集的数据的技术。在C ++的情况下,数据量可以相对较大,每TU〜20Mb。 读取以下SO answer 它让我认为 HDF5 可能是一种适合我们使用的技术。我想知道这里的人是否可以帮助我回答一些我最初的问题: 性能。数据的一般用法将是写一次并读取“几次”,类似于由编译器生成的“.o”文件的生存期。 HDF5如何与使用类似SQLi
..
使用Python3,Pandas 0.12 我试图向HDF5商店写入多个csv文件(总大小为7.9 GB),以便稍后处理。 csv文件每个包含大约一百万行,15列和数据类型大多是字符串,但是有一些浮动。但是当我试图读取csv文件时,我得到以下错误: 跟踪(最近最后调用): 中的文件“filter-1.py”,第38行 to_hdf() 文件“filter-1.py”
..
我正在使用CSV格式的大型数据集。我试图逐列处理数据,然后将数据附加到HDF文件中的帧。所有这一切都使用熊猫。我的动机是,虽然整个数据集比我的物理内存大得多,列大小是可管理的。在稍后的阶段,我将通过将这些列加载到内存中并对其进行操作来执行特征智能逻辑回归。 我可以创建一个新的HDF文件,并使用第一列创建一个新框架: hdf_file = pandas.HDFStore('train_
..
我有一个100M行csv文件(实际上许多单独的csv文件),总计84GB。我需要将其转换为具有单个浮点数据集的HDF5文件。我在测试中使用了 h5py ,没有任何问题,但现在我无法在不耗尽内存的情况下执行最终数据集。 我如何写入HDF5而不必将整个数据集存储在内存中?我希望在这里的实际代码,因为它应该很简单。 我只是看着 pytables ,但它不看像数组类(对应于HDF5数据集)可以
..
我已经读过几次,在HDF5中打开压缩可以带来更好的读/写性能。 我不知道什么理想的设置可以实现良好的读/写性能: data_df.to_hdf(...,format ='fixed',complib = ...,complevel = ...,chunksize = ...) 我已经在使用固定的格式(即 h5py ),因为它比 table 更快。我有很强的处理器,不在
..
我目前在Windows 7 64bit上使用hdf5 1.8.15。 我的软件的源代码使用utf8编码保存在文件中。 一旦我调用任何支持std :: string的hdf5函数,ouput就会变得 但如果我使用 const char * 而不是 std :: string ,一切正常。这也适用于文件名。 这里是一个简短的示例: std :: string filenam
..
我使用HDF5库从c ++中的HDF5文件读取数据,我遇到的问题是以下: status = H5Dread( hdf5_dataset, hdf5_datatype, hdf5_dataspace_in_memory, hdf5_dataspace_in_file, H5P_DEFAULT, buf ); 最后一个参数应该是一个void指针,但是当我尝试传递
..
我使用C ++& HDF5写一个文件。但遇到问题。这是我使用的代码: void fileRead :: writeFile(string name,const vector * data){ int dimn = data-> size(); hsize_t dim [1] = {data-> size()}; // - > 2 ^ 13! hid_t
..
我一直在试图使用CLion编辑器和MinGW在Windows 10(64位)上使用HDF5设置我的cmake项目。经过一段时间试图让我的CMakeLists文件设置正确,我有一些工作 - 代码编译,没有从mingw32-make或从cmake的错误。然而,我仍然得到红色下划线的错误在CLION,这似乎没有任何影响建设,但我有一种感觉,他们在那里,因为我做了一些不正确的。 (我是非常新的做比C ++
..
我有一个2-d数组: data [] [] 传递到方法。方法如下: void WriteData(int data [48] [100],int sizes [48]) 数据的大小实际上不是48 x 100,而是48 x [i]。也就是说每行可以有不同的长度!在一个简单的情况下,我处理,所有行是相同的大小(但不是100),所以你可以说数组是48 X sizes [0]。
..
我对C ++和armadillo很新,我遇到了下面描述的建筑错误。我试图测试以下简单的代码将犰狳矩阵保存为hdf5文件: #include #include using namespace std; using namespace arma; int main() { mat A = randu(240,
..
我在Microsoft Visual C ++ 2008中的H5文件中读取数据集。一切对于int类型和double类型的数据都很好,但是当我遇到字符串时遇到问题。在H5文件中,我有18个字符串,每个固定长度为24.我的代码如下: StrType strdatatype C_S1,24); char * buffer1 [18]; DataSet datasetCurveNames
..
使用 HDF5DotNet ,任何人都可以点我在例如code,这将打开一个HDF5文件,解压缩数据集的内容,并打印内容到标准输出? 到目前为止,我有以下几点: H5.Open(); VAR H5 = H5F.open(“example.h5”,H5F.OpenMode.ACC_RDONLY); var数据= H5D.open(H5“/时序/ aaPCBTime
..
是否有可用,使编写C ++载体或升压任何库或标题:: multi_arrays到HDF5数据集容易? 我已经看过了HDF5 C ++的例子,他们只是使用C ++语法来调用C函数,他们只写静态C阵列的数据集(见create.cpp)。 我缺少的地步!?提前 非常感谢, 亚当 解决方案 下面是怎么写的N维欧的multi_array 在HDF5格式S 下面是一个简单的例子: 的#in
..
如何(1)批量选择下HDF5文件中的所有阵列,则(2)对这些阵列应用的计算,最后3批在另一个HDF5文件中创建新的数组? 例如: 进口numpy的 导入表文件=中openFile('文件1“,”R“)数组1 = file.root.array1 array1_cal =(数组1< = 1) newfile.createArray('/','array1_cal',array1_cal)数
..