pytables相关内容

HDFStore启动停止不起作用

很清楚我在做什么错吗? 我正在尝试熊猫HDFStore.选择 start 和 stop 选项,并没有什么改变. 我正在使用的命令是: import pandas as pd hdf = pd.HDFStore(path % 'results') len(hdf.select('results',start=15,stop=20)) 希望长度为4或5,或者算在内,但这给了我整 ..
发布时间:2020-11-22 19:15:05 Python

(在熊猫中)当以表格形式存储在HDF5中时,为什么频率信息会丢失?

我将HDF5格式的时间序列数据存储在大熊猫中,因为我希望能够直接在磁盘上访问数据,因此我在写时将PyTable格式与table=True一起使用. 在将TimeSeries对象写入HDF5之后,我似乎失去了频率信息. 这可以通过在以下脚本中切换is_table值来看到: import pandas as pd is_table = False times = pd.date_ ..
发布时间:2020-11-22 19:14:58 Python

熊猫HDFStore:查询不匹配的字符串时速度较慢

我的问题是,当我尝试查找DataFrame中不包含的字符串(存储在hdf5文件中)时,需要很长时间才能完成查询.例如: 我有一个包含2 * 10 ^ 9行的df.它存储在HDF5文件中.我有一个名为"code"的字符串列,它被标记为"data_column"(因此已被索引). 当我搜索数据集中存在的代码(store.select('df','code = valid_code'))时, ..
发布时间:2020-11-22 19:13:53 Python

熊猫HDF5选择非自然名称列上的位置

在我持续不断的大熊猫/HDF5问题热潮中,我遇到了以下问题: 我有一系列非自然的命名列(nb:由于充分的理由,负数是“系统" id等),通常不会出现问题: fact_hdf.select('store_0_0', columns=['o', 'a-6', 'm-13']) 但是,我的select语句确实覆盖了它: >>> fact_hdf.select('store_0_0' ..
发布时间:2020-11-22 19:12:31 Python

C扩展(HDF5)中的IO绑定线程的GIL

我有一个采样应用程序,它每秒获取一次 250,000 个样本,将它们缓冲在内存中,并最终附加到pandas提供的HDFStore上.总的来说,这很棒.但是,我有一个线程可以运行并不断清空数据采集设备( DAQ ),它需要定期运行.大约一秒钟的偏差往往会弄坏东西.以下是观察到的时序的极端情况. Start表示DAQ读取开始,Finish表示完成读,IO表示HDF写入(DAQ和IO都发生在单独的线程中 ..
发布时间:2020-11-22 19:12:27 Python

将几个hdf5文件合并到一个pytable中

我有几个hdf5文件,每个文件都具有相同的结构.我想通过某种方式合并hdf5文件来从其中创建一个pytable. 我的意思是,如果file1中的数组的大小为x,file2中的数组的大小为y,则pytable中的结果数组的大小将为x + y,首先包含来自file1的所有条目,然后包含所有来自file2的条目. 解决方案 此操作的方式在某种程度上取决于您拥有的数据类型.数组和CArray ..
发布时间:2020-11-22 19:10:57 其他开发

在具有500e6行的hdf5 pytable中查找重复项

问题 我有一个很大的数据集(> 500e6行),已将其放入pytables数据库中. 假设第一列是ID,第二列是每个ID的计数器.每个ID计数器组合必须是唯一的.我要查找的500e6行中有一个非唯一行. 作为初学者,我已经做了类似的事情: index1 = db.cols.id.create_index() index2 = db.cols.counts.create_in ..
发布时间:2020-11-22 19:10:26 Python

无法重新安装适用于Python 2.7的PyTables

除2.7之外,我还将安装Python 2.7.当再次为2.7安装PyTables时,出现此错误- 找到已安装的numpy 1.5.1软件包. ..错误::找不到本地HDF5安装. 您可能需要明确说明本地HDF5标头和 可以通过设置HDF5_DIR环境来找到库 变量或使用--hdf5命令行选项. 我对HDF的安装不清楚.我再次下载-并将其复制到/usr/local/hdf5目录.并尝试按 ..
发布时间:2020-11-22 19:10:22 Python

PyTables读取随机子集

是否可以从HDF5中读取行的随机子集(通过pyTables或最好是pandas)?我有一个非常大的数据集,其中包含一百万行,但只需要几千个样本就可以进行分析.那么从压缩的HDF文件中读取数据呢? 解决方案 使用HDFStore文档为 0.13支持通过构造索引进行随机访问 In [26]: df = DataFrame(np.random.randn(100,2),columns=[' ..
发布时间:2020-11-22 19:10:16 Python

将字典保存到文件(numpy和Python 2/3友好)

我想在Python中进行分层键值存储,这基本上可以归结为将字典存储到文件中.我的意思是任何类型的字典结构,都可能包含其他字典,numpy数组,可序列化的Python对象等等.不仅如此,我还希望它存储经过空间优化的numpy数组,并在Python 2和3之间很好地发挥作用. 下面是我知道的方法.我的问题是此列表中缺少什么,还有没有其他方法可以躲避我所有的违规者? Python的pickl ..
发布时间:2020-11-22 19:10:14 Python

使用pytables或pandas删除表或节点后,释放hdf5磁盘内存

我正在将HDFStore与pandas/pytables一起使用. 删除表或对象后,hdf5文件大小保持不变.以后,当添加其他对象来存储时,似乎会重用此空间,但是如果浪费了大空间,这可能是个问题. 我在pandas或pytables API中都没有找到可用于恢复hdf5内存的命令. 您知道有什么机制可以改善hdf5文件中的数据管理吗? 解决方案 请参见这里 您需要p ..
发布时间:2020-11-22 19:07:42 Python

我该如何解决3D规则网格插值问题

我是python新用户.我有一个h5文件,它是固定红移下的重力势能快照.我已经阅读了python中的h5文件,现在我想编写一个代码,该代码将通过使用三线性插值来给出给定值(x,y,z)的重力势能值.你们任何人都可以帮助我做到这一点吗?出于您的考虑,下面给出了代码: In [1]: import numpy as np In [2]: import h5py In [3]: from sc ..
发布时间:2020-11-22 01:37:33 Python

如何使用pytables或h5py将数据集对象复制到其他hdf5文件?

我选择了特定的hdf5数据集,并希望将其复制到新的hdf5文件中.我可以找到一些有关在两个文件之间进行复制的教程,但是如果您刚刚创建了一个新文件,又想将数据集复制到该文件,该怎么办?我以为下面的方法行得通,但事实并非如此.有没有简单的方法可以做到这一点? >>> dic_oldDataset['old_dataset'] ..
发布时间:2020-11-22 01:36:20 Python

使用属性从H5文件过滤HDF数据集

我有一个h5文件,其中包含多个组和数据集.每个数据集都有关联的属性.我想根据与之关联的各个属性在此h5文件中查找/过滤数据集. 示例: dataset1 =cloudy(attribute) dataset2 =rainy(attribute) dataset3 =cloudy(attribute) 我想找到具有weather属性/元数据的数据集为cloudy 以 pyth ..
发布时间:2020-11-22 01:33:06 Python

有没有一种方法可以获取存储在hdf5文件中的数组切片的numpy样式视图?

我必须处理大型3D数据立方体.我想将它们存储在HDF5文件中(使用h5py或pytables).我经常只想对这些多维数据集的一部分进行分析.该部分太大,无法保存在内存中.我想对自己感兴趣的部分使用numpy样式视图,而无需将数据复制到内存中(类似于使用numpy memmap可以执行的操作).这可能吗?据我所知,使用h5py执行切片时,您在内存中获得了一个numpy数组. 有人问我为什么要这 ..
发布时间:2020-11-22 01:32:49 Python

pytables的写速度比h5py快得多.为什么?

我注意到,如果我使用h5py库而不是pytables库,则编写.h5文件的时间会更长.是什么原因?当阵列的形状以前已知时,也是如此.此外,我使用相同的块大小,没有压缩过滤器. 以下脚本: import h5py import tables import numpy as np from time import time dim1, dim2 = 64, 1527416 # appe ..
发布时间:2020-11-22 01:25:39 Python