dask-dataframe相关内容

DASK在群集之间切换或更改群集上下文

我是新来达斯克的,如果你觉得这个问题很愚蠢,请原谅。在DASK中,我正在使用一个包含大约50 GB数据的DASK数据帧。这些数据是字符串数据,我需要在将其提供给机器学习算法(使用线程进行快速处理)之前对其进行预处理(使用进程进行快速处理)。现在的问题是,当我根据进程设计集群时,数据帧操作是快的,但相对于线程来说,它是慢的(但线程使用机器学习是快的)。因此,我正在寻找一种可以从进程切换到线程环境的解 ..
发布时间:2022-08-13 10:07:48 其他开发

更新:如何从DaskDataFrame转换/解析字符串日期

更新: 我能够执行转换。下一步是将其放回ddf。 我按照书中的建议所做的是: 日期已分析并存储为单独的变量。 使用 删除了原始日期列 ddf2=ddf.drop('date',axis=1) 使用Assign追加新的分析日期 ddf3=ddf2.assign(date=parsed_date) 新日期已添加为新列,最后一列。 问题1:有没有更有效的方 ..
发布时间:2022-07-16 12:19:58 Python

达斯克:真正懒惰地分类

如果我有一个具有未知分区的数据集,并且希望根据列对其进行排序并将其输出到Parquet,则在我看来,Dask至少会执行两次部分工作: import dask import dask.dataframe as dd def my_identity(x): """Does nothing, but shows up on the Dask dashboard""" return ..
发布时间:2022-04-14 16:40:38 Python

将一列随机数添加到DaskDataFrame的正确方法

将一列随机数添加到DaskDataFrame的正确方法是什么?我显然可以使用map_partitions将列添加到每个分区,但我不确定当Dask并行化该计算时如何处理随机状态。(即,它是否会在所有工作进程中使用相同的随机状态,从而在每个工作进程中生成相同的随机数?) dask.array.random(https://docs.dask.org/en/latest/_modules/dask ..
发布时间:2022-04-14 16:31:06 Python

使用DASK导入大型CSV文件

我正在使用Dask680 GB导入一个非常大的CSV文件,然而,输出并不是我所期望的。我的目标是只选择一些列(6/50),并可能过滤它们(这一点我不确定,因为似乎没有数据?): import dask.dataframe as dd file_path = "/Volumes/Seagate/Work/Tickets/Third ticket/Extinction/species_all. ..
发布时间:2022-04-14 15:37:12 Python

Dask Dataframe非唯一操作:工人内存不足(MRE)

tl; dr 我想 dd.read_parquet('*.parq')['column'].nunique().compute() 但我明白了 警告-工作者超出了95%的内存预算.重新开始 在工人被彻底杀害之前的几次. 长版 我有一个数据集 100亿行, 〜20列, 和一台具有约200GB内存的计算机.我正在尝试使用dask的 LocalCluster ..
发布时间:2021-04-28 19:35:16 Python

在Dask Dataframe上使用set_index()并写入镶木地板会导致内存爆炸

我有一组试图在列上排序的Parquet文件.未经压缩的数据约为14Gb,因此Dask似乎是完成此任务的正确工具.我对Dask所做的一切是: 读取实木复合地板文件 在其中一列上排序(称为“朋友") 以实木复合地板文件形式编写在单独的目录中 如果没有Dask进程(只有一个,我正在使用同步调度程序),我将无法执行此操作,并且内存不足并被杀死.这让我感到惊讶,因为没有一个分区的未压缩容量超 ..
发布时间:2021-04-28 19:34:31 Python

Dask:定期更新已发布的数据集并从其他客户端提取数据

我想将数据从队列(如redis)追加到published dask dataset上.然后其他python程序将能够获取最新数据(例如,每秒/分钟一次)并执行一些进一步的操作. 有可能吗? 应使用哪个附加接口?我应该先将其加载到pd.DataFrame还是更好地使用一些文本导入器? 假定的追加速度是多​​少?是否可以每秒添加1k/10k行? 是否还有其他好的建议可以在dask集群中交换 ..
发布时间:2020-08-10 18:58:12 其他开发