dask-dataframe相关内容
我是新来达斯克的,如果你觉得这个问题很愚蠢,请原谅。在DASK中,我正在使用一个包含大约50 GB数据的DASK数据帧。这些数据是字符串数据,我需要在将其提供给机器学习算法(使用线程进行快速处理)之前对其进行预处理(使用进程进行快速处理)。现在的问题是,当我根据进程设计集群时,数据帧操作是快的,但相对于线程来说,它是慢的(但线程使用机器学习是快的)。因此,我正在寻找一种可以从进程切换到线程环境的解
..
更新: 我能够执行转换。下一步是将其放回ddf。 我按照书中的建议所做的是: 日期已分析并存储为单独的变量。 使用 删除了原始日期列 ddf2=ddf.drop('date',axis=1) 使用Assign追加新的分析日期 ddf3=ddf2.assign(date=parsed_date) 新日期已添加为新列,最后一列。 问题1:有没有更有效的方
..
我想将一行追加到DaskDataFrames中的特定分区。我试过很多方法,但没有一个是可行的。有人能帮我这个忙吗。提前感谢 我试过- first_partition = df.partitions[0] new_dd = first_partiton.append(row) df.partitions[0] = new_dd 这不起作用 我甚至尝试使用map_artition
..
我有这个DASK数据框,最后一列是这个问题的重要信息: Dask DataFrame Structure: asks[0].amount asks[1].amount asks[2].amount asks[3].amount asks[4].amount asks[5].amount asks[6].amount asks[7].amount asks[8].a
..
如果我有一个具有未知分区的数据集,并且希望根据列对其进行排序并将其输出到Parquet,则在我看来,Dask至少会执行两次部分工作: import dask import dask.dataframe as dd def my_identity(x): """Does nothing, but shows up on the Dask dashboard""" return
..
将一列随机数添加到DaskDataFrame的正确方法是什么?我显然可以使用map_partitions将列添加到每个分区,但我不确定当Dask并行化该计算时如何处理随机状态。(即,它是否会在所有工作进程中使用相同的随机状态,从而在每个工作进程中生成相同的随机数?) dask.array.random(https://docs.dask.org/en/latest/_modules/dask
..
我在GCP上使用Dask群集。我正在使用此代码来部署它: from dask_cloudprovider.gcp import GCPCluster from dask.distributed import Client enviroment_vars = { 'EXTRA_PIP_PACKAGES': '"gcsfs"' } cluster = GCPCluster(
..
我正在使用Dask680 GB导入一个非常大的CSV文件,然而,输出并不是我所期望的。我的目标是只选择一些列(6/50),并可能过滤它们(这一点我不确定,因为似乎没有数据?): import dask.dataframe as dd file_path = "/Volumes/Seagate/Work/Tickets/Third ticket/Extinction/species_all.
..
tl; dr 我想 dd.read_parquet('*.parq')['column'].nunique().compute() 但我明白了 警告-工作者超出了95%的内存预算.重新开始 在工人被彻底杀害之前的几次. 长版 我有一个数据集 100亿行, 〜20列, 和一台具有约200GB内存的计算机.我正在尝试使用dask的 LocalCluster
..
我有一组试图在列上排序的Parquet文件.未经压缩的数据约为14Gb,因此Dask似乎是完成此任务的正确工具.我对Dask所做的一切是: 读取实木复合地板文件 在其中一列上排序(称为“朋友") 以实木复合地板文件形式编写在单独的目录中 如果没有Dask进程(只有一个,我正在使用同步调度程序),我将无法执行此操作,并且内存不足并被杀死.这让我感到惊讶,因为没有一个分区的未压缩容量超
..
我想将数据从队列(如redis)追加到published dask dataset上.然后其他python程序将能够获取最新数据(例如,每秒/分钟一次)并执行一些进一步的操作. 有可能吗? 应使用哪个附加接口?我应该先将其加载到pd.DataFrame还是更好地使用一些文本导入器? 假定的追加速度是多少?是否可以每秒添加1k/10k行? 是否还有其他好的建议可以在dask集群中交换
..