dask-dataframe - IT屋-程序员软件开发技术分享社区

DASK在群集之间切换或更改群集上下文

我是新来达斯克的，如果你觉得这个问题很愚蠢，请原谅。在DASK中，我正在使用一个包含大约50 GB数据的DASK数据帧。这些数据是字符串数据，我需要在将其提供给机器学习算法(使用线程进行快速处理)之前对其进行预处理(使用进程进行快速处理)。现在的问题是，当我根据进程设计集群时，数据帧操作是快的，但相对于线程来说，它是慢的(但线程使用机器学习是快的)。因此，我正在寻找一种可以从进程切换到线程环境的解 ..

发布时间：2022-08-13 10:07:48 dask dask-distributed dask-dataframe dask-ml 其他开发

更新：如何从DaskDataFrame转换/解析字符串日期

更新：我能够执行转换。下一步是将其放回ddf。我按照书中的建议所做的是：日期已分析并存储为单独的变量。使用删除了原始日期列 ddf2=ddf.drop('date',axis=1) 使用Assign追加新的分析日期 ddf3=ddf2.assign(date=parsed_date) 新日期已添加为新列，最后一列。问题1：有没有更有效的方 ..

发布时间：2022-07-16 12:19:58 python pandas datetime dask dask-dataframe Python

如何将行添加/追加到DaskDataFrame中的特定分区？

我想将一行追加到DaskDataFrames中的特定分区。我试过很多方法，但没有一个是可行的。有人能帮我这个忙吗。提前感谢我试过- first_partition = df.partitions[0] new_dd = first_partiton.append(row) df.partitions[0] = new_dd 这不起作用我甚至尝试使用map_artition ..

发布时间：2022-04-14 16:44:49 python dask dask-distributed dask-delayed dask-dataframe Python

任务，根据下一行添加新列

我有这个DASK数据框，最后一列是这个问题的重要信息： Dask DataFrame Structure: asks[0].amount asks[1].amount asks[2].amount asks[3].amount asks[4].amount asks[5].amount asks[6].amount asks[7].amount asks[8].a ..

发布时间：2022-04-14 16:42:01 python pandas dask dask-dataframe Python

达斯克：真正懒惰地分类

如果我有一个具有未知分区的数据集，并且希望根据列对其进行排序并将其输出到Parquet，则在我看来，Dask至少会执行两次部分工作： import dask import dask.dataframe as dd def my_identity(x): """Does nothing, but shows up on the Dask dashboard""" return ..

发布时间：2022-04-14 16:40:38 python pandas sorting dask dask-dataframe Python

将一列随机数添加到DaskDataFrame的正确方法

将一列随机数添加到DaskDataFrame的正确方法是什么？我显然可以使用map_partitions将列添加到每个分区，但我不确定当Dask并行化该计算时如何处理随机状态。(即，它是否会在所有工作进程中使用相同的随机状态，从而在每个工作进程中生成相同的随机数？) dask.array.random(https://docs.dask.org/en/latest/_modules/dask ..

发布时间：2022-04-14 16:31:06 python random dask random-seed dask-dataframe Python

任务集群：属性错误：DataFrame'；对象没有属性'；_Data'；

我在GCP上使用Dask群集。我正在使用此代码来部署它： from dask_cloudprovider.gcp import GCPCluster from dask.distributed import Client enviroment_vars = { 'EXTRA_PIP_PACKAGES': '"gcsfs"' } cluster = GCPCluster( ..

发布时间：2022-04-14 16:06:11 pandas dockerfile dask dask-dataframe Python

使用DASK导入大型CSV文件

我正在使用Dask680 GB导入一个非常大的CSV文件，然而，输出并不是我所期望的。我的目标是只选择一些列(6/50)，并可能过滤它们(这一点我不确定，因为似乎没有数据？)： import dask.dataframe as dd file_path = "/Volumes/Seagate/Work/Tickets/Third ticket/Extinction/species_all. ..

发布时间：2022-04-14 15:37:12 python dataframe dask dask-dataframe vaex Python

Dask Dataframe非唯一操作:工人内存不足(MRE)

tl; dr 我想 dd.read_parquet('*.parq')['column'].nunique().compute() 但我明白了警告-工作者超出了95％的内存预算.重新开始在工人被彻底杀害之前的几次. 长版我有一个数据集 100亿行，〜20列，和一台具有约200GB内存的计算机.我正在尝试使用dask的 LocalCluster ..

发布时间：2021-04-28 19:35:16 python memory dask dask-dataframe Python

在Dask Dataframe上使用set_index()并写入镶木地板会导致内存爆炸

我有一组试图在列上排序的Parquet文件.未经压缩的数据约为14Gb，因此Dask似乎是完成此任务的正确工具.我对Dask所做的一切是: 读取实木复合地板文件在其中一列上排序(称为“朋友") 以实木复合地板文件形式编写在单独的目录中如果没有Dask进程(只有一个，我正在使用同步调度程序)，我将无法执行此操作，并且内存不足并被杀死.这让我感到惊讶，因为没有一个分区的未压缩容量超 ..

发布时间：2021-04-28 19:34:31 python dask dask-dataframe Python

Dask:定期更新已发布的数据集并从其他客户端提取数据

我想将数据从队列(如redis)追加到published dask dataset上.然后其他python程序将能够获取最新数据(例如，每秒/分钟一次)并执行一些进一步的操作. 有可能吗? 应使用哪个附加接口?我应该先将其加载到pd.DataFrame还是更好地使用一些文本导入器? 假定的追加速度是多少?是否可以每秒添加1k/10k行? 是否还有其他好的建议可以在dask集群中交换 ..

发布时间：2020-08-10 18:58:12 dask dask-distributed dask-dataframe 其他开发

dask-dataframe相关内容