DASK在群集之间切换或更改群集上下文 [英] Dask switch between cluster or changing cluster context

查看:0
本文介绍了DASK在群集之间切换或更改群集上下文的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我是新来达斯克的,如果你觉得这个问题很愚蠢,请原谅。在DASK中,我正在使用一个包含大约50 GB数据的DASK数据帧。这些数据是字符串数据,我需要在将其提供给机器学习算法(使用线程进行快速处理)之前对其进行预处理(使用进程进行快速处理)。现在的问题是,当我根据进程设计集群时,数据帧操作是快的,但相对于线程来说,它是慢的(但线程使用机器学习是快的)。因此,我正在寻找一种可以从进程切换到线程环境的解决方案。

目前,我正在使用进程集群保存预处理数据,然后关闭它并启动一个具有线程环境的新集群,以应用机器学习。

是否有其他方法可以解决此问题?

请在这方面帮帮我。

推荐答案

在我看来,预处理部分和机器学习部分可以单独开发。在您的情况下,您可以先保存Dask中的预处理数据,然后启动用于培训的另一个机器学习系统(例如,TensorFlow)。

要存储中间数据,传统的方法是使用HDFS或S3。但如果您担心来自外部存储的I/O成本,您可以尝试像v6d.io这样的分布式内存存储引擎,希望示例(https://v6d.io/examples/distributed-learning.html)能有所帮助。

这篇关于DASK在群集之间切换或更改群集上下文的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆