dask-distributed相关内容

是否可以在创建后将工作人员资源分配给DASK分布式工作人员?

根据标题,如果我通过Helm或Kubernetes创建Worker,是否可以在创建Worker后分配“Worker Resources”(https://distributed.readthedocs.io/en/latest/resources.html#worker-resources)? 使用情形是命中数据库的任务,我想限制在给定运行中能够命中数据库的进程数量,而不限制群集的总大小。 ..
发布时间:2022-08-13 10:29:10 其他开发

DASK在群集之间切换或更改群集上下文

我是新来达斯克的,如果你觉得这个问题很愚蠢,请原谅。在DASK中,我正在使用一个包含大约50 GB数据的DASK数据帧。这些数据是字符串数据,我需要在将其提供给机器学习算法(使用线程进行快速处理)之前对其进行预处理(使用进程进行快速处理)。现在的问题是,当我根据进程设计集群时,数据帧操作是快的,但相对于线程来说,它是慢的(但线程使用机器学习是快的)。因此,我正在寻找一种可以从进程切换到线程环境的解 ..
发布时间:2022-08-13 10:07:48 其他开发

任务:n数据帧组上的唯一方法By

我想知道是否有可能在GroupBy Aggregation with Dask.之后从给定列中获得唯一项的数量。我在文档中没有看到任何类似的内容。它可以在 pandas 数据框上使用,并且真的很有用。我看到了一些与此相关的问题,但我不确定它是否已实施。 有人能给我一些提示吗? 推荐答案 若要展开this comment,可以直接在序列组上使用nunique: import ..
发布时间:2022-08-13 10:00:51 Python

如果已创建dask.Distributed客户端,则xarray.open_mfdatet()不起作用

我有一个奇怪的问题,我希望能提供一些意见。基本上,我在AWS Pangeo Cloud上运行一台笔记本,并使用xr.open_mfdataset在S3(带有s3f)上打开一些GOES-16卫星数据。 如果我根本不使用DASK,这将非常有效,因为数据集在几分钟内就构建好了。 但是,如果我在打开文件之前创建dask.distributed客户端,open_mfdataset似乎永远挂起。 ..
发布时间:2022-04-14 16:32:21 Python

正在使用--preload初始化DaskWorker中的全局任务模块?

我试图实现类似于这些问题(Initializing state on dask-distributed workers,Setting up Dask worker with variable)的内容,其中我有一个(相对)大的模型,我希望在接受需要该模型的任务的工作线程子集上预初始化该模型。理想情况下,我甚至不希望客户端计算机具有该模型。 在发现这些问题之前,我最初的尝试是在共享模块work ..
发布时间:2022-04-14 16:26:53 Python

将数据分散到任务集群工作进程:未知地址方案';网关';

我正在遵循the accepted answer to this SO question上找到的代码(&q;块,然后是散布部分),但在尝试将 pandas 散布给工作人员时遇到奇怪的错误。DataFrame。 如果重要的话,我正在使用jupyter笔记本电脑。 我不确定此错误是什么意思,它非常隐晦,因此如果有任何帮助,我们将不胜感激。 from dask_gateway impo ..
发布时间:2022-04-14 16:24:09 Python

DASK DataFrame Groupby导致一个分区内存问题

我正在将64个压缩的CSV文件(可能为70-80 GB)读入到一个DASK数据帧中,然后使用聚合运行Groupby。 作业从未完成,因为Groupby似乎创建了一个只有一个分区的数据框。 This post和this post已经解决了此问题,但重点关注计算图形,而不是在生成的数据帧太大时遇到的内存问题。 我尝试了重新分区的解决方法,但作业仍然无法完成。 我做错了什么,必须 ..
发布时间:2022-04-14 16:19:15 其他开发

演员和蒙面工

client = Client('127.0.0.1:8786',direct_to_workers=True) future1 = client.submit(Counter, workers= 'ninja',actor=True) counter1 = future1.result() print(counter1) 一切都很好,但如果重新启 ..
发布时间:2022-04-14 16:15:03 其他开发

任务坚持行为不一致

如果我注释掉此行,我发现DaskPersistent有奇怪的行为 # client = Client(memory_limit='20GB',n_workers=1) # Connect to distributed cluster and override default 并执行 dd_feature_009a013a_normalized_noneedshift = dd_f ..
发布时间:2022-04-14 15:39:08 Python

限制 Dask CPU 和内存使用(单节点)

我在一台计算机上运行 Dask,其中运行 .compute() 以对巨大的镶木地板文件执行计算将导致 dask 用完系统上的所有 CPU 内核. 将 dask 导入为 dddf = dd.read_parquet(parquet_file) # 非常大的文件打印(df.names.unique().计算()) 是否可以将 dask 配置为使用特定数量的 CPU 内核并将其内存使用限制为 32 ..
发布时间:2021-06-13 20:38:51 Python

客户关闭后,Dask分布式获取期货

无论如何,有没有防止dask/distributed取消已排队& ;;当客户关闭时执行期货吗? 我想使用jupyter笔记本启动一些非常长时间的分布式仿真,关闭笔记本,然后稍后再获取结果. 解决方案 您可以使用“发布"机制在调度程序中保留对某些数据的引用,以便以后在另一个客户端中检索.存在两种形式,它们使用不同的语法执行相同的操作: >>>client.publish_dat ..
发布时间:2021-04-28 19:36:00 Python

使所有迟钝的工作人员都可以使用服务中的所有导入的最佳方法是什么?

我对如何使Dask工人可以使用这些进口品有一些疑问.1)我看到使用upload_file功能可以使文件可供worker使用.除此之外,还有什么其他方法可以做到这一点?2)如果我们为所有导入都包含upload_file,那么对于后端中的每个服务调用,它将继续上传给工作人员吗?执行任务后,它会被删除吗? 解决方案 是的,有很多方法可以做到这一点,具体取决于您部署dask的方式. 几个例子 ..
发布时间:2021-04-28 19:35:48 其他开发

达斯调度程序为空/图形未显示

我的设置如下: #etl.py从dask.distributed import客户端导入dask从任务导入任务1,任务2,任务3def runall(** kwargs):打印(“完成")def etl():客户端=客户端()任务= {}任务['task1'] = dask.delayed(任务)(* args)任务['task2'] = dask.delayed(任务)(* args)任务[' ..
发布时间:2021-04-28 19:35:45 Python

dask dataframe最佳分区大小,适用于70GB数据联接操作

我有一个大约70GB的dask数据帧和3个无法容纳到内存中的列.我的机器是8 CORE Xeon,具有64GB的Ram和本地的Dask群集. 我必须将3列中的每列都包含在另一个更大的数据框中. 文档建议分区大小为100MB.但是,鉴于这种数据量,加入700个分区似乎比例如加入70个分区(1000 MB)要多得多. 是否有理由将其保持在700 x 100MB的分区上?如果不是,应该 ..
发布时间:2021-04-28 19:35:22 其他开发

Dask Distributed-用于监视内存使用情况的插件

我有一个分布式Dask集群,我可以通过Dask Distributed Client将大量工作发送给该集群. 在发送大量工作结束时,我很想得到一份报告或告诉我每个工人的最大内存使用量是什么. 是否可以通过现有的诊断工具进行? https://docs.dask.org/en/latest/diagnostics-distributed.html 谢谢!最好, 解决方案 专 ..
发布时间:2021-04-28 19:35:18 其他开发