dask-distributed - IT屋-程序员软件开发技术分享社区

是否可以在创建后将工作人员资源分配给DASK分布式工作人员？

根据标题，如果我通过Helm或Kubernetes创建Worker，是否可以在创建Worker后分配“Worker Resources”(https://distributed.readthedocs.io/en/latest/resources.html#worker-resources)？使用情形是命中数据库的任务，我想限制在给定运行中能够命中数据库的进程数量，而不限制群集的总大小。 ..

发布时间：2022-08-13 10:29:10 dask dask-distributed 其他开发

DASK在群集之间切换或更改群集上下文

我是新来达斯克的，如果你觉得这个问题很愚蠢，请原谅。在DASK中，我正在使用一个包含大约50 GB数据的DASK数据帧。这些数据是字符串数据，我需要在将其提供给机器学习算法(使用线程进行快速处理)之前对其进行预处理(使用进程进行快速处理)。现在的问题是，当我根据进程设计集群时，数据帧操作是快的，但相对于线程来说，它是慢的(但线程使用机器学习是快的)。因此，我正在寻找一种可以从进程切换到线程环境的解 ..

发布时间：2022-08-13 10:07:48 dask dask-distributed dask-dataframe dask-ml 其他开发

任务：n数据帧组上的唯一方法By

我想知道是否有可能在GroupBy Aggregation with Dask.之后从给定列中获得唯一项的数量。我在文档中没有看到任何类似的内容。它可以在 pandas 数据框上使用，并且真的很有用。我看到了一些与此相关的问题，但我不确定它是否已实施。有人能给我一些提示吗？推荐答案若要展开this comment，可以直接在序列组上使用nunique： import ..

发布时间：2022-08-13 10:00:51 python dask dask-distributed Python

如何将行添加/追加到DaskDataFrame中的特定分区？

我想将一行追加到DaskDataFrames中的特定分区。我试过很多方法，但没有一个是可行的。有人能帮我这个忙吗。提前感谢我试过- first_partition = df.partitions[0] new_dd = first_partiton.append(row) df.partitions[0] = new_dd 这不起作用我甚至尝试使用map_artition ..

发布时间：2022-04-14 16:44:49 python dask dask-distributed dask-delayed dask-dataframe Python

如果已创建dask.Distributed客户端，则xarray.open_mfdatet()不起作用

我有一个奇怪的问题，我希望能提供一些意见。基本上，我在AWS Pangeo Cloud上运行一台笔记本，并使用xr.open_mfdataset在S3(带有s3f)上打开一些GOES-16卫星数据。如果我根本不使用DASK，这将非常有效，因为数据集在几分钟内就构建好了。但是，如果我在打开文件之前创建dask.distributed客户端，open_mfdataset似乎永远挂起。 ..

发布时间：2022-04-14 16:32:21 python jupyter dask python-xarray dask-distributed Python

正在使用--preload初始化DaskWorker中的全局任务模块？

我试图实现类似于这些问题(Initializing state on dask-distributed workers，Setting up Dask worker with variable)的内容，其中我有一个(相对)大的模型，我希望在接受需要该模型的任务的工作线程子集上预初始化该模型。理想情况下，我甚至不希望客户端计算机具有该模型。在发现这些问题之前，我最初的尝试是在共享模块work ..

发布时间：2022-04-14 16:26:53 python dask dask-distributed Python

将数据分散到任务集群工作进程：未知地址方案'；网关'；

我正在遵循the accepted answer to this SO question上找到的代码(&q；块，然后是散布部分)，但在尝试将 pandas 散布给工作人员时遇到奇怪的错误。DataFrame。如果重要的话，我正在使用jupyter笔记本电脑。我不确定此错误是什么意思，它非常隐晦，因此如果有任何帮助，我们将不胜感激。 from dask_gateway impo ..

发布时间：2022-04-14 16:24:09 python dataframe jupyter-notebook dask dask-distributed Python

DASK DataFrame Groupby导致一个分区内存问题

我正在将64个压缩的CSV文件(可能为70-80 GB)读入到一个DASK数据帧中，然后使用聚合运行Groupby。作业从未完成，因为Groupby似乎创建了一个只有一个分区的数据框。 This post和this post已经解决了此问题，但重点关注计算图形，而不是在生成的数据帧太大时遇到的内存问题。我尝试了重新分区的解决方法，但作业仍然无法完成。我做错了什么，必须 ..

发布时间：2022-04-14 16:19:15 group-by dask dask-distributed 其他开发

如何使自定义对象可用于传递给Daskdf.Apply的函数(无法序列化)

所有这些代码都可以在 pandas 中运行，但单线程运行速度很慢。我有一个创建速度很慢的对象(它是Bloom Filter)。我的Dask代码类似于： def has_match(row, my_filter): return my_filter.matches( a=row.a, b =row.b ) # ....make dask dat ..

发布时间：2022-04-14 16:16:40 dask dask-distributed 其他开发

演员和蒙面工

client = Client('127.0.0.1:8786',direct_to_workers=True) future1 = client.submit(Counter, workers= 'ninja',actor=True) counter1 = future1.result() print(counter1) 一切都很好，但如果重新启 ..

发布时间：2022-04-14 16:15:03 dask dask-distributed 其他开发

DASK计算非常慢

我有一个由500万条记录组成的数据帧。我正在尝试使用下面的代码来处理它，方法是利用Python中的DaskDataFrame import dask.dataframe as dd dask_df = dd.read_csv(fullPath) ............ for index , row ..

发布时间：2022-04-14 16:04:46 python python-3.x performance dask dask-distributed Python

如何将多个参数传递给dask.Distributed.Client().map？

import dask.distributed def f(x, y): return x, y client = dask.distributed.Client() client.map(f, [(1, 2), (2, 3)]) 不起作用。 [, ..

发布时间：2022-04-14 15:44:40 dask dask-distributed 其他开发

任务坚持行为不一致

如果我注释掉此行，我发现DaskPersistent有奇怪的行为 # client = Client(memory_limit='20GB',n_workers=1) # Connect to distributed cluster and override default 并执行 dd_feature_009a013a_normalized_noneedshift = dd_f ..

发布时间：2022-04-14 15:39:08 python dask dask-distributed Python

joblib 连接到 Dask 后端:tornado.iostream.StreamClosedError: Stream is closed

我正在我的 dask worker 上运行一个简单的程序.下面是程序. 将 numpy 导入为 np从 dask.distributed 导入客户端导入作业库从 sklearn.datasets 导入 load_digits从 sklearn.model_selection 导入 RandomizedSearchCV从 sklearn.svm 导入 SVC客户端 = 客户端('127.0.0.1 ..

发布时间：2021-09-09 18:50:24 python-3.x tornado dask-distributed joblib dask-ml 其他开发

限制 Dask CPU 和内存使用(单节点)

我在一台计算机上运行 Dask，其中运行 .compute() 以对巨大的镶木地板文件执行计算将导致 dask 用完系统上的所有 CPU 内核. 将 dask 导入为 dddf = dd.read_parquet(parquet_file) # 非常大的文件打印(df.names.unique().计算()) 是否可以将 dask 配置为使用特定数量的 CPU 内核并将其内存使用限制为 32 ..

发布时间：2021-06-13 20:38:51 python python-3.x pandas dask dask-distributed Python

客户关闭后，Dask分布式获取期货

无论如何，有没有防止dask/distributed取消已排队& ;;当客户关闭时执行期货吗? 我想使用jupyter笔记本启动一些非常长时间的分布式仿真，关闭笔记本，然后稍后再获取结果. 解决方案您可以使用“发布"机制在调度程序中保留对某些数据的引用，以便以后在另一个客户端中检索.存在两种形式，它们使用不同的语法执行相同的操作: >>>client.publish_dat ..

发布时间：2021-04-28 19:36:00 python dask dask-distributed Python

使所有迟钝的工作人员都可以使用服务中的所有导入的最佳方法是什么?

我对如何使Dask工人可以使用这些进口品有一些疑问.1)我看到使用upload_file功能可以使文件可供worker使用.除此之外，还有什么其他方法可以做到这一点?2)如果我们为所有导入都包含upload_file，那么对于后端中的每个服务调用，它将继续上传给工作人员吗?执行任务后，它会被删除吗? 解决方案是的，有很多方法可以做到这一点，具体取决于您部署dask的方式. 几个例子 ..

发布时间：2021-04-28 19:35:48 dask dask-distributed 其他开发

达斯调度程序为空/图形未显示

我的设置如下: #etl.py从dask.distributed import客户端导入dask从任务导入任务1，任务2，任务3def runall(** kwargs):打印(“完成")def etl():客户端=客户端()任务= {}任务['task1'] = dask.delayed(任务)(* args)任务['task2'] = dask.delayed(任务)(* args)任务[' ..

发布时间：2021-04-28 19:35:45 python dask dask-distributed dask-delayed Python

dask dataframe最佳分区大小，适用于70GB数据联接操作

我有一个大约70GB的dask数据帧和3个无法容纳到内存中的列.我的机器是8 CORE Xeon，具有64GB的Ram和本地的Dask群集. 我必须将3列中的每列都包含在另一个更大的数据框中. 文档建议分区大小为100MB.但是，鉴于这种数据量，加入700个分区似乎比例如加入70个分区(1000 MB)要多得多. 是否有理由将其保持在700 x 100MB的分区上?如果不是，应该 ..

发布时间：2021-04-28 19:35:22 dataframe join dask dask-distributed 其他开发

Dask Distributed-用于监视内存使用情况的插件

我有一个分布式Dask集群，我可以通过Dask Distributed Client将大量工作发送给该集群. 在发送大量工作结束时，我很想得到一份报告或告诉我每个工人的最大内存使用量是什么. 是否可以通过现有的诊断工具进行? https://docs.dask.org/en/latest/diagnostics-distributed.html 谢谢！最好，解决方案专 ..

发布时间：2021-04-28 19:35:18 dask dask-distributed 其他开发

dask-distributed相关内容