dask-distributed相关内容
根据标题,如果我通过Helm或Kubernetes创建Worker,是否可以在创建Worker后分配“Worker Resources”(https://distributed.readthedocs.io/en/latest/resources.html#worker-resources)? 使用情形是命中数据库的任务,我想限制在给定运行中能够命中数据库的进程数量,而不限制群集的总大小。
..
我是新来达斯克的,如果你觉得这个问题很愚蠢,请原谅。在DASK中,我正在使用一个包含大约50 GB数据的DASK数据帧。这些数据是字符串数据,我需要在将其提供给机器学习算法(使用线程进行快速处理)之前对其进行预处理(使用进程进行快速处理)。现在的问题是,当我根据进程设计集群时,数据帧操作是快的,但相对于线程来说,它是慢的(但线程使用机器学习是快的)。因此,我正在寻找一种可以从进程切换到线程环境的解
..
我想知道是否有可能在GroupBy Aggregation with Dask.之后从给定列中获得唯一项的数量。我在文档中没有看到任何类似的内容。它可以在 pandas 数据框上使用,并且真的很有用。我看到了一些与此相关的问题,但我不确定它是否已实施。 有人能给我一些提示吗? 推荐答案 若要展开this comment,可以直接在序列组上使用nunique: import
..
我想将一行追加到DaskDataFrames中的特定分区。我试过很多方法,但没有一个是可行的。有人能帮我这个忙吗。提前感谢 我试过- first_partition = df.partitions[0] new_dd = first_partiton.append(row) df.partitions[0] = new_dd 这不起作用 我甚至尝试使用map_artition
..
我有一个奇怪的问题,我希望能提供一些意见。基本上,我在AWS Pangeo Cloud上运行一台笔记本,并使用xr.open_mfdataset在S3(带有s3f)上打开一些GOES-16卫星数据。 如果我根本不使用DASK,这将非常有效,因为数据集在几分钟内就构建好了。 但是,如果我在打开文件之前创建dask.distributed客户端,open_mfdataset似乎永远挂起。
..
我试图实现类似于这些问题(Initializing state on dask-distributed workers,Setting up Dask worker with variable)的内容,其中我有一个(相对)大的模型,我希望在接受需要该模型的任务的工作线程子集上预初始化该模型。理想情况下,我甚至不希望客户端计算机具有该模型。 在发现这些问题之前,我最初的尝试是在共享模块work
..
我正在遵循the accepted answer to this SO question上找到的代码(&q;块,然后是散布部分),但在尝试将 pandas 散布给工作人员时遇到奇怪的错误。DataFrame。 如果重要的话,我正在使用jupyter笔记本电脑。 我不确定此错误是什么意思,它非常隐晦,因此如果有任何帮助,我们将不胜感激。 from dask_gateway impo
..
我正在将64个压缩的CSV文件(可能为70-80 GB)读入到一个DASK数据帧中,然后使用聚合运行Groupby。 作业从未完成,因为Groupby似乎创建了一个只有一个分区的数据框。 This post和this post已经解决了此问题,但重点关注计算图形,而不是在生成的数据帧太大时遇到的内存问题。 我尝试了重新分区的解决方法,但作业仍然无法完成。 我做错了什么,必须
..
所有这些代码都可以在 pandas 中运行,但单线程运行速度很慢。 我有一个创建速度很慢的对象(它是Bloom Filter)。 我的Dask代码类似于: def has_match(row, my_filter): return my_filter.matches( a=row.a, b =row.b ) # ....make dask dat
..
client = Client('127.0.0.1:8786',direct_to_workers=True) future1 = client.submit(Counter, workers= 'ninja',actor=True) counter1 = future1.result() print(counter1) 一切都很好,但如果重新启
..
我有一个由500万条记录组成的数据帧。我正在尝试使用下面的代码来处理它,方法是利用Python中的DaskDataFrame import dask.dataframe as dd dask_df = dd.read_csv(fullPath) ............ for index , row
..
import dask.distributed def f(x, y): return x, y client = dask.distributed.Client() client.map(f, [(1, 2), (2, 3)]) 不起作用。 [,
..
如果我注释掉此行,我发现DaskPersistent有奇怪的行为 # client = Client(memory_limit='20GB',n_workers=1) # Connect to distributed cluster and override default 并执行 dd_feature_009a013a_normalized_noneedshift = dd_f
..
我正在我的 dask worker 上运行一个简单的程序.下面是程序. 将 numpy 导入为 np从 dask.distributed 导入客户端导入作业库从 sklearn.datasets 导入 load_digits从 sklearn.model_selection 导入 RandomizedSearchCV从 sklearn.svm 导入 SVC客户端 = 客户端('127.0.0.1
..
我在一台计算机上运行 Dask,其中运行 .compute() 以对巨大的镶木地板文件执行计算将导致 dask 用完系统上的所有 CPU 内核. 将 dask 导入为 dddf = dd.read_parquet(parquet_file) # 非常大的文件打印(df.names.unique().计算()) 是否可以将 dask 配置为使用特定数量的 CPU 内核并将其内存使用限制为 32
..
无论如何,有没有防止dask/distributed取消已排队& ;;当客户关闭时执行期货吗? 我想使用jupyter笔记本启动一些非常长时间的分布式仿真,关闭笔记本,然后稍后再获取结果. 解决方案 您可以使用“发布"机制在调度程序中保留对某些数据的引用,以便以后在另一个客户端中检索.存在两种形式,它们使用不同的语法执行相同的操作: >>>client.publish_dat
..
我对如何使Dask工人可以使用这些进口品有一些疑问.1)我看到使用upload_file功能可以使文件可供worker使用.除此之外,还有什么其他方法可以做到这一点?2)如果我们为所有导入都包含upload_file,那么对于后端中的每个服务调用,它将继续上传给工作人员吗?执行任务后,它会被删除吗? 解决方案 是的,有很多方法可以做到这一点,具体取决于您部署dask的方式. 几个例子
..
我的设置如下: #etl.py从dask.distributed import客户端导入dask从任务导入任务1,任务2,任务3def runall(** kwargs):打印(“完成")def etl():客户端=客户端()任务= {}任务['task1'] = dask.delayed(任务)(* args)任务['task2'] = dask.delayed(任务)(* args)任务['
..
我有一个大约70GB的dask数据帧和3个无法容纳到内存中的列.我的机器是8 CORE Xeon,具有64GB的Ram和本地的Dask群集. 我必须将3列中的每列都包含在另一个更大的数据框中. 文档建议分区大小为100MB.但是,鉴于这种数据量,加入700个分区似乎比例如加入70个分区(1000 MB)要多得多. 是否有理由将其保持在700 x 100MB的分区上?如果不是,应该
..
我有一个分布式Dask集群,我可以通过Dask Distributed Client将大量工作发送给该集群. 在发送大量工作结束时,我很想得到一份报告或告诉我每个工人的最大内存使用量是什么. 是否可以通过现有的诊断工具进行? https://docs.dask.org/en/latest/diagnostics-distributed.html 谢谢!最好, 解决方案 专
..