dask相关内容

dask-kubernetes:使用大写用户名创建Pod时出现问题

我正在GKE上学习 dask-kubernetes 。 我偶然发现了一个异步错误(错误:asyncio:从未检索到任务异常)。 请参阅以下步骤问题。 不过,对于使用远程Kubernetes集群部署dask-kubernetes的其他指导表示赞赏(请注意,我使用了头盔在这里拥有丰富的经验,但是想尝试本机方法,因为我无法扩展掌舵方法)。 创建集群: $ gcloud容器 ..
发布时间:2020-10-15 18:46:07 其他开发

将lambda函数应用于dask数据框

我希望对一个dask数据框应用一个 lambda 函数,以更改列中的标签(如果其小于一定百分比)。我使用的方法对pandas数据框效果很好,但是相同的代码对dask数据框无效。代码如下。 df = pd.DataFrame({'A':['ant ','ant','cherry','bee','ant'],'B':['cat','peach','cat','cat','peach'],'C' ..
发布时间:2020-10-15 18:46:05 Python

用变量设置Dask worker

我想在工作人员加载时分配一个更大的对象(或从磁盘加载),并将其放入全局变量(例如 calib_data )。 解决方案 类似于客户端方法 register_worker_callbacks 在这种情况下可以做您想要的事情。您仍然需要 somewhere 来放置变量,因为在python中没有真正的全局范围。例如,该位置可以是导入模块的任何属性,然后,任何工作人员都可以访问。您也可以将其添加为 ..
发布时间:2020-10-15 18:44:56 其他开发

将图分布到跨群集节点

我在Dask.delayed方面取得了不错的进展。作为一个小组,我们决定花更多的时间使用Dask处理图。 我对分布有疑问。我在集群上看到以下行为。我启动例如在8个节点中的每个节点上有8个工作线程,每个节点有4个线程,然后说/我client.compute 8个图来创建模拟数据以进行后续处理。我希望每个节点生成8个数据集。但是,似乎发生的是,这八个功能并非在不合理的情况下在前两个节点上运行。随 ..
发布时间:2020-10-15 18:44:52 其他开发

在dask中将日期插入日期时间索引的列

pd.DatetimeIndex(df_dask_dataframe ['name_col']) 解决方案 我认为您需要 dask.dataframe.DataFrame.set_index 如果列的 dtype 是 datetime64 : df_dask_dataframe = df_dask_dataframe.set_index('name_col' ..
发布时间:2020-10-15 18:44:48 Python

基于多列分组依据大小的Dask筛选器数据框

目标=通过一个淡淡的数据帧进行多列分组,并过滤​​出少于3行的分组。 基于此帖子: 在Dask中过滤分组的df 我能够计算每个groupby对象的大小,但是我不知道如何将其映射回我的数据框来自mutli-column groupby。我尝试了以下多种变体,但无济于事: a = input_df.groupby([“ FeatureID”,“ region”] )[“ Targ ..
发布时间:2020-10-15 18:44:44 Python

分布式内存错误

在分布式作业上运行Dask时,在调度程序上遇到以下错误: distributed.core-错误- 追溯(最近一次通话): 文件“ /usr/local/lib/python3.4/dist-packages/distributed/core.py”,第269行,写入 帧= protocol.dumps(msg) 文件“ /usr/local/lib/python3.4/dist-pack ..
发布时间:2020-10-15 18:44:40 Python

更新dask的数据框

我是新手,所以您能帮我吗? 我有一个csv文件,例如: id,人气,标签,看到的 0,100, #footbal,0 1,200,#2017,0 2,300,#1,0 以某种方式我设法获得了一个淡淡的数据框 hashtags_to_update : 看到ID 0118 2136 我想合并来自 hashtags_to_updat ..
发布时间:2020-10-15 18:44:36 其他开发

在Dask中过滤分组的df

与此类似的熊猫问题:在熊猫中过滤分组df 操作 根据应用于与groupby列不同的列的表达式来消除组。 问题 未对分组的数据帧实施过滤器。 已尝试 Groupby并应用以消除某些组,这会由于应用函数应该总是返回某些内容而返回索引错误? 在[16]中: def filter_empty(df): 如果不是df.label.values.all(4): 返回df ..
发布时间:2020-10-15 18:44:34 Python

Spark vs Dask的容错能力

我阅读了以下内容 Dask 文档(已知限制部分): It [ [Dask]不是容错的。任何工作人员的故障都可能使系统崩溃。 在出现错误的情况下不会正常失败 ,但我没有提到容错 与Spark进行比较。目前,这些是“原因,您可能会选择Spark” : 您更喜欢Scala或SQL语言 您大部分都是JVM 基础架构和旧系统 您想要一个成熟可靠的业务解决方案 您大多通过一些轻 ..
发布时间:2020-10-15 18:44:31 其他开发

如何找到为什么任务无法在dask分布式中失败?

我正在使用 dask.distributed 开发一个分布式计算系统。我使用 Executor.map 函数提交给它的任务有时会失败,而其他似乎相同的任务则会成功运行。 框架是否提供诊断问题的任何方法? 更新 失败是指增加由调度程序提供的Bokeh Web UI中失败任务的计数。 由 Executor.map 运行的函数返回无。它与数据库进行通信,从其表中检索一些行,执行计算并 ..
发布时间:2020-10-15 18:43:28 Python

子集Dask DataFrames

这是将dask数据帧的子集加载到内存中的有效方法吗? 而我 j = i + batch_size (如果j> len_df: j = len_df 子集= df.loc [i:j,'source_country_codes']。compute() 我在某处读到这可能是不正确的,因为dask如何分配索引号,因为它将较大的数据帧分为较小的熊猫dfs。另外,我也不认为dask数 ..
发布时间:2020-10-15 18:42:24 Python

dask dataframe head()返回空df

我有一个dask数据框,其中一列具有索引。 问题是,如果我执行df.head(),它总是会变空一个df,而df.tail总是会返回正确的df。我检查df.head的 始终检查第一个分区中的前n个条目。因此,如果我执行df.reset_index(),它应该可以工作,但事实并非如此 下面是重现此代码的代码: 导入dask.dataframe为dd 导入熊猫为pd data ..
发布时间:2020-10-15 18:42:20 Python

在自定义Dask图中包括关键字参数(kwargs)

我正在为Dask的一项操作构建自定义图形。熟悉如何在Dask图中将参数传递给函数,并已阅读 docs 。但是,似乎仍然缺少某些东西。 在Dask图中使用的函数之一带有关键字参数。尽管对于如何将关键字参数传递给它感到困惑。其中一些关键字参数代表Dask对象,因此它们必须明确地位于图形中(即 functools.partial 无效)。可以看到以下选项。 尝试以正确的位置顺序传递任何关键字 ..
发布时间:2020-10-15 18:42:17 Python

达斯克(Dask):腌制数据框以备后用是否安全?

我有一个包含许多dask数据帧的类似数据库的对象。我想处理数据,保存并在第二天重新加载以继续分析。 因此,我尝试使用pickle保存dask数据帧(不是计算结果,只是“计算计划”本身)。显然,它可以工作(至少,如果我在完全相同的机器上解开对象的东西)……但是有一些陷阱吗? 解决方案 通常来说通常是安全的。但是,有一些警告: 如果dask.dataframe包含自定义函数,例如与 ..
发布时间:2020-10-15 18:42:15 Python

Dask不支持的项目分配

在Dask Arrays中执行项目分配的方式有哪些?即使是非常简单的项目分配,如:[0] = 2 也不起作用。 解决方案 正确。这是文档中提到的第一个限制。 通常,涉及for循环和单个元素直接分配的工作流很难并行化。达阵数组不会进行此尝试。 ..
发布时间:2020-10-15 18:42:11 其他开发

使用Python Dask包会降低性能吗?

我正在测试dask.bag的一些测试,以准备处理数百万个文本文件的大型文本处理工作。现在,在我的数十至数十万个文本文件的测试集上,我发现dask的运行速度比直接的单线程文本处理功能慢5到6倍。 有人可以解释一下在大量文本文件上运行dask带来的速度优势吗?在开始变得更快之前,我必须处理多少个文件? 150,000个小的文本文件太少了吗?在处理文件时,我应该调整哪种性能参数以加快速度?与纯单线 ..
发布时间:2020-10-15 18:42:08 Python

带有无序索引的模糊数据框会导致无提示错误吗?

围绕dask.DataFrame的方法似乎都可以确保索引列已排序。但是,通过使用 from_delayed ,可以构造一个具有未排序的索引列的dask数据框: pdf1 =延迟(pd.DataFrame(dict(A = [1,2,3],B = [1,1,1])))。set_index('A') ) pdf2 =延迟(pd.DataFrame(dict(A = [1,2,3],B = [ ..
发布时间:2020-10-15 18:42:06 Python