dask相关内容
我正在GKE上学习 dask-kubernetes 。 我偶然发现了一个异步错误(错误:asyncio:从未检索到任务异常)。 请参阅以下步骤问题。 不过,对于使用远程Kubernetes集群部署dask-kubernetes的其他指导表示赞赏(请注意,我使用了头盔在这里拥有丰富的经验,但是想尝试本机方法,因为我无法扩展掌舵方法)。 创建集群: $ gcloud容器
..
我希望对一个dask数据框应用一个 lambda 函数,以更改列中的标签(如果其小于一定百分比)。我使用的方法对pandas数据框效果很好,但是相同的代码对dask数据框无效。代码如下。 df = pd.DataFrame({'A':['ant ','ant','cherry','bee','ant'],'B':['cat','peach','cat','cat','peach'],'C'
..
我有一个要在现有dask数据框中添加为列的numpy数组。 enc = LabelEncoder( ) nparr = enc.fit_transform(X [['url']]) I具有类型为dask dataframe的ddf。 ddf [’nurl’] = nparr ??? 有什么优雅的方法可以实现以上目标?
..
我想在工作人员加载时分配一个更大的对象(或从磁盘加载),并将其放入全局变量(例如 calib_data )。 解决方案 类似于客户端方法 register_worker_callbacks 在这种情况下可以做您想要的事情。您仍然需要 somewhere 来放置变量,因为在python中没有真正的全局范围。例如,该位置可以是导入模块的任何属性,然后,任何工作人员都可以访问。您也可以将其添加为
..
我在Dask.delayed方面取得了不错的进展。作为一个小组,我们决定花更多的时间使用Dask处理图。 我对分布有疑问。我在集群上看到以下行为。我启动例如在8个节点中的每个节点上有8个工作线程,每个节点有4个线程,然后说/我client.compute 8个图来创建模拟数据以进行后续处理。我希望每个节点生成8个数据集。但是,似乎发生的是,这八个功能并非在不合理的情况下在前两个节点上运行。随
..
pd.DatetimeIndex(df_dask_dataframe ['name_col']) 解决方案 我认为您需要 dask.dataframe.DataFrame.set_index 如果列的 dtype 是 datetime64 : df_dask_dataframe = df_dask_dataframe.set_index('name_col'
..
目标=通过一个淡淡的数据帧进行多列分组,并过滤出少于3行的分组。 基于此帖子: 在Dask中过滤分组的df 我能够计算每个groupby对象的大小,但是我不知道如何将其映射回我的数据框来自mutli-column groupby。我尝试了以下多种变体,但无济于事: a = input_df.groupby([“ FeatureID”,“ region”] )[“ Targ
..
在分布式作业上运行Dask时,在调度程序上遇到以下错误: distributed.core-错误- 追溯(最近一次通话): 文件“ /usr/local/lib/python3.4/dist-packages/distributed/core.py”,第269行,写入 帧= protocol.dumps(msg) 文件“ /usr/local/lib/python3.4/dist-pack
..
我是新手,所以您能帮我吗? 我有一个csv文件,例如: id,人气,标签,看到的 0,100, #footbal,0 1,200,#2017,0 2,300,#1,0 以某种方式我设法获得了一个淡淡的数据框 hashtags_to_update : 看到ID 0118 2136 我想合并来自 hashtags_to_updat
..
与此类似的熊猫问题:在熊猫中过滤分组df 操作 根据应用于与groupby列不同的列的表达式来消除组。 问题 未对分组的数据帧实施过滤器。 已尝试 Groupby并应用以消除某些组,这会由于应用函数应该总是返回某些内容而返回索引错误? 在[16]中: def filter_empty(df): 如果不是df.label.values.all(4): 返回df
..
我阅读了以下内容 Dask 文档(已知限制部分): It [ [Dask]不是容错的。任何工作人员的故障都可能使系统崩溃。 在出现错误的情况下不会正常失败 ,但我没有提到容错 与Spark进行比较。目前,这些是“原因,您可能会选择Spark” : 您更喜欢Scala或SQL语言 您大部分都是JVM 基础架构和旧系统 您想要一个成熟可靠的业务解决方案 您大多通过一些轻
..
我正在使用 dask.distributed 开发一个分布式计算系统。我使用 Executor.map 函数提交给它的任务有时会失败,而其他似乎相同的任务则会成功运行。 框架是否提供诊断问题的任何方法? 更新 失败是指增加由调度程序提供的Bokeh Web UI中失败任务的计数。 由 Executor.map 运行的函数返回无。它与数据库进行通信,从其表中检索一些行,执行计算并
..
与此帖子有关的内容,我正在尝试复制 dask 中的 multivariate_normal : 使用numpy,我可以使用以下方法创建具有指定协方差的多元正态矩阵: / p> import numpy as np n_dim = 5 size = 300 A = np.random.randn(n_dim ,n_dim)#矩阵 covm = A.dot(AT)#A * A
..
这是将dask数据帧的子集加载到内存中的有效方法吗? 而我 j = i + batch_size (如果j> len_df: j = len_df 子集= df.loc [i:j,'source_country_codes']。compute() 我在某处读到这可能是不正确的,因为dask如何分配索引号,因为它将较大的数据帧分为较小的熊猫dfs。另外,我也不认为dask数
..
我有一个dask数据框,其中一列具有索引。 问题是,如果我执行df.head(),它总是会变空一个df,而df.tail总是会返回正确的df。我检查df.head的 始终检查第一个分区中的前n个条目。因此,如果我执行df.reset_index(),它应该可以工作,但事实并非如此 下面是重现此代码的代码: 导入dask.dataframe为dd 导入熊猫为pd data
..
我正在为Dask的一项操作构建自定义图形。熟悉如何在Dask图中将参数传递给函数,并已阅读 docs 。但是,似乎仍然缺少某些东西。 在Dask图中使用的函数之一带有关键字参数。尽管对于如何将关键字参数传递给它感到困惑。其中一些关键字参数代表Dask对象,因此它们必须明确地位于图形中(即 functools.partial 无效)。可以看到以下选项。 尝试以正确的位置顺序传递任何关键字
..
我有一个包含许多dask数据帧的类似数据库的对象。我想处理数据,保存并在第二天重新加载以继续分析。 因此,我尝试使用pickle保存dask数据帧(不是计算结果,只是“计算计划”本身)。显然,它可以工作(至少,如果我在完全相同的机器上解开对象的东西)……但是有一些陷阱吗? 解决方案 通常来说通常是安全的。但是,有一些警告: 如果dask.dataframe包含自定义函数,例如与
..
在Dask Arrays中执行项目分配的方式有哪些?即使是非常简单的项目分配,如:[0] = 2 也不起作用。 解决方案 正确。这是文档中提到的第一个限制。 通常,涉及for循环和单个元素直接分配的工作流很难并行化。达阵数组不会进行此尝试。
..
我正在测试dask.bag的一些测试,以准备处理数百万个文本文件的大型文本处理工作。现在,在我的数十至数十万个文本文件的测试集上,我发现dask的运行速度比直接的单线程文本处理功能慢5到6倍。 有人可以解释一下在大量文本文件上运行dask带来的速度优势吗?在开始变得更快之前,我必须处理多少个文件? 150,000个小的文本文件太少了吗?在处理文件时,我应该调整哪种性能参数以加快速度?与纯单线
..
围绕dask.DataFrame的方法似乎都可以确保索引列已排序。但是,通过使用 from_delayed ,可以构造一个具有未排序的索引列的dask数据框: pdf1 =延迟(pd.DataFrame(dict(A = [1,2,3],B = [1,1,1])))。set_index('A') ) pdf2 =延迟(pd.DataFrame(dict(A = [1,2,3],B = [
..