dask 第8页 - IT屋-程序员软件开发技术分享社区

dask-kubernetes：使用大写用户名创建Pod时出现问题

我正在GKE上学习 dask-kubernetes 。我偶然发现了一个异步错误（错误：asyncio：从未检索到任务异常）。请参阅以下步骤问题。不过，对于使用远程Kubernetes集群部署dask-kubernetes的其他指导表示赞赏（请注意，我使用了头盔在这里拥有丰富的经验，但是想尝试本机方法，因为我无法扩展掌舵方法）。创建集群： $ gcloud容器 ..

发布时间：2020-10-15 18:46:07 google-kubernetes-engine dask dask-kubernetes 其他开发

将lambda函数应用于dask数据框

我希望对一个dask数据框应用一个 lambda 函数，以更改列中的标签（如果其小于一定百分比）。我使用的方法对pandas数据框效果很好，但是相同的代码对dask数据框无效。代码如下。 df = pd.DataFrame（{'A'：['ant '，'ant'，'cherry'，'bee'，'ant']，'B'：['cat'，'peach'，'cat'，'cat'，'peach']，'C' ..

发布时间：2020-10-15 18:46:05 python dataframe dask Python

将numpy数组转换为dask dataframe列？

我有一个要在现有dask数据框中添加为列的numpy数组。 enc = LabelEncoder（） nparr = enc.fit_transform（X [['url']]） I具有类型为dask dataframe的ddf。 ddf [’nurl’] = nparr ??? 有什么优雅的方法可以实现以上目标？ ..

发布时间：2020-10-15 18:44:59 python numpy dask numpy-ndarray Python

用变量设置Dask worker

我想在工作人员加载时分配一个更大的对象（或从磁盘加载），并将其放入全局变量（例如 calib_data ）。解决方案类似于客户端方法 register_worker_callbacks 在这种情况下可以做您想要的事情。您仍然需要 somewhere 来放置变量，因为在python中没有真正的全局范围。例如，该位置可以是导入模块的任何属性，然后，任何工作人员都可以访问。您也可以将其添加为 ..

发布时间：2020-10-15 18:44:56 dask 其他开发

将图分布到跨群集节点

我在Dask.delayed方面取得了不错的进展。作为一个小组，我们决定花更多的时间使用Dask处理图。我对分布有疑问。我在集群上看到以下行为。我启动例如在8个节点中的每个节点上有8个工作线程，每个节点有4个线程，然后说/我client.compute 8个图来创建模拟数据以进行后续处理。我希望每个节点生成8个数据集。但是，似乎发生的是，这八个功能并非在不合理的情况下在前两个节点上运行。随 ..

发布时间：2020-10-15 18:44:52 distributed dask 其他开发

在dask中将日期插入日期时间索引的列

pd.DatetimeIndex（df_dask_dataframe ['name_col']）解决方案我认为您需要 dask.dataframe.DataFrame.set_index 如果列的 dtype 是 datetime64 ： df_dask_dataframe = df_dask_dataframe.set_index（'name_col' ..

发布时间：2020-10-15 18:44:48 pandas dask Python

基于多列分组依据大小的Dask筛选器数据框

目标=通过一个淡淡的数据帧进行多列分组，并过滤出少于3行的分组。基于此帖子：在Dask中过滤分组的df 我能够计算每个groupby对象的大小，但是我不知道如何将其映射回我的数据框来自mutli-column groupby。我尝试了以下多种变体，但无济于事： a = input_df.groupby（[“ FeatureID”，“ region”] ）[“ Targ ..

发布时间：2020-10-15 18:44:44 python pandas dask Python

分布式内存错误

在分布式作业上运行Dask时，在调度程序上遇到以下错误： distributed.core-错误- 追溯（最近一次通话）：文件“ /usr/local/lib/python3.4/dist-packages/distributed/core.py”，第269行，写入帧= protocol.dumps（msg）文件“ /usr/local/lib/python3.4/dist-pack ..

发布时间：2020-10-15 18:44:40 python dask Python

更新dask的数据框

我是新手，所以您能帮我吗？我有一个csv文件，例如： id，人气，标签，看到的 0,100，＃footbal，0 1,200，＃2017,0 2,300，＃1,0 以某种方式我设法获得了一个淡淡的数据框 hashtags_to_update ：看到ID 0118 2136 我想合并来自 hashtags_to_updat ..

发布时间：2020-10-15 18:44:36 python-3.x dataframe dask 其他开发

在Dask中过滤分组的df

与此类似的熊猫问题：在熊猫中过滤分组df 操作根据应用于与groupby列不同的列的表达式来消除组。问题未对分组的数据帧实施过滤器。已尝试 Groupby并应用以消除某些组，这会由于应用函数应该总是返回某些内容而返回索引错误？在[16]中： def filter_empty（df）：如果不是df.label.values.all（4）：返回df ..

发布时间：2020-10-15 18:44:34 python pandas dask Python

Spark vs Dask的容错能力

我阅读了以下内容 Dask 文档（已知限制部分）： It [ [Dask]不是容错的。任何工作人员的故障都可能使系统崩溃。在出现错误的情况下不会正常失败，但我没有提到容错与Spark进行比较。目前，这些是“原因，您可能会选择Spark” ：您更喜欢Scala或SQL语言您大部分都是JVM 基础架构和旧系统您想要一个成熟可靠的业务解决方案您大多通过一些轻 ..

发布时间：2020-10-15 18:44:31 apache-spark pyspark dask 其他开发

如何找到为什么任务无法在dask分布式中失败？

我正在使用 dask.distributed 开发一个分布式计算系统。我使用 Executor.map 函数提交给它的任务有时会失败，而其他似乎相同的任务则会成功运行。框架是否提供诊断问题的任何方法？更新失败是指增加由调度程序提供的Bokeh Web UI中失败任务的计数。由 Executor.map 运行的函数返回无。它与数据库进行通信，从其表中检索一些行，执行计算并 ..

发布时间：2020-10-15 18:43:28 python distributed dask Python

我可以使用dask创建multivariate_normal矩阵吗？

与此帖子有关的内容，我正在尝试复制 dask 中的 multivariate_normal ：使用numpy，我可以使用以下方法创建具有指定协方差的多元正态矩阵： / p> import numpy as np n_dim = 5 size = 300 A = np.random.randn（n_dim ，n_dim）＃矩阵 covm = A.dot（AT）＃A * A ..

发布时间：2020-10-15 18:43:26 python pyspark dask python-xarray dask-distributed Python

子集Dask DataFrames

这是将dask数据帧的子集加载到内存中的有效方法吗？而我 j = i + batch_size （如果j> len_df： j = len_df 子集= df.loc [i：j，'source_country_codes']。compute（）我在某处读到这可能是不正确的，因为dask如何分配索引号，因为它将较大的数据帧分为较小的熊猫dfs。另外，我也不认为dask数 ..

发布时间：2020-10-15 18:42:24 python dask Python

dask dataframe head（）返回空df

我有一个dask数据框，其中一列具有索引。问题是，如果我执行df.head（），它总是会变空一个df，而df.tail总是会返回正确的df。我检查df.head的始终检查第一个分区中的前n个条目。因此，如果我执行df.reset_index（），它应该可以工作，但事实并非如此下面是重现此代码的代码：导入dask.dataframe为dd 导入熊猫为pd data ..

发布时间：2020-10-15 18:42:20 python dask Python

在自定义Dask图中包括关键字参数（kwargs）

我正在为Dask的一项操作构建自定义图形。熟悉如何在Dask图中将参数传递给函数，并已阅读 docs 。但是，似乎仍然缺少某些东西。在Dask图中使用的函数之一带有关键字参数。尽管对于如何将关键字参数传递给它感到困惑。其中一些关键字参数代表Dask对象，因此它们必须明确地位于图形中（即 functools.partial 无效）。可以看到以下选项。尝试以正确的位置顺序传递任何关键字 ..

发布时间：2020-10-15 18:42:17 python dask Python

达斯克（Dask）：腌制数据框以备后用是否安全？

我有一个包含许多dask数据帧的类似数据库的对象。我想处理数据，保存并在第二天重新加载以继续分析。因此，我尝试使用pickle保存dask数据帧（不是计算结果，只是“计算计划”本身）。显然，它可以工作（至少，如果我在完全相同的机器上解开对象的东西）……但是有一些陷阱吗？解决方案通常来说通常是安全的。但是，有一些警告：如果dask.dataframe包含自定义函数，例如与 ..

发布时间：2020-10-15 18:42:15 python dask Python

Dask不支持的项目分配

在Dask Arrays中执行项目分配的方式有哪些？即使是非常简单的项目分配，如：[0] = 2 也不起作用。解决方案正确。这是文档中提到的第一个限制。通常，涉及for循环和单个元素直接分配的工作流很难并行化。达阵数组不会进行此尝试。 ..

发布时间：2020-10-15 18:42:11 dask 其他开发

使用Python Dask包会降低性能吗？

我正在测试dask.bag的一些测试，以准备处理数百万个文本文件的大型文本处理工作。现在，在我的数十至数十万个文本文件的测试集上，我发现dask的运行速度比直接的单线程文本处理功能慢5到6倍。有人可以解释一下在大量文本文件上运行dask带来的速度优势吗？在开始变得更快之前，我必须处理多少个文件？ 150,000个小的文本文件太少了吗？在处理文件时，我应该调整哪种性能参数以加快速度？与纯单线 ..

发布时间：2020-10-15 18:42:08 python performance dask Python

带有无序索引的模糊数据框会导致无提示错误吗？

围绕dask.DataFrame的方法似乎都可以确保索引列已排序。但是，通过使用 from_delayed ，可以构造一个具有未排序的索引列的dask数据框： pdf1 =延迟（pd.DataFrame（dict（A = [1,2,3]，B = [1,1,1]）））。set_index（'A'）） pdf2 =延迟（pd.DataFrame（dict（A = [1,2,3]，B = [ ..

发布时间：2020-10-15 18:42:06 python dask Python

dask相关内容