dask - IT屋-程序员软件开发技术分享社区

使用CPU工作器进行数据争论，并使用带DASK的GPU工作器培训xgBoost

我正在尝试从HDFS读取200个镶木地板文件，然后尝试使用4个GPU训练一个模型。我的机器上也有48个vcore可用。如果我只使用GPU工作器启动集群，那么读取部分将非常慢(因为它只使用分配给GPU工作器的4个CPU工作器，除非您在单独的外壳上运行它们，否则您不可能真正运行比您拥有的GPU数量更多的工作器，然后情况变得很糟糕，因为内存管理问题是您自己的。)我想使用CPU工作器读取文件，与CPU工作 ..

发布时间：2022-08-13 10:39:59 gpu dask xgboost distributed 其他开发

是否可以在创建后将工作人员资源分配给DASK分布式工作人员？

根据标题，如果我通过Helm或Kubernetes创建Worker，是否可以在创建Worker后分配“Worker Resources”(https://distributed.readthedocs.io/en/latest/resources.html#worker-resources)？使用情形是命中数据库的任务，我想限制在给定运行中能够命中数据库的进程数量，而不限制群集的总大小。 ..

发布时间：2022-08-13 10:29:10 dask dask-distributed 其他开发

在DaskARRAY-PYTHON上使用SCRICKIT-LINE COSINE_SIMPLIZATION

我让Dask来处理内存中无法容纳的大型向量数组，并使用SCRICKIT-LINE COSING_SIMPLIZATION来计算这些向量之间的余弦相似度，即： import dask.array as da from sklearn.metrics.pairwise import cosine_similarity vectors = da.from_array(vectors, 10000) ..

发布时间：2022-08-13 10:18:33 python scikit-learn dask Python

DASK在群集之间切换或更改群集上下文

我是新来达斯克的，如果你觉得这个问题很愚蠢，请原谅。在DASK中，我正在使用一个包含大约50 GB数据的DASK数据帧。这些数据是字符串数据，我需要在将其提供给机器学习算法(使用线程进行快速处理)之前对其进行预处理(使用进程进行快速处理)。现在的问题是，当我根据进程设计集群时，数据帧操作是快的，但相对于线程来说，它是慢的(但线程使用机器学习是快的)。因此，我正在寻找一种可以从进程切换到线程环境的解 ..

发布时间：2022-08-13 10:07:48 dask dask-distributed dask-dataframe dask-ml 其他开发

任务：n数据帧组上的唯一方法By

我想知道是否有可能在GroupBy Aggregation with Dask.之后从给定列中获得唯一项的数量。我在文档中没有看到任何类似的内容。它可以在 pandas 数据框上使用，并且真的很有用。我看到了一些与此相关的问题，但我不确定它是否已实施。有人能给我一些提示吗？推荐答案若要展开this comment，可以直接在序列组上使用nunique： import ..

发布时间：2022-08-13 10:00:51 python dask dask-distributed Python

类型错误：在 pandas DataFrame上使用Dask时无法设置PICKLE_THREAD._LOCAL对象

我有一个巨大的DataFrame，为了节省时间，我想使用Dask来处理它。问题是，当这个TypeError: can't pickle _thread._local objects错误一开始运行时，我就陷入了这个错误。有人能帮帮我吗？我已经编写了一个函数，该函数根据df的行来处理存储在df中的数据，并用 out = df_query.progress_apply(lambda row ..

发布时间：2022-08-06 11:57:14 python pandas typeerror dask Python

更新：如何从DaskDataFrame转换/解析字符串日期

更新：我能够执行转换。下一步是将其放回ddf。我按照书中的建议所做的是：日期已分析并存储为单独的变量。使用删除了原始日期列 ddf2=ddf.drop('date',axis=1) 使用Assign追加新的分析日期 ddf3=ddf2.assign(date=parsed_date) 新日期已添加为新列，最后一列。问题1：有没有更有效的方 ..

发布时间：2022-07-16 12:19:58 python pandas datetime dask dask-dataframe Python

COMPUTE()在Dask中做什么？

我是新接触DASK的，我不了解COMPUTE()方法在DASK中到底做什么？它是在调用对象的地方打印对象的方法吗？我已经阅读了其网站上的文档，但不确定是否理解了术语“具体的价值”和“懒惰的任务”。您可以通过调用.Compute()方法或dask.Compute(...)将任何Dask集合转换为具体的值功能。此函数将一直阻塞，直到计算完成，从惰性Dask集直接转到本地内存中的具体值。 ..

发布时间：2022-04-14 16:47:45 python dask Python

如何将行添加/追加到DaskDataFrame中的特定分区？

我想将一行追加到DaskDataFrames中的特定分区。我试过很多方法，但没有一个是可行的。有人能帮我这个忙吗。提前感谢我试过- first_partition = df.partitions[0] new_dd = first_partiton.append(row) df.partitions[0] = new_dd 这不起作用我甚至尝试使用map_artition ..

发布时间：2022-04-14 16:44:49 python dask dask-distributed dask-delayed dask-dataframe Python

任务，根据下一行添加新列

我有这个DASK数据框，最后一列是这个问题的重要信息： Dask DataFrame Structure: asks[0].amount asks[1].amount asks[2].amount asks[3].amount asks[4].amount asks[5].amount asks[6].amount asks[7].amount asks[8].a ..

发布时间：2022-04-14 16:42:01 python pandas dask dask-dataframe Python

达斯克：真正懒惰地分类

如果我有一个具有未知分区的数据集，并且希望根据列对其进行排序并将其输出到Parquet，则在我看来，Dask至少会执行两次部分工作： import dask import dask.dataframe as dd def my_identity(x): """Does nothing, but shows up on the Dask dashboard""" return ..

发布时间：2022-04-14 16:40:38 python pandas sorting dask dask-dataframe Python

Daskmap_Partitions(pd.Cut、bins)实际上会对整个数据帧进行操作吗？

我需要在DaskDataFrame上使用pd.Cut。 This answer指示map_artitions将通过将pd.Cut作为函数传递来工作。似乎map_artitions一次只将一个分区传递给该函数。但是，pd.Cut需要访问我的df的整个列才能创建回收站。因此，我的问题是：这种情况下的map_Partitions实际上是对整个数据帧进行操作，还是使用这种方法会得到不正确的结 ..

发布时间：2022-04-14 16:38:45 python dask Python

DASK计算过去n天的分组滚动平均值，并分配给原始数据帧

我正试图通过在DASK中滚动均值逻辑来复制下面的 pandas 群体。但停留在1)如何指定时间段(以天为单位)和2)如何将其分配回原始帧？ df['avg3d']=df.groupby('g')['v'].transform(lambda x: x.rolling('3D').mean()) 获得如下错误： ValueError: index must be monotonic，V ..

发布时间：2022-04-14 16:36:18 python dask Python

如何在合并1000多个文件时将CSV文件的名称作为值添加到一列中？

我正在尝试使用以下代码合并1000多个CSV文件： path = r'path_to_files/' all_files = glob.glob(path + "/*.csv") import shutil with open('updated_thirteen_jan.csv','wb') as wfd: for f in all_files: with op ..

发布时间：2022-04-14 16:35:03 python pandas csv dask shutil Python

DASK FROM_ARRAY将类型转换为对象

我有以下代码，可以从一个数组创建一个DaskDataFrame。问题是所有类型都被转换为Object。我试图指定元数据，但找不到方法。如何在FROM_ARRAY中指定META？ b = np.array([(1.5, 2, 3, datetime(2000,1,1)), (4, 5, 6, datetime(2001, 2, 2))]) ddf = dd.from_array(b, colu ..

发布时间：2022-04-14 16:33:36 python pandas numpy dask Python

如果已创建dask.Distributed客户端，则xarray.open_mfdatet()不起作用

我有一个奇怪的问题，我希望能提供一些意见。基本上，我在AWS Pangeo Cloud上运行一台笔记本，并使用xr.open_mfdataset在S3(带有s3f)上打开一些GOES-16卫星数据。如果我根本不使用DASK，这将非常有效，因为数据集在几分钟内就构建好了。但是，如果我在打开文件之前创建dask.distributed客户端，open_mfdataset似乎永远挂起。 ..

发布时间：2022-04-14 16:32:21 python jupyter dask python-xarray dask-distributed Python

将一列随机数添加到DaskDataFrame的正确方法

将一列随机数添加到DaskDataFrame的正确方法是什么？我显然可以使用map_partitions将列添加到每个分区，但我不确定当Dask并行化该计算时如何处理随机状态。(即，它是否会在所有工作进程中使用相同的随机状态，从而在每个工作进程中生成相同的随机数？) dask.array.random(https://docs.dask.org/en/latest/_modules/dask ..

发布时间：2022-04-14 16:31:06 python random dask random-seed dask-dataframe Python

正在尝试使用DASK在系列对象的DataFrame；切片副本上设置值(&Q)？

我正在测试DaskDataFrames的apply()方法，并且正在运行以下代码： import pandas as pd import dask.dataframe as dd import time def enrich_str(str): val1 = f'{str}_1' val2 = f'{str}_2' val3 = f'{str}_ ..

发布时间：2022-04-14 16:29:25 python pandas dataframe dask Python

正在使用--preload初始化DaskWorker中的全局任务模块？

我试图实现类似于这些问题(Initializing state on dask-distributed workers，Setting up Dask worker with variable)的内容，其中我有一个(相对)大的模型，我希望在接受需要该模型的任务的工作线程子集上预初始化该模型。理想情况下，我甚至不希望客户端计算机具有该模型。在发现这些问题之前，我最初的尝试是在共享模块work ..

发布时间：2022-04-14 16:26:53 python dask dask-distributed Python

为什么将daskdev/DaskInto启动到Pod失败？

kubectl run dask --image daskdev/dask为什么失败？ # starting the container with docker to make sure it basically works ➜ ~ docker run --rm -it --entrypoint bash daskdev/dask:latest (base) root@5b34ce038 ..

发布时间：2022-04-14 16:25:11 kubernetes dask dask-kubernetes 其他开发

dask相关内容