dask相关内容

分块写入XArray MultiIndex数据

我正在尝试有效地重组大型多维数据集.假设随着时间的推移,我有许多遥感图像,其中有多个带,坐标用于像素位置为x y,图像获取时间为时间,而采集的不同数据为带. 在我的用例中,假设xarray的坐标长度大致为x(3000),y(3000),时间(10)和浮点数据的带(40).所以100gb +的数据. 我一直在尝试使用此示例,但是我很难将其翻译成这种情况. 小数据集示例 注意: ..
发布时间:2021-04-09 20:15:21 Python

达沙袋read_text()行顺序

dask.bag.read_text()是否保留行顺序?从多个文件读取时仍保留吗? bag = db.read_text('program.log') bag = db.read_text(['program.log','program.log.1']) 解决方案 非正式地,是的,大多数Dask.bag操作确实保留了顺序。 这种行为并不能得到严格保证,但是我看不 ..
发布时间:2020-10-15 18:51:18 Python

BokehWebInterface不适用于Dask Distributed

我已将Dask从0.14.3版本更新到0.15.0,并从1.16.3版本发布到1.17.0。 BokehWebInterface已从此版本中删除。可以 http:// localhost:8787 加载主页,但是我无法访问任务,状态,工作程序(它尝试重新加载,直到所有任务完成,然后给出无法到达错误)。一切都可以在早期版本上使用。 loop = IOLoop.current() t = Th ..
发布时间:2020-10-15 18:50:15 其他开发

在R和Python之间交叉读取镶木地板文件

我们生成了一个实木复合地板文件,一个在 Dask (Python)中,另一个在 R Drill 中使用( 中士数据包)。他们使用 parquet 看到我的其他拼花地板问题 我们无法交叉读取文件(Python无法读取R文件,反之亦然)。 在R环境中读取Python实木复合地板文件时,我们收到以下错误:系统错误:Illegalstatexception:UTF8只能注释二进制文件。 ..
发布时间:2020-10-15 18:50:11 其他开发

自定义图形中的Da机会式缓存

我有一个自定义DAG,例如: dag = {'load':(load,'myfile.txt' ), 'heavy_comp':(heavy_comp,'load'), 'simple_comp_1':(sc_1,'heavy_comp'), 'simple_comp_2':(sc_2,'heavy_comp'), 'simple_comp_3':(sc_3,'heavy_comp')} ..
发布时间:2020-10-15 18:50:09 其他开发

如何从Dask-Yarn作业中捕获工人的日志?

我尝试在〜/ .config / dask / distributed.yaml 和〜/ .config / dask / yarn.yaml中使用以下内容, 日志文件配置:“ / path / to / config.ini” 或 日志记录: 版本:1 disable_existing_loggers:false 根目录: 级别:INFO 处理程序:[ ..
发布时间:2020-10-15 18:49:06 其他开发

Python Dask map_partitions

可能是此问题的延续,它来自于map_partitions的dask文档示例。 将dask.dataframe导入为dd df = pd.DataFrame({'x':[1,2, 3,4,5],'y':[1.,2.,3.,4.,5.]}) ddf = dd.from_pandas(df,npartitions = 2) $来自随机导入randint def myadd(df)的 ..
发布时间:2020-10-15 18:48:59 Python

快数组上的random.multivariate_normal?

我一直在努力寻找一种方法来获取适用于繁琐工作流程的计算。 我有使用np.random.mulivariate_normal函数和虽然许多类型可以在快速数组中使用,但似乎没有。如此...。我试图根据dask中提供的示例创建自己的文档。 这是我的尝试,出现了我很难理解的错误。我还提供了随机输入变量以使其易于复制: import numpy as dap.b $ b from das ..
发布时间:2020-10-15 18:48:54 Python

我如何从一个简单的数据框转换为一个期货列表?

我有一个如下所示的dask数据帧: 导入dask.dataframe为dd df = dd。 read_csv('s3:// ...') 我如何从中获取期货清单 解决方案 您可以使用。to_delayed 方法,可将dask数据框转换为 dask.delayed 对象 L = df.to_delayed() 然后您可以使用 client. ..
发布时间:2020-10-15 18:48:50 其他开发

强制dask to_parquet写入单个文件

使用 dask.to_parquet(df,文件名)时,将创建一个子文件夹文件名,并将多个文件写入其中该文件夹,而 pandas.to_parquet(df,filename)恰好写入一个文件。 我可以使用dask的 to_parquet (不使用 compute()创建熊猫df)来编写 解决方案 在并行系统中,很难将单个文件写入。抱歉,Dask(也可能没有其他任何并行处理库)没有提供这 ..
发布时间:2020-10-15 18:48:47 Python

重塑dask数组(从dask dataframe列获得)

我对dask并不陌生,正在尝试弄清楚如何重整我从dask数据帧的单个列中获得的dask数组,并且遇到了错误。想知道是否有人可能知道此修复程序(而不必强制执行计算)?谢谢! 示例: 将熊猫作为pd $ b $导入b从dask导入数据帧作为np 从dask导入数据帧作为dd,数组作为da df = pd.DataFrame({'x':[1,2,3],'y':[4,5 ,6]}) d ..
发布时间:2020-10-15 18:47:39 Python

避免同时读取多个数组数组文件

我从库中获得了一个读取文件并返回一个numpy数组的函数。 我想用多个文件中的多个块构建一个Dask数组。 每个块都是在文件上调用函数的结果。 当我要求Dask计算时, Dask是否会要求这些功能同时从硬盘读取多个文件? 如果是这种情况,如何避免这种情况?我的计算机没有并行文件系统。 示例: 将numpy导入为np 将dask.array导入为da 导入da ..
发布时间:2020-10-15 18:46:36 Python

如何将dask数据帧保存到与dask sheduler / workers相同的计算机上的实木复合地板上?

我正试图通过Dask Dataframe保存到与Dask Scheduler / Workers所在的同一台计算机上的拼花地板。但是,我在此过程中遇到了麻烦。 我的Dask设置: 我的python脚本在本地计算机上执行(笔记本电脑16 GB RAM),但脚本会为远程计算机(具有400 GB RAM的服务器用于并行计算)上运行的Dask调度程序创建Dask客户端。 Dask调度程序和工作程序 ..
发布时间:2020-10-15 18:46:32 Python

将Cassandra数据加载到Dask Dataframe中

我正在尝试将cassandra数据库中的数据加载到Dask数据框中。我尝试查询以下内容均未成功: query =“”“ SELECT * FROM document_table”“” df = man.session.execute(query) df = dd.DataFrame(list(df)) TypeError跟踪(最近一次通话最后一次) ..
发布时间:2020-10-15 18:46:15 其他开发

CUDF错误处理大量实木复合地板文件

我的目录中有2000个实木复合地板文件。每个实木复合地板文件的大小约为20MB。使用的压缩为SNAPPY。每个镶木地板文件都有如下行: + ------------ +- ---------- + ----------------- + | customerId | productId | randomAttribute | + ------------ + ----------- ..
发布时间:2020-10-15 18:46:13 Python