dask相关内容
我正在尝试有效地重组大型多维数据集.假设随着时间的推移,我有许多遥感图像,其中有多个带,坐标用于像素位置为x y,图像获取时间为时间,而采集的不同数据为带. 在我的用例中,假设xarray的坐标长度大致为x(3000),y(3000),时间(10)和浮点数据的带(40).所以100gb +的数据. 我一直在尝试使用此示例,但是我很难将其翻译成这种情况. 小数据集示例 注意:
..
我有一个npartition = 8的dask数据帧,这是数据的快照: id1 id2 Page_nbr record_type St1 Sc1 3开始 Sc1 St1 5添加 Sc1 St1 9其他 Sc2 St2 34开始 Sc2 St2 45持续时间 Sc2 St2 65结束 Sc3 Sc3 4 START 我想在record_type之后添加一列,
..
dask.bag.read_text()是否保留行顺序?从多个文件读取时仍保留吗? bag = db.read_text('program.log') bag = db.read_text(['program.log','program.log.1']) 解决方案 非正式地,是的,大多数Dask.bag操作确实保留了顺序。 这种行为并不能得到严格保证,但是我看不
..
我已将Dask从0.14.3版本更新到0.15.0,并从1.16.3版本发布到1.17.0。 BokehWebInterface已从此版本中删除。可以 http:// localhost:8787 加载主页,但是我无法访问任务,状态,工作程序(它尝试重新加载,直到所有任务完成,然后给出无法到达错误)。一切都可以在早期版本上使用。 loop = IOLoop.current() t = Th
..
我们生成了一个实木复合地板文件,一个在 Dask (Python)中,另一个在 R Drill 中使用( 中士数据包)。他们使用 parquet 看到我的其他拼花地板问题 我们无法交叉读取文件(Python无法读取R文件,反之亦然)。 在R环境中读取Python实木复合地板文件时,我们收到以下错误:系统错误:Illegalstatexception:UTF8只能注释二进制文件。
..
我有一个自定义DAG,例如: dag = {'load':(load,'myfile.txt' ), 'heavy_comp':(heavy_comp,'load'), 'simple_comp_1':(sc_1,'heavy_comp'), 'simple_comp_2':(sc_2,'heavy_comp'), 'simple_comp_3':(sc_3,'heavy_comp')}
..
我正在尝试从创建的文件中加载yaml entries = bag.from_sequence([{1:2}, {3:4}]) yamls = entry.map(yaml.dump) yamls.to_textfiles(r'\ * .yaml.gz') 与 yamls = bag.read_test( r'\ * .yaml.gz',linedelimite
..
我尝试在〜/ .config / dask / distributed.yaml 和〜/ .config / dask / yarn.yaml中使用以下内容, 日志文件配置:“ / path / to / config.ini” 或 日志记录: 版本:1 disable_existing_loggers:false 根目录: 级别:INFO 处理程序:[
..
可能是此问题的延续,它来自于map_partitions的dask文档示例。 将dask.dataframe导入为dd df = pd.DataFrame({'x':[1,2, 3,4,5],'y':[1.,2.,3.,4.,5.]}) ddf = dd.from_pandas(df,npartitions = 2) $来自随机导入randint def myadd(df)的
..
我一直在努力寻找一种方法来获取适用于繁琐工作流程的计算。 我有使用np.random.mulivariate_normal函数和虽然许多类型可以在快速数组中使用,但似乎没有。如此...。我试图根据dask中提供的示例创建自己的文档。 这是我的尝试,出现了我很难理解的错误。我还提供了随机输入变量以使其易于复制: import numpy as dap.b $ b from das
..
我有一个如下所示的dask数据帧: 导入dask.dataframe为dd df = dd。 read_csv('s3:// ...') 我如何从中获取期货清单 解决方案 您可以使用。to_delayed 方法,可将dask数据框转换为 dask.delayed 对象 L = df.to_delayed() 然后您可以使用 client.
..
使用 dask.to_parquet(df,文件名)时,将创建一个子文件夹文件名,并将多个文件写入其中该文件夹,而 pandas.to_parquet(df,filename)恰好写入一个文件。 我可以使用dask的 to_parquet (不使用 compute()创建熊猫df)来编写 解决方案 在并行系统中,很难将单个文件写入。抱歉,Dask(也可能没有其他任何并行处理库)没有提供这
..
我正在运行 tpot ,而dask在gcp的kubernetes群集上运行,则该群集为24核120 gb内存中有4个节点的kubernetes,我的kubernetes yaml是 apiVersion:v1 类型:Service 元数据: 名称:daskd-scheduler 标签: 应用程序:daskd 角色:Scheduler spec: 端口: -端口:8786 t
..
使用 http://dask.pydata.org/en/上的示例Latest / array-creation.html 文件名=排序(glob('2015-*-*。hdf5' ) dsets = [h5py.File(fn)['/ data'] for fn in filenames] arrays = [da.from_array(dset,chunks =(1000,1000)
..
我对dask并不陌生,正在尝试弄清楚如何重整我从dask数据帧的单个列中获得的dask数组,并且遇到了错误。想知道是否有人可能知道此修复程序(而不必强制执行计算)?谢谢! 示例: 将熊猫作为pd $ b $导入b从dask导入数据帧作为np 从dask导入数据帧作为dd,数组作为da df = pd.DataFrame({'x':[1,2,3],'y':[4,5 ,6]}) d
..
我从库中获得了一个读取文件并返回一个numpy数组的函数。 我想用多个文件中的多个块构建一个Dask数组。 每个块都是在文件上调用函数的结果。 当我要求Dask计算时, Dask是否会要求这些功能同时从硬盘读取多个文件? 如果是这种情况,如何避免这种情况?我的计算机没有并行文件系统。 示例: 将numpy导入为np 将dask.array导入为da 导入da
..
我正试图通过Dask Dataframe保存到与Dask Scheduler / Workers所在的同一台计算机上的拼花地板。但是,我在此过程中遇到了麻烦。 我的Dask设置: 我的python脚本在本地计算机上执行(笔记本电脑16 GB RAM),但脚本会为远程计算机(具有400 GB RAM的服务器用于并行计算)上运行的Dask调度程序创建Dask客户端。 Dask调度程序和工作程序
..
我正在尝试使用 dask_cudf / parquet 文件(大小> gpu_size) c $ c> dask ,但它目前正在将其读取到单个分区中,我猜这是从文档字符串推断出的预期行为: dask.dataframe.read_parquet(path,columns = None,filter = None,Categories = None,index = None,storage_
..
我正在尝试将cassandra数据库中的数据加载到Dask数据框中。我尝试查询以下内容均未成功: query =“”“ SELECT * FROM document_table”“” df = man.session.execute(query) df = dd.DataFrame(list(df)) TypeError跟踪(最近一次通话最后一次)
..
我的目录中有2000个实木复合地板文件。每个实木复合地板文件的大小约为20MB。使用的压缩为SNAPPY。每个镶木地板文件都有如下行: + ------------ +- ---------- + ----------------- + | customerId | productId | randomAttribute | + ------------ + -----------
..