dask 第7页 - IT屋-程序员软件开发技术分享社区

分块写入XArray MultiIndex数据

我正在尝试有效地重组大型多维数据集.假设随着时间的推移，我有许多遥感图像，其中有多个带，坐标用于像素位置为x y，图像获取时间为时间，而采集的不同数据为带. 在我的用例中，假设xarray的坐标长度大致为x(3000)，y(3000)，时间(10)和浮点数据的带(40).所以100gb +的数据. 我一直在尝试使用此示例，但是我很难将其翻译成这种情况. 小数据集示例注意: ..

发布时间：2021-04-09 20:15:21 python arrays dask parquet python-xarray Python

在新列中添加唯一标识符，直到另一列满足条件

我有一个npartition = 8的dask数据帧，这是数据的快照： id1 id2 Page_nbr record_type St1 Sc1 3开始 Sc1 St1 5添加 Sc1 St1 9其他 Sc2 St2 34开始 Sc2 St2 45持续时间 Sc2 St2 65结束 Sc3 Sc3 4 START 我想在record_type之后添加一列， ..

发布时间：2020-10-17 01:50:45 python dataframe dask Python

达沙袋read_text（）行顺序

dask.bag.read_text（）是否保留行顺序？从多个文件读取时仍保留吗？ bag = db.read_text（'program.log'） bag = db.read_text（['program.log'，'program.log.1']）解决方案非正式地，是的，大多数Dask.bag操作确实保留了顺序。这种行为并不能得到严格保证，但是我看不 ..

发布时间：2020-10-15 18:51:18 python data-science dask bag Python

BokehWebInterface不适用于Dask Distributed

我已将Dask从0.14.3版本更新到0.15.0，并从1.16.3版本发布到1.17.0。 BokehWebInterface已从此版本中删除。可以 http：// localhost：8787 加载主页，但是我无法访问任务，状态，工作程序（它尝试重新加载，直到所有任务完成，然后给出无法到达错误）。一切都可以在早期版本上使用。 loop = IOLoop.current（） t = Th ..

发布时间：2020-10-15 18:50:15 distributed dask 其他开发

在R和Python之间交叉读取镶木地板文件

我们生成了一个实木复合地板文件，一个在 Dask （Python）中，另一个在 R Drill 中使用（中士数据包）。他们使用 parquet 看到我的其他拼花地板问题我们无法交叉读取文件（Python无法读取R文件，反之亦然）。在R环境中读取Python实木复合地板文件时，我们收到以下错误：系统错误：Illegalstatexception：UTF8只能注释二进制文件。 ..

发布时间：2020-10-15 18:50:11 r parquet dask 其他开发

自定义图形中的Da机会式缓存

我有一个自定义DAG，例如： dag = {'load'：（load，'myfile.txt' ）， 'heavy_comp'：（heavy_comp，'load'）， 'simple_comp_1'：（sc_1，'heavy_comp'）， 'simple_comp_2'：（sc_2，'heavy_comp'）， 'simple_comp_3'：（sc_3，'heavy_comp'）} ..

发布时间：2020-10-15 18:50:09 dask 其他开发

为什么`linedelimiter`对于bag.read_text不起作用？

我正在尝试从创建的文件中加载yaml entries = bag.from_sequence（[{1：2}， {3：4}]） yamls = entry.map（yaml.dump） yamls.to_textfiles（r'\ * .yaml.gz'）与 yamls = bag.read_test（ r'\ * .yaml.gz'，linedelimite ..

发布时间：2020-10-15 18:49:07 dask 其他开发

如何从Dask-Yarn作业中捕获工人的日志？

我尝试在〜/ .config / dask / distributed.yaml 和〜/ .config / dask / yarn.yaml中使用以下内容，日志文件配置：“ / path / to / config.ini” 或日志记录：版本：1 disable_existing_loggers：false 根目录：级别：INFO 处理程序：[ ..

发布时间：2020-10-15 18:49:06 dask 其他开发

Python Dask map_partitions

可能是此问题的延续，它来自于map_partitions的dask文档示例。将dask.dataframe导入为dd df = pd.DataFrame（{'x'：[1，2， 3，4，5]，'y'：[1.，2.，3.，4.，5.]}） ddf = dd.from_pandas（df，npartitions = 2） $来自随机导入randint def myadd（df）的 ..

发布时间：2020-10-15 18:48:59 python pandas dask Python

快数组上的random.multivariate_normal？

我一直在努力寻找一种方法来获取适用于繁琐工作流程的计算。我有使用np.random.mulivariate_normal函数和虽然许多类型可以在快速数组中使用，但似乎没有。如此...。我试图根据dask中提供的示例创建自己的文档。这是我的尝试，出现了我很难理解的错误。我还提供了随机输入变量以使其易于复制： import numpy as dap.b $ b from das ..

发布时间：2020-10-15 18:48:54 numpy dask Python

我如何从一个简单的数据框转换为一个期货列表？

我有一个如下所示的dask数据帧：导入dask.dataframe为dd df = dd。 read_csv（'s3：// ...'）我如何从中获取期货清单解决方案您可以使用。to_delayed 方法，可将dask数据框转换为 dask.delayed 对象 L = df.to_delayed（）然后您可以使用 client. ..

发布时间：2020-10-15 18:48:50 dask 其他开发

强制dask to_parquet写入单个文件

使用 dask.to_parquet（df，文件名）时，将创建一个子文件夹文件名，并将多个文件写入其中该文件夹，而 pandas.to_parquet（df，filename）恰好写入一个文件。我可以使用dask的 to_parquet （不使用 compute（）创建熊猫df）来编写解决方案在并行系统中，很难将单个文件写入。抱歉，Dask（也可能没有其他任何并行处理库）没有提供这 ..

发布时间：2020-10-15 18:48:47 python pandas dask parquet Python

在运行TPOT时，Dask不断失败，并导致工人死亡

我正在运行 tpot ，而dask在gcp的kubernetes群集上运行，则该群集为24核120 gb内存中有4个节点的kubernetes，我的kubernetes yaml是 apiVersion：v1 类型：Service 元数据：名称：daskd-scheduler 标签：应用程序：daskd 角色：Scheduler spec：端口： -端口：8786 t ..

发布时间：2020-10-15 18:48:44 kubernetes dask dask-distributed tpot 其他开发

了解将多个文件内容加载到Dask Array的过程及其扩展方式

使用 http://dask.pydata.org/en/上的示例Latest / array-creation.html 文件名=排序（glob（'2015-*-*。hdf5' ） dsets = [h5py.File（fn）['/ data'] for fn in filenames] arrays = [da.from_array（dset，chunks =（1000，1000） ..

发布时间：2020-10-15 18:48:42 dask 其他开发

重塑dask数组（从dask dataframe列获得）

我对dask并不陌生，正在尝试弄清楚如何重整我从dask数据帧的单个列中获得的dask数组，并且遇到了错误。想知道是否有人可能知道此修复程序（而不必强制执行计算）？谢谢！示例：将熊猫作为pd $ b $导入b从dask导入数据帧作为np 从dask导入数据帧作为dd，数组作为da df = pd.DataFrame（{'x'：[1,2,3]，'y'：[4，5 ，6]}） d ..

发布时间：2020-10-15 18:47:39 python dask Python

避免同时读取多个数组数组文件

我从库中获得了一个读取文件并返回一个numpy数组的函数。我想用多个文件中的多个块构建一个Dask数组。每个块都是在文件上调用函数的结果。当我要求Dask计算时， Dask是否会要求这些功能同时从硬盘读取多个文件？如果是这种情况，如何避免这种情况？我的计算机没有并行文件系统。示例：将numpy导入为np 将dask.array导入为da 导入da ..

发布时间：2020-10-15 18:46:36 python dask Python

如何将dask数据帧保存到与dask sheduler / workers相同的计算机上的实木复合地板上？

我正试图通过Dask Dataframe保存到与Dask Scheduler / Workers所在的同一台计算机上的拼花地板。但是，我在此过程中遇到了麻烦。我的Dask设置：我的python脚本在本地计算机上执行（笔记本电脑16 GB RAM），但脚本会为远程计算机（具有400 GB RAM的服务器用于并行计算）上运行的Dask调度程序创建Dask客户端。 Dask调度程序和工作程序 ..

发布时间：2020-10-15 18:46:32 python dask parquet Python

如何使用dask / dask-cudf将单个大型实木复合地板文件读取到多个分区中？

我正在尝试使用 dask_cudf / parquet 文件（大小> gpu_size） c $ c> dask ，但它目前正在将其读取到单个分区中，我猜这是从文档字符串推断出的预期行为： dask.dataframe.read_parquet（path，columns = None，filter = None，Categories = None，index = None，storage_ ..

发布时间：2020-10-15 18:46:29 dask cudf 其他开发

将Cassandra数据加载到Dask Dataframe中

我正在尝试将cassandra数据库中的数据加载到Dask数据框中。我尝试查询以下内容均未成功： query =“”“ SELECT * FROM document_table”“” df = man.session.execute（query） df = dd.DataFrame（list（df）） TypeError跟踪（最近一次通话最后一次） ..

发布时间：2020-10-15 18:46:15 dask 其他开发

CUDF错误处理大量实木复合地板文件

我的目录中有2000个实木复合地板文件。每个实木复合地板文件的大小约为20MB。使用的压缩为SNAPPY。每个镶木地板文件都有如下行： + ------------ +- ---------- + ----------------- + | customerId | productId | randomAttribute | + ------------ + ----------- ..

发布时间：2020-10-15 18:46:13 python nvidia dask parquet cudf Python

dask相关内容