sparklyr相关内容

在Spaklyr中创建虚拟变量?

我正在尝试扩展我的一些ML管道,我喜欢Spaklyr打开的RStudio、Spark和H2O的组合(http://spark.rstudio.com/) 我想弄明白的一件事是如何使用Spaklyr从数据帧中的字符向量创建伪COL。 我已经尝试了下面的方法,但我认为它可能混合了一些Spaklyr尚未实现的功能。 library(sparklyr) library(dplyr) s ..
发布时间:2022-09-03 16:22:44 其他开发

使用 sparklyr 完成时间序列

我正在尝试在我的时间序列数据集中查找丢失的分钟数.我为一个小样本的本地性能写了一个 R 代码: test % mutate(timestamp = as.POSIXct(DaySecFrom.UTC.)) %>%完成(时间戳 = seq.POSIXt(最小值(时间戳),最大值(时间戳),by = 'min'),ElemUID) 但是您不能在 spark_tbl 上使用来自 t ..
发布时间:2022-01-11 09:58:14 其他开发

来自 sparklyr 的非默认方案(数据库)中的访问表

在我使用 sparklyr 和 yarn-client 方法管理它连接到我们的(新)集群后,现在我可以只显示默认方案中的表.如何连接到 scheme.table?使用 DBI 它正在工作,例如与以下行:dbGetQuery(sc, "SELECT * FROM scheme.table LIMIT 10")在 HUE 中,我可以显示所有方案的所有表. ~g 解决方案 您可以使用完全限 ..
发布时间:2021-12-23 12:57:19 其他开发

sparklyr 堆空间不足,但内存充足

即使在相当小的数据集上,我也会遇到堆空间错误.我可以确定我没有耗尽系统内存.例如,考虑一个包含大约 2000 万行和 9 列的数据集,它在磁盘上占用 1GB.我在具有 30GB 内存的 Google Compute 节点上使用它. 假设我在名为 df 的数据帧中有这些数据.以下工作正常,虽然有点慢: 图书馆(tidyverse)唯一性 %group_b ..
发布时间:2021-12-23 12:40:07 其他开发

如何使用 sparklyr 过滤部分匹配

我是 sparklyr 的新手(但熟悉 spark 和 pyspark),我有一个非常基本的问题.我正在尝试根据部分匹配过滤列.在 dplyr 中,我会这样写我的操作: 企业 %>%过滤器(grepl('测试',biz_name))%>%头 在火花数据帧上运行该代码但是给了我: 错误:org.apache.spark.sql.AnalysisException:未定义的函数:'GREPL ..
发布时间:2021-12-23 12:37:52 其他开发

聚集在闪闪发光的

我正在使用 sparklyr 来处理一些数据.给定一个, a 我想使用“收集"来操作数据,如下所示: b%收集(键= type_data,值= value_data,-c(id:attribute1)) 但是,“gather"在 sparklyr 上不可用.我见过一些人使用 sdf_pivot 来模仿“收集"(例如 如何在 sparklyr 中使用 sdf_pivot() 并连接字符串?) ..
发布时间:2021-12-23 12:29:45 其他开发

如何使用 spark_apply() 生成使用 combn() 的组合

我想使用 spark 为相对较大的输入列表(200 ish)生成 combn() 函数的输出,以及改变 m (2-5),但是我在将其包含在 spark_apply() 中时遇到了麻烦. 我目前的方法(基于此): names_df %spark_apply(函数(e)组合(e,2)) 错误消息输出很大,但我无法理解如何使用该信息来改进我的方法. 我期望输出类似于 MWE 的第二行的输 ..
发布时间:2021-11-16 23:13:30 其他开发

唯一值的数量

以下示例描述了如何在不使用 dplyr 和 sparklyr 聚合行的情况下计算不同值的数量. 是否有不破坏命令链的解决方法? 更一般地说,您如何在 sparklyr 数据帧上使用 sql 之类的窗口函数. ## 生成数据集set.seed(.328)df ..
发布时间:2021-11-14 21:37:27 其他开发

Sparklyr:如何根据列将 Spark 表居中?

我有一个 Spark 表: simxx0: 数字 1.00 2.00 3.00 ...x1:数量 2.00 3.00 4.00 ......x788:数量 2.00 3.00 4.00 ... 和连接到这个 simx 表的 R 环境中名为 simX_tbl 的句柄. 我想对这个表进行居中,即用其列均值减去每一列.例如,计算x0 - mean(x0),等等. 到目前为止,我最大的努力 ..
发布时间:2021-11-12 05:33:03 其他开发

Sparklyr无法从Dockerfile中的Apache下载Spark

我正在尝试创建一个dockerfile,该文件从Rocker/tidyverse构建图像,并包含来自sparklyr的Spark.以前,在此信息上:无法在Dockerfile中使用sparklyr安装spark ,我试图弄清楚为什么火花不能从我的dockerfile下载.在玩了5天之后,我认为我已经找到了原因,但不知道如何解决. 这是我的Dockerfile: #以最新的tidyverse ..
发布时间:2021-05-02 19:36:09 其他开发

使用SparkR创建的数据帧和使用Sparklyr创建的数据帧之间有什么区别?

我正在读取Azure数据砖中的实木复合地板文件:使用SparkR>read.parquet()使用Sparklyr>spark_read_parquet()这两个数据帧是不同的,是否有任何方法可以将SparkR数据帧转换为sparklyr数据帧,反之亦然? 解决方案 sparklyr创建tbl_spark.从本质上讲,这只是用Spark SQL编写的惰性查询.SparkR创建一个Spark ..
发布时间:2021-04-28 20:44:45 其他开发