sparklyr相关内容
我正在尝试扩展我的一些ML管道,我喜欢Spaklyr打开的RStudio、Spark和H2O的组合(http://spark.rstudio.com/) 我想弄明白的一件事是如何使用Spaklyr从数据帧中的字符向量创建伪COL。 我已经尝试了下面的方法,但我认为它可能混合了一些Spaklyr尚未实现的功能。 library(sparklyr) library(dplyr) s
..
我正在尝试在我的时间序列数据集中查找丢失的分钟数.我为一个小样本的本地性能写了一个 R 代码: test % mutate(timestamp = as.POSIXct(DaySecFrom.UTC.)) %>%完成(时间戳 = seq.POSIXt(最小值(时间戳),最大值(时间戳),by = 'min'),ElemUID) 但是您不能在 spark_tbl 上使用来自 t
..
我正在尝试计算 spark 数据集 s 中每列中唯一元素的数量. 然而,spark 似乎无法识别 Tally()k%group_by(grouping_type)%>%summarise_each(funs(tally(distinct(.)))))错误:org.apache.spark.sql.AnalysisException:未定义的函数TALLY spark 似乎也无法识别简单
..
简介 R 代码是使用 Sparklyr 包编写的,用于创建数据库模式.[给出了可重现的代码和数据库] 现有结果 root|-- 贡献者:字符串|-- created_at : 字符串|-- 实体(结构体)||-- 标签(数组):[字符串]||-- 媒体(数组)|||-- additional_media_info (struct)||||-- 描述:字符串||||-- 可嵌入的:布尔
..
我有一些 unix 时间在 sparklyr 中转换为时间戳,出于某些原因,我还需要将它们转换为字符串. 不幸的是,在转换为字符串的过程中,hive 似乎转换为 EST(我的语言环境). df_new %select(t, unix_t, date_str, date_alt) %>% head(5)# 来源:懒惰查询 [??× 4]# 数据库:spark_connectiont unix
..
在我使用 sparklyr 和 yarn-client 方法管理它连接到我们的(新)集群后,现在我可以只显示默认方案中的表.如何连接到 scheme.table?使用 DBI 它正在工作,例如与以下行:dbGetQuery(sc, "SELECT * FROM scheme.table LIMIT 10")在 HUE 中,我可以显示所有方案的所有表. ~g 解决方案 您可以使用完全限
..
即使在相当小的数据集上,我也会遇到堆空间错误.我可以确定我没有耗尽系统内存.例如,考虑一个包含大约 2000 万行和 9 列的数据集,它在磁盘上占用 1GB.我在具有 30GB 内存的 Google Compute 节点上使用它. 假设我在名为 df 的数据帧中有这些数据.以下工作正常,虽然有点慢: 图书馆(tidyverse)唯一性 %group_b
..
我是 sparklyr 的新手(但熟悉 spark 和 pyspark),我有一个非常基本的问题.我正在尝试根据部分匹配过滤列.在 dplyr 中,我会这样写我的操作: 企业 %>%过滤器(grepl('测试',biz_name))%>%头 在火花数据帧上运行该代码但是给了我: 错误:org.apache.spark.sql.AnalysisException:未定义的函数:'GREPL
..
我正在使用 sparklyr 来处理一些数据.给定一个, a 我想使用“收集"来操作数据,如下所示: b%收集(键= type_data,值= value_data,-c(id:attribute1)) 但是,“gather"在 sparklyr 上不可用.我见过一些人使用 sdf_pivot 来模仿“收集"(例如 如何在 sparklyr 中使用 sdf_pivot() 并连接字符串?)
..
我想使用 spark 为相对较大的输入列表(200 ish)生成 combn() 函数的输出,以及改变 m (2-5),但是我在将其包含在 spark_apply() 中时遇到了麻烦. 我目前的方法(基于此): names_df %spark_apply(函数(e)组合(e,2)) 错误消息输出很大,但我无法理解如何使用该信息来改进我的方法. 我期望输出类似于 MWE 的第二行的输
..
我有许多 parquet 格式的 Hive 文件,其中包含 string 和 double 列.我可以使用以下语法将它们中的大部分读入带有 sparklyr 的 Spark 数据帧: spark_read_parquet(sc, name = "name", path = "path", memory = FALSE) 但是,我在其中读取了一个文件,其中所有 string 值都转换为无法识别的
..
带 Hive 的 Spark 2.0 假设我正在尝试编写一个 spark 数据帧,irisDf 到 orc 并将其保存到 hive Metastore 在 Spark 中,我会这样做, irisDf.write.format("orc").mode("覆盖").option("path", "s3://my_bucket/iris/").saveAsTable("my_databas
..
我有一个由几千列乘以大约一百万行的宽 Spark 数据框,我想计算行总数.到目前为止,我的解决方案如下.我用了:dplyr - 使用正则表达式的多列的总和和https://github.com/tidyverse/rlang/issues/116 库(sparklyr)图书馆(DBI)图书馆(dplyr)图书馆(rlang)sc1
..
以下示例描述了如何在不使用 dplyr 和 sparklyr 聚合行的情况下计算不同值的数量. 是否有不破坏命令链的解决方法? 更一般地说,您如何在 sparklyr 数据帧上使用 sql 之类的窗口函数. ## 生成数据集set.seed(.328)df
..
考虑这个使用 sparklyr 的简单示例: 库(sparklyr)library(janeaustenr) # 获取一些文本数据图书馆(字符串)图书馆(dplyr)mytext %mutate(label = as.integer(str_detect(text, 'great'))) #创建一个假标签变量mytext_spark
..
我有一个 Spark 表: simxx0: 数字 1.00 2.00 3.00 ...x1:数量 2.00 3.00 4.00 ......x788:数量 2.00 3.00 4.00 ... 和连接到这个 simx 表的 R 环境中名为 simX_tbl 的句柄. 我想对这个表进行居中,即用其列均值减去每一列.例如,计算x0 - mean(x0),等等. 到目前为止,我最大的努力
..
我正在尝试使用Sparklyr构建关联规则算法,并且一直在关注 解决方案 您链接的博客帖子已经过时了将近两年.由于 2b0994c 提供了原生包装code> oasml.fpm.FPGrowth df%mutate(items = split(items,"\\\\ s +"
..
我正在尝试创建一个dockerfile,该文件从Rocker/tidyverse构建图像,并包含来自sparklyr的Spark.以前,在此信息上:无法在Dockerfile中使用sparklyr安装spark ,我试图弄清楚为什么火花不能从我的dockerfile下载.在玩了5天之后,我认为我已经找到了原因,但不知道如何解决. 这是我的Dockerfile: #以最新的tidyverse
..
我正在读取Azure数据砖中的实木复合地板文件:使用SparkR>read.parquet()使用Sparklyr>spark_read_parquet()这两个数据帧是不同的,是否有任何方法可以将SparkR数据帧转换为sparklyr数据帧,反之亦然? 解决方案 sparklyr创建tbl_spark.从本质上讲,这只是用Spark SQL编写的惰性查询.SparkR创建一个Spark
..
我知道可以使用JPMML-SparkML库将 Spark ML管道导出到 PMML .我只是在努力寻找如何使用 sparklyr 从 R 做到这一点. 我知道开放的github问题,提出了两个想法: 使用Scala API,例如: 模型)sparkapi :: invoke(model $ .model,"toPMML","./myModelPMM
..