sparklyr - IT屋-程序员软件开发技术分享社区

在Spaklyr中创建虚拟变量？

我正在尝试扩展我的一些ML管道，我喜欢Spaklyr打开的RStudio、Spark和H2O的组合(http://spark.rstudio.com/) 我想弄明白的一件事是如何使用Spaklyr从数据帧中的字符向量创建伪COL。我已经尝试了下面的方法，但我认为它可能混合了一些Spaklyr尚未实现的功能。 library(sparklyr) library(dplyr) s ..

发布时间：2022-09-03 16:22:44 r apache-spark dplyr plyr sparklyr 其他开发

使用 sparklyr 完成时间序列

我正在尝试在我的时间序列数据集中查找丢失的分钟数.我为一个小样本的本地性能写了一个 R 代码: test % mutate(timestamp = as.POSIXct(DaySecFrom.UTC.)) %>%完成(时间戳 = seq.POSIXt(最小值(时间戳)，最大值(时间戳)，by = 'min')，ElemUID) 但是您不能在 spark_tbl 上使用来自 t ..

发布时间：2022-01-11 09:58:14 r apache-spark timestamp time-series sparklyr 其他开发

使用 sparklyr 中的 dplyr 计算每列中唯一元素的数量

我正在尝试计算 spark 数据集 s 中每列中唯一元素的数量. 然而，spark 似乎无法识别 Tally()k%group_by(grouping_type)%>%summarise_each(funs(tally(distinct(.)))))错误:org.apache.spark.sql.AnalysisException:未定义的函数TALLY spark 似乎也无法识别简单 ..

发布时间：2022-01-08 00:00:50 r apache-spark statistics dplyr sparklyr 其他开发

如何使用 Sparklyr 包将不同数据类型的数据展平?

简介 R 代码是使用 Sparklyr 包编写的，用于创建数据库模式.[给出了可重现的代码和数据库] 现有结果 root|-- 贡献者:字符串|-- created_at : 字符串|-- 实体(结构体)||-- 标签(数组):[字符串]||-- 媒体(数组)|||-- additional_media_info (struct)||||-- 描述:字符串||||-- 可嵌入的:布尔 ..

发布时间：2022-01-07 13:27:24 r apache-spark nested flatten sparklyr 其他开发

如何将时间戳转换为字符串(不更改时区)?

我有一些 unix 时间在 sparklyr 中转换为时间戳，出于某些原因，我还需要将它们转换为字符串. 不幸的是，在转换为字符串的过程中，hive 似乎转换为 EST(我的语言环境). df_new %select(t, unix_t, date_str, date_alt) %>% head(5)# 来源:懒惰查询 [??× 4]# 数据库:spark_connectiont unix ..

发布时间：2021-12-28 23:44:58 r apache-spark hive timestamp sparklyr 其他开发

来自 sparklyr 的非默认方案(数据库)中的访问表

在我使用 sparklyr 和 yarn-client 方法管理它连接到我们的(新)集群后，现在我可以只显示默认方案中的表.如何连接到 scheme.table?使用 DBI 它正在工作，例如与以下行:dbGetQuery(sc, "SELECT * FROM scheme.table LIMIT 10")在 HUE 中，我可以显示所有方案的所有表. ~g 解决方案您可以使用完全限 ..

发布时间：2021-12-23 12:57:19 r apache-spark dplyr sparklyr 其他开发

sparklyr 堆空间不足，但内存充足

即使在相当小的数据集上，我也会遇到堆空间错误.我可以确定我没有耗尽系统内存.例如，考虑一个包含大约 2000 万行和 9 列的数据集，它在磁盘上占用 1GB.我在具有 30GB 内存的 Google Compute 节点上使用它. 假设我在名为 df 的数据帧中有这些数据.以下工作正常，虽然有点慢: 图书馆(tidyverse)唯一性 %group_b ..

发布时间：2021-12-23 12:40:07 r apache-spark dplyr sparklyr 其他开发

如何使用 sparklyr 过滤部分匹配

我是 sparklyr 的新手(但熟悉 spark 和 pyspark)，我有一个非常基本的问题.我正在尝试根据部分匹配过滤列.在 dplyr 中，我会这样写我的操作: 企业 %>%过滤器(grepl('测试'，biz_name))%>%头在火花数据帧上运行该代码但是给了我: 错误:org.apache.spark.sql.AnalysisException:未定义的函数:'GREPL ..

发布时间：2021-12-23 12:37:52 r apache-spark dplyr sparklyr 其他开发

聚集在闪闪发光的

我正在使用 sparklyr 来处理一些数据.给定一个， a 我想使用“收集"来操作数据，如下所示: b%收集(键= type_data，值= value_data，-c(id:attribute1)) 但是，“gather"在 sparklyr 上不可用.我见过一些人使用 sdf_pivot 来模仿“收集"(例如如何在 sparklyr 中使用 sdf_pivot() 并连接字符串?) ..

发布时间：2021-12-23 12:29:45 r apache-spark dplyr sparklyr 其他开发

如何使用 spark_apply() 生成使用 combn() 的组合

我想使用 spark 为相对较大的输入列表(200 ish)生成 combn() 函数的输出，以及改变 m (2-5)，但是我在将其包含在 spark_apply() 中时遇到了麻烦. 我目前的方法(基于此): names_df %spark_apply(函数(e)组合(e，2)) 错误消息输出很大，但我无法理解如何使用该信息来改进我的方法. 我期望输出类似于 MWE 的第二行的输 ..

发布时间：2021-11-16 23:13:30 r apache-spark apply sparklyr 其他开发

sparklyr spark_read_parquet 将字符串字段读取为列表

我有许多 parquet 格式的 Hive 文件，其中包含 string 和 double 列.我可以使用以下语法将它们中的大部分读入带有 sparklyr 的 Spark 数据帧: spark_read_parquet(sc, name = "name", path = "path", memory = FALSE) 但是，我在其中读取了一个文件，其中所有 string 值都转换为无法识别的 ..

发布时间：2021-11-14 23:29:09 r hive spark-dataframe parquet sparklyr 其他开发

sparklyr 我可以将格式和路径选项传递给 spark_write_table 吗?或将 saveAsTable 与 spark_write_orc 一起使用?

带 Hive 的 Spark 2.0 假设我正在尝试编写一个 spark 数据帧，irisDf 到 orc 并将其保存到 hive Metastore 在 Spark 中，我会这样做， irisDf.write.format("orc").mode("覆盖").option("path", "s3://my_bucket/iris/").saveAsTable("my_databas ..

发布时间：2021-11-14 22:58:44 r apache-spark hive apache-spark-sql sparklyr 其他开发

有效计算宽 Spark DF 的行总数

我有一个由几千列乘以大约一百万行的宽 Spark 数据框，我想计算行总数.到目前为止，我的解决方案如下.我用了:dplyr - 使用正则表达式的多列的总和和https://github.com/tidyverse/rlang/issues/116 库(sparklyr)图书馆(DBI)图书馆(dplyr)图书馆(rlang)sc1 ..

发布时间：2021-11-14 22:11:45 r apache-spark dplyr apache-spark-sql sparklyr 其他开发

唯一值的数量

以下示例描述了如何在不使用 dplyr 和 sparklyr 聚合行的情况下计算不同值的数量. 是否有不破坏命令链的解决方法? 更一般地说，您如何在 sparklyr 数据帧上使用 sql 之类的窗口函数. ## 生成数据集set.seed(.328)df ..

发布时间：2021-11-14 21:37:27 r apache-spark dplyr apache-spark-sql sparklyr 其他开发

如何在 Spark 中使用稀疏矩阵训练随机森林?

考虑这个使用 sparklyr 的简单示例: 库(sparklyr)library(janeaustenr) # 获取一些文本数据图书馆(字符串)图书馆(dplyr)mytext %mutate(label = as.integer(str_detect(text, 'great'))) #创建一个假标签变量mytext_spark ..

发布时间：2021-11-14 21:06:26 r apache-spark apache-spark-mllib apache-spark-ml sparklyr 其他开发

Sparklyr:如何根据列将 Spark 表居中?

我有一个 Spark 表: simxx0: 数字 1.00 2.00 3.00 ...x1:数量 2.00 3.00 4.00 ......x788:数量 2.00 3.00 4.00 ... 和连接到这个 simx 表的 R 环境中名为 simX_tbl 的句柄. 我想对这个表进行居中，即用其列均值减去每一列.例如，计算x0 - mean(x0)，等等. 到目前为止，我最大的努力 ..

发布时间：2021-11-12 05:33:03 r apache-spark dplyr sparkr sparklyr 其他开发

使用Sparklyr的FPGrowth/关联规则

我正在尝试使用Sparklyr构建关联规则算法，并且一直在关注解决方案您链接的博客帖子已经过时了将近两年.由于 2b0994c 提供了原生包装code> oasml.fpm.FPGrowth df％mutate(items = split(items，"\\\\ s +" ..

发布时间：2021-05-31 18:45:44 r apache-spark machine-learning sparklyr AI人工智能

Sparklyr无法从Dockerfile中的Apache下载Spark

我正在尝试创建一个dockerfile，该文件从Rocker/tidyverse构建图像，并包含来自sparklyr的Spark.以前，在此信息上:无法在Dockerfile中使用sparklyr安装spark ，我试图弄清楚为什么火花不能从我的dockerfile下载.在玩了5天之后，我认为我已经找到了原因，但不知道如何解决. 这是我的Dockerfile: #以最新的tidyverse ..

发布时间：2021-05-02 19:36:09 r docker apache-spark sparklyr 其他开发

使用SparkR创建的数据帧和使用Sparklyr创建的数据帧之间有什么区别?

我正在读取Azure数据砖中的实木复合地板文件:使用SparkR>read.parquet()使用Sparklyr>spark_read_parquet()这两个数据帧是不同的，是否有任何方法可以将SparkR数据帧转换为sparklyr数据帧，反之亦然? 解决方案 sparklyr创建tbl_spark.从本质上讲，这只是用Spark SQL编写的惰性查询.SparkR创建一个Spark ..

发布时间：2021-04-28 20:44:45 r parquet databricks sparkr sparklyr 其他开发

如何将Sparklyr(Spark ML)模型导出到PMML?

我知道可以使用JPMML-SparkML库将 Spark ML管道导出到 PMML .我只是在努力寻找如何使用 sparklyr 从 R 做到这一点. 我知道开放的github问题，提出了两个想法: 使用Scala API，例如: 模型)sparkapi :: invoke(model $ .model，"toPMML"，"./myModelPMM ..

发布时间：2021-04-08 20:21:01 r scala apache-spark sparklyr 其他开发

sparklyr相关内容