sparkr相关内容

如何在带有SparkR的SparkDataFrame中使用未定义的变量列表作为列名?

我在SparkR的世界里不断进步,现在面临着一个我无法解决的问题。 在处理SparkDataFrame操作时,我可能希望更新一些列,或聚合其他列。我学会了如何在个案的基础上做到这一点,也就是一栏一栏地做。 举个例子: library(SparkR) library(magrittr) # Creating SDF nb.row ..
发布时间:2022-04-11 16:30:01 其他开发

如何使用 SparkR 取消嵌套数据?

使用 SparkR 嵌套数组如何“爆炸"?我试过像这样使用 explode : dat %变异(a=爆炸(元数据))%>%头() 但是虽然上面没有导致抛出异常,但它并没有将metadata中的嵌套字段提升到顶级.本质上,我正在寻求与 Hive 的 LATERAL VIEW purge() 功能类似的行为,而不依赖于 HiveContext. 请注 ..
发布时间:2021-12-28 23:55:46 其他开发

如何在 sparkR 中绑定两个数据框列?

如何在spark 1.4的SparkR中绑定两列dataframe TIA,阿伦 解决方案 没有办法做到这一点.这是一个关于 Scala 中 spark (1.3) 的问题.能够做到这一点的唯一方法是使用某种 row.numbering,因为这样您就可以在 row.number 上加入.为什么?因为你只能基于其他已经存在的列连接表或添加列 data1 然后 withColum ..
发布时间:2021-11-14 23:01:54 其他开发

Spark 2.0.0:SparkR CSV 导入

我正在尝试将 csv 文件读入 SparkR(运行 Spark 2.0.0) - &尝试尝试新添加的功能. 在此处使用 RStudio. 我在“读取"源文件时遇到错误. 我的代码: Sys.setenv(SPARK_HOME = "C:/spark-2.0.0-bin-hadoop2.6")库(SparkR,lib.loc = c(file.path(Sys.getenv(“S ..
发布时间:2021-11-14 22:59:05 其他开发

SparkR 窗口函数

我从 JIRA 发现 SparkR 的 1.6 版本code>已经实现了包括lag和rank的窗口函数,但是还没有实现over函数.如何在 SparkR(不是 SparkSQL 方式)中使用像 lag 函数那样没有 over 的窗口函数?有人能举个例子吗? 解决方案 Spark 2.0.0+ SparkR 为 DSL 包装器提供 over、window.partitionBy/par ..
发布时间:2021-11-14 21:31:44 其他开发

SparkR的安装

我有 R 的最新版本 - 3.2.1.现在我想在 R 上安装 SparkR.执行后: >install.packages("SparkR") 我回来了: 安装包到‘/home/user/R/x86_64-pc-linux-gnu-library/3.2’(因为'lib'未指定)install.packages 中的警告:“SparkR"包不可用(适用于 R 版本 3.2.1) 我的机器上也 ..
发布时间:2021-11-12 05:34:56 其他开发

Sparklyr:如何根据列将 Spark 表居中?

我有一个 Spark 表: simxx0: 数字 1.00 2.00 3.00 ...x1:数量 2.00 3.00 4.00 ......x788:数量 2.00 3.00 4.00 ... 和连接到这个 simx 表的 R 环境中名为 simX_tbl 的句柄. 我想对这个表进行居中,即用其列均值减去每一列.例如,计算x0 - mean(x0),等等. 到目前为止,我最大的努力 ..
发布时间:2021-11-12 05:33:03 其他开发

通过 RStudio 加载 com.databricks.spark.csv

我已经安装了 Spark-1.4.0.我还安装了它的 R 包 SparkR,我可以通过 Spark-shell 和 RStudio 使用它,但是,我无法解决一个差异. 启动 SparkR-shell 时 ./bin/sparkR --master local[7] --packages com.databricks:spark-csv_2.10:1.0.3 我可以按如下方式读取 .csv ..
发布时间:2021-07-10 21:08:54 其他开发

使用SparkR创建的数据帧和使用Sparklyr创建的数据帧之间有什么区别?

我正在读取Azure数据砖中的实木复合地板文件:使用SparkR>read.parquet()使用Sparklyr>spark_read_parquet()这两个数据帧是不同的,是否有任何方法可以将SparkR数据帧转换为sparklyr数据帧,反之亦然? 解决方案 sparklyr创建tbl_spark.从本质上讲,这只是用Spark SQL编写的惰性查询.SparkR创建一个Spark ..
发布时间:2021-04-28 20:44:45 其他开发