sparkr - IT屋-程序员软件开发技术分享社区

将函数一次应用于SparkDataFrame的多个列

在Basic R中，我使用data.table：将函数一次应用于多个列 d ..

发布时间：2022-04-11 16:31:36 r databricks lapply sparkr 其他开发

如何在带有SparkR的SparkDataFrame中使用未定义的变量列表作为列名？

我在SparkR的世界里不断进步，现在面临着一个我无法解决的问题。在处理SparkDataFrame操作时，我可能希望更新一些列，或聚合其他列。我学会了如何在个案的基础上做到这一点，也就是一栏一栏地做。举个例子： library(SparkR) library(magrittr) # Creating SDF nb.row ..

发布时间：2022-04-11 16:30:01 r databricks azure-databricks sparkr 其他开发

从第二个R笔记本中调用数据库中的R笔记本

在使用spark-submit传递参数时，我尝试在Databricks上调用R笔记本。我的方法如下： com ..

发布时间：2022-04-11 15:45:41 sparkr databricks spark-submit 其他开发

如何使用 SparkR 取消嵌套数据?

使用 SparkR 嵌套数组如何“爆炸"?我试过像这样使用 explode : dat %变异(a=爆炸(元数据))%>%头() 但是虽然上面没有导致抛出异常，但它并没有将metadata中的嵌套字段提升到顶级.本质上，我正在寻求与 Hive 的 LATERAL VIEW purge() 功能类似的行为，而不依赖于 HiveContext. 请注 ..

发布时间：2021-12-28 23:55:46 r apache-spark hive sparkr 其他开发

SparkR - 转换为日期格式

如何使用 Spark 数据帧的特定格式将字符串转换为日期? 在 dplyr 中，我会这样做: df = data.frame(dt1 = c("22DEC16", "12JUN16"), x = c(10,20))df = df %>% mutate(dt2 = as.Date(dt1, "%d%b%y"))>dfdt1 x dt21 22DEC16 10 2016-12-222 12JU ..

发布时间：2021-11-14 23:30:04 r apache-spark apache-spark-sql sparkr 其他开发

SparkR - 转换为日期格式

如何使用 Spark 数据帧的特定格式将字符串转换为日期? 在 dplyr 中，我会这样做: df = data.frame(dt1 = c("22DEC16", "12JUN16"), x = c(10,20))df = df %>% mutate(dt2 = as.Date(dt1, "%d%b%y"))>dfdt1 x dt21 22DEC16 10 2016-12-222 12JU ..

发布时间：2021-11-14 23:27:31 r apache-spark apache-spark-sql sparkr 其他开发

如何在 R 中将 groupedData 转换为 Dataframe

考虑我有以下数据框 AccountId,CloseDate1,2015-05-072,2015-05-093,2015-05-014,2015-05-071,2015-05-091,2015-05-122,2015-05-123,2015-05-013,2015-05-013、2015-05-024,2015-05-171,2015-05-12 我想根据 AccountId 对其进行分组，然后 ..

发布时间：2021-11-14 23:19:32 r apache-spark dataframe apache-spark-sql sparkr 其他开发

如何识别 Hive 中字符串列的重复出现?

我在 Hive 中有这样的视图: id sequencenumber appname242539622 1A242539622 2A242539622 3A242539622 4 乙242539622 5 乙242539622 6 C242539622 7 D242539622 8 D242539622 9 D242539622 10 乙242539622 11 乙242539622 12D24 ..

发布时间：2021-11-14 23:17:32 hive pyspark hiveql pyspark-sql sparkr 其他开发

如何在 sparkR 中绑定两个数据框列?

如何在spark 1.4的SparkR中绑定两列dataframe TIA，阿伦解决方案没有办法做到这一点.这是一个关于 Scala 中 spark (1.3) 的问题.能够做到这一点的唯一方法是使用某种 row.numbering，因为这样您就可以在 row.number 上加入.为什么?因为你只能基于其他已经存在的列连接表或添加列 data1 然后 withColum ..

发布时间：2021-11-14 23:01:54 apache-spark apache-spark-sql sparkr 其他开发

Spark 2.0.0:SparkR CSV 导入

我正在尝试将 csv 文件读入 SparkR(运行 Spark 2.0.0) - &尝试尝试新添加的功能. 在此处使用 RStudio. 我在“读取"源文件时遇到错误. 我的代码: Sys.setenv(SPARK_HOME = "C:/spark-2.0.0-bin-hadoop2.6")库(SparkR，lib.loc = c(file.path(Sys.getenv(“S ..

发布时间：2021-11-14 22:59:05 csv apache-spark spark-dataframe sparkr 其他开发

在 Spark 中获取组的最后一个值

我有一个 SparkR DataFrame，如下所示: #Create R data.framecustId ..

发布时间：2021-11-14 22:22:25 apache-spark pyspark spark-dataframe sparkr 其他开发

在 Spark 中将日期转换为月末

我有一个 Spark DataFrame，如下所示: #Create DataFramedf ..

发布时间：2021-11-14 22:03:07 pyspark spark-dataframe sparkr 其他开发

createOrReplaceTempView 和 registerTempTable 的区别

我是 spark 新手，当我遇到这两个命令时，我正在使用 python 在 sparkSql 中尝试一些命令: createOrReplaceTempView() 和 registerTempTable(). 这两个命令有什么区别?.它们似乎具有相同的功能集. 解决方案 registerTempTable 是 1.x API 的一部分，已在 Spark 2.0 中弃用. ..

发布时间：2021-11-14 21:51:20 apache-spark pyspark apache-spark-sql pyspark-sql sparkr 其他开发

如何在 RStudio 上将 csv 文件加载到 SparkR?

如何在 RStudio 上将 csv 文件加载到 SparkR 中?以下是我在 RStudio 上运行 SparkR 必须执行的步骤.我已经使用 read.df 读取 .csv 不知道如何写这个.不确定这一步是否被认为是创建 RDD. #设置sys环境变量Sys.setenv(SPARK_HOME = "C:/Users/Desktop/spark/spark-1.4.1-bin-hadoop2 ..

发布时间：2021-11-14 21:44:33 r apache-spark apache-spark-sql sparkr 其他开发

SparkR 窗口函数

我从 JIRA 发现 SparkR 的 1.6 版本code>已经实现了包括lag和rank的窗口函数，但是还没有实现over函数.如何在 SparkR(不是 SparkSQL 方式)中使用像 lag 函数那样没有 over 的窗口函数?有人能举个例子吗? 解决方案 Spark 2.0.0+ SparkR 为 DSL 包装器提供 over、window.partitionBy/par ..

发布时间：2021-11-14 21:31:44 r apache-spark apache-spark-sql window-functions sparkr 其他开发

来自 Rstudio 的 SparkR - 在 invokeJava(isStatic = TRUE, className, methodName, ...) 中给出错误:

我正在使用 RStudio. 创建会话后，如果我尝试使用 R 数据创建数据框，则会出错. Sys.setenv(SPARK_HOME = "E:/spark-2.0.0-bin-hadoop2.7/spark-2.0.0-bin-hadoop2.7")Sys.setenv(HADOOP_HOME = "E:/winutils").libPaths(c(file.path(Sys.geten ..

发布时间：2021-11-14 21:03:27 r apache-spark hiveql apache-spark-mllib sparkr 其他开发

SparkR的安装

我有 R 的最新版本 - 3.2.1.现在我想在 R 上安装 SparkR.执行后: >install.packages("SparkR") 我回来了: 安装包到‘/home/user/R/x86_64-pc-linux-gnu-library/3.2’(因为'lib'未指定)install.packages 中的警告:“SparkR"包不可用(适用于 R 版本 3.2.1) 我的机器上也 ..

发布时间：2021-11-12 05:34:56 r apache-spark sparkr 其他开发

Sparklyr:如何根据列将 Spark 表居中?

我有一个 Spark 表: simxx0: 数字 1.00 2.00 3.00 ...x1:数量 2.00 3.00 4.00 ......x788:数量 2.00 3.00 4.00 ... 和连接到这个 simx 表的 R 环境中名为 simX_tbl 的句柄. 我想对这个表进行居中，即用其列均值减去每一列.例如，计算x0 - mean(x0)，等等. 到目前为止，我最大的努力 ..

发布时间：2021-11-12 05:33:03 r apache-spark dplyr sparkr sparklyr 其他开发

通过 RStudio 加载 com.databricks.spark.csv

我已经安装了 Spark-1.4.0.我还安装了它的 R 包 SparkR，我可以通过 Spark-shell 和 RStudio 使用它，但是，我无法解决一个差异. 启动 SparkR-shell 时 ./bin/sparkR --master local[7] --packages com.databricks:spark-csv_2.10:1.0.3 我可以按如下方式读取 .csv ..

发布时间：2021-07-10 21:08:54 rstudio sparkr 其他开发

使用SparkR创建的数据帧和使用Sparklyr创建的数据帧之间有什么区别?

我正在读取Azure数据砖中的实木复合地板文件:使用SparkR>read.parquet()使用Sparklyr>spark_read_parquet()这两个数据帧是不同的，是否有任何方法可以将SparkR数据帧转换为sparklyr数据帧，反之亦然? 解决方案 sparklyr创建tbl_spark.从本质上讲，这只是用Spark SQL编写的惰性查询.SparkR创建一个Spark ..

发布时间：2021-04-28 20:44:45 r parquet databricks sparkr sparklyr 其他开发

sparkr相关内容