sparkr相关内容
在Basic R中,我使用data.table: 将函数一次应用于多个列 d
..
我在SparkR的世界里不断进步,现在面临着一个我无法解决的问题。 在处理SparkDataFrame操作时,我可能希望更新一些列,或聚合其他列。我学会了如何在个案的基础上做到这一点,也就是一栏一栏地做。 举个例子: library(SparkR) library(magrittr) # Creating SDF nb.row
..
在使用spark-submit传递参数时,我尝试在Databricks上调用R笔记本。 我的方法如下: com
..
使用 SparkR 嵌套数组如何“爆炸"?我试过像这样使用 explode : dat %变异(a=爆炸(元数据))%>%头() 但是虽然上面没有导致抛出异常,但它并没有将metadata中的嵌套字段提升到顶级.本质上,我正在寻求与 Hive 的 LATERAL VIEW purge() 功能类似的行为,而不依赖于 HiveContext. 请注
..
如何使用 Spark 数据帧的特定格式将字符串转换为日期? 在 dplyr 中,我会这样做: df = data.frame(dt1 = c("22DEC16", "12JUN16"), x = c(10,20))df = df %>% mutate(dt2 = as.Date(dt1, "%d%b%y"))>dfdt1 x dt21 22DEC16 10 2016-12-222 12JU
..
如何使用 Spark 数据帧的特定格式将字符串转换为日期? 在 dplyr 中,我会这样做: df = data.frame(dt1 = c("22DEC16", "12JUN16"), x = c(10,20))df = df %>% mutate(dt2 = as.Date(dt1, "%d%b%y"))>dfdt1 x dt21 22DEC16 10 2016-12-222 12JU
..
考虑我有以下数据框 AccountId,CloseDate1,2015-05-072,2015-05-093,2015-05-014,2015-05-071,2015-05-091,2015-05-122,2015-05-123,2015-05-013,2015-05-013、2015-05-024,2015-05-171,2015-05-12 我想根据 AccountId 对其进行分组,然后
..
我在 Hive 中有这样的视图: id sequencenumber appname242539622 1A242539622 2A242539622 3A242539622 4 乙242539622 5 乙242539622 6 C242539622 7 D242539622 8 D242539622 9 D242539622 10 乙242539622 11 乙242539622 12D24
..
如何在spark 1.4的SparkR中绑定两列dataframe TIA,阿伦 解决方案 没有办法做到这一点.这是一个关于 Scala 中 spark (1.3) 的问题.能够做到这一点的唯一方法是使用某种 row.numbering,因为这样您就可以在 row.number 上加入.为什么?因为你只能基于其他已经存在的列连接表或添加列 data1 然后 withColum
..
我正在尝试将 csv 文件读入 SparkR(运行 Spark 2.0.0) - &尝试尝试新添加的功能. 在此处使用 RStudio. 我在“读取"源文件时遇到错误. 我的代码: Sys.setenv(SPARK_HOME = "C:/spark-2.0.0-bin-hadoop2.6")库(SparkR,lib.loc = c(file.path(Sys.getenv(“S
..
我有一个 SparkR DataFrame,如下所示: #Create R data.framecustId
..
我有一个 Spark DataFrame,如下所示: #Create DataFramedf
..
我是 spark 新手,当我遇到这两个命令时,我正在使用 python 在 sparkSql 中尝试一些命令: createOrReplaceTempView() 和 registerTempTable(). 这两个命令有什么区别?.它们似乎具有相同的功能集. 解决方案 registerTempTable 是 1.x API 的一部分,已在 Spark 2.0 中弃用.
..
如何在 RStudio 上将 csv 文件加载到 SparkR 中?以下是我在 RStudio 上运行 SparkR 必须执行的步骤.我已经使用 read.df 读取 .csv 不知道如何写这个.不确定这一步是否被认为是创建 RDD. #设置sys环境变量Sys.setenv(SPARK_HOME = "C:/Users/Desktop/spark/spark-1.4.1-bin-hadoop2
..
我从 JIRA 发现 SparkR 的 1.6 版本code>已经实现了包括lag和rank的窗口函数,但是还没有实现over函数.如何在 SparkR(不是 SparkSQL 方式)中使用像 lag 函数那样没有 over 的窗口函数?有人能举个例子吗? 解决方案 Spark 2.0.0+ SparkR 为 DSL 包装器提供 over、window.partitionBy/par
..
我正在使用 RStudio. 创建会话后,如果我尝试使用 R 数据创建数据框,则会出错. Sys.setenv(SPARK_HOME = "E:/spark-2.0.0-bin-hadoop2.7/spark-2.0.0-bin-hadoop2.7")Sys.setenv(HADOOP_HOME = "E:/winutils").libPaths(c(file.path(Sys.geten
..
我有 R 的最新版本 - 3.2.1.现在我想在 R 上安装 SparkR.执行后: >install.packages("SparkR") 我回来了: 安装包到‘/home/user/R/x86_64-pc-linux-gnu-library/3.2’(因为'lib'未指定)install.packages 中的警告:“SparkR"包不可用(适用于 R 版本 3.2.1) 我的机器上也
..
我有一个 Spark 表: simxx0: 数字 1.00 2.00 3.00 ...x1:数量 2.00 3.00 4.00 ......x788:数量 2.00 3.00 4.00 ... 和连接到这个 simx 表的 R 环境中名为 simX_tbl 的句柄. 我想对这个表进行居中,即用其列均值减去每一列.例如,计算x0 - mean(x0),等等. 到目前为止,我最大的努力
..
我已经安装了 Spark-1.4.0.我还安装了它的 R 包 SparkR,我可以通过 Spark-shell 和 RStudio 使用它,但是,我无法解决一个差异. 启动 SparkR-shell 时 ./bin/sparkR --master local[7] --packages com.databricks:spark-csv_2.10:1.0.3 我可以按如下方式读取 .csv
..
我正在读取Azure数据砖中的实木复合地板文件:使用SparkR>read.parquet()使用Sparklyr>spark_read_parquet()这两个数据帧是不同的,是否有任何方法可以将SparkR数据帧转换为sparklyr数据帧,反之亦然? 解决方案 sparklyr创建tbl_spark.从本质上讲,这只是用Spark SQL编写的惰性查询.SparkR创建一个Spark
..