如何在 RStudio 上将 csv 文件加载到 SparkR? [英] How to load csv file into SparkR on RStudio?

查看:26
本文介绍了如何在 RStudio 上将 csv 文件加载到 SparkR?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

如何在 RStudio 上将 csv 文件加载到 SparkR 中?以下是我在 RStudio 上运行 SparkR 必须执行的步骤.我已经使用 read.df 读取 .csv 不知道如何写这个.不确定这一步是否被认为是创建 RDD.

How do you load csv file into SparkR on RStudio? Below are the steps I had to perform to run SparkR on RStudio. I have used read.df to read .csv not sure how else to write this. Not sure if this step is considered to create RDDs.

#Set sys environment variables
Sys.setenv(SPARK_HOME = "C:/Users/Desktop/spark/spark-1.4.1-bin-hadoop2.6")
.libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))

#Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.0.3" "sparkr-shell"')

#Load libraries
library(SparkR)
library(magrittr)

sc <- sparkR.init(master="local")
sc <- sparkR.init()
sc <- sparkR.init(sparkPackages="com.databricks:spark-csv_2.11:1.0.3")
sqlContext <- sparkRSQL.init(sc)

data <- read.df(sqlContext, "C:/Users/Desktop/DataSets/hello_world.csv", "com.databricks.spark.csv", header="true")

我收到错误:

Error in writeJobj(con, object) : invalid jobj 1

推荐答案

Spark 2.0.0+:

您可以使用 csv 数据源:

You can use csv data source:

loadDF(sqlContext, path="some_path", source="csv", header="true")

无需加载 spark-csv.

原答案:

据我所知,您使用的是错误版本的 spark-csv.Spark 的预构建版本使用的是 Scala 2.10,但您使用的是适用于 Scala 2.11 的 Spark CSV.试试这个:

As far as I can tell you're using a wrong version of spark-csv. Pre-built versions of Spark are using Scala 2.10, but you're using Spark CSV for Scala 2.11. Try this instead:

sc <- sparkR.init(sparkPackages="com.databricks:spark-csv_2.10:1.2.0")

这篇关于如何在 RStudio 上将 csv 文件加载到 SparkR?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆