并行性:rdd.parallelize(....)vs dataSet.map(...)? [英] Parallelism: rdd.parallelize(....) vs dataSet.map(...)?

查看：67 发布时间：2021/4/8 20:21:47 scala apache-spark

本文介绍了并行性:rdd.parallelize(....)vs dataSet.map(...)?的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我已经使用DataFrame/DataSet和RDD实现了一个Spark应用程序.我将应用程序提交到了我的Spark 2.1.1本地开发环境.我的电脑有八个 CPU内核.

I have implemented a Spark application using both DataFrame/DataSet and RDD. I submitted the application to my local development environment of Spark 2.1.1. My PC has eight CPU cores.

DateFrame/DataSet

val date : LocalDate = ....
val conf = new SparkConf()
val sc = new SparkContext(conf.setAppName("Test").setMaster("local[*]"))
val sqlContext = new org.apache.spark.sql.SQLContext(sc)

val itemListJob = new ItemList(sqlContext, jdbcSqlConn)
import sqlContext.implicits._ 
val processed = itemListJob.run(rc, priority).select("id").map(d => {
  val (a, b) = runJob.run(d, date) // returns a tuple of (int, java.sql.Date), which are the passed parameters.
  s"$a, $b"
})

class ItemList(sqlContext: org.apache.spark.sql.SQLContext, jdbcSqlConn: String) {
  def run(date: LocalDate) = {
    import sqlContext.implicits._ 
    sqlContext.read.format("jdbc").options(Map(
      "driver" -> "com.microsoft.sqlserver.jdbc.SQLServerDriver",
      "url" -> jdbcSqlConn,
      "dbtable" -> s"dbo.GetList('$date')"
    )).load()
    .select("id") 
    .as[Int] 
  }
}
processed.write.text("c:\\temp\\mpa")

RDD

val itemList = itemListJob.run(rc, priority).select("id").rdd.map(r => r(0).asInstanceOf[Int]).collect()

val processed = sc.parallelize(itemList).map(d => {
  runJob.run(d, rc) // returns a tuple of (int, LocalDate), which are the passed parameters.
})
processed.saveAsTextFile("c:\\temp\\mpa")

RDD应用程序拆分并生成了八个文本文件，而Dataframe/DataSet一个仅生成了一个文件.这是否意味着RDD并行运行了八个 runJob.run()，而DataFrame/DataSet方法仅一次运行了一个而没有并发?

The RDD application split and generated eight text files while the Dataframe/DataSet one generated only one file. Does it mean the RDD ran eight runJob.run() in parallel while the DataFrame/DataSet approach only ran one a time without concurrency?

我希望runJob.run()既可以分散运行，又可以并行运行，它既要处理主要工作量，也要进行jdbc调用.

I want the runJob.run(), which does the main workload and will also make a jdbc call, to be run distributed and in parallel.

并行性:rdd.parallelize(....)vs dataSet.map(...)? [英] Parallelism: rdd.parallelize(....) vs dataSet.map(...)?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

并行性:rdd.parallelize(....)vs dataSet.map(...)? [英] Parallelism: rdd.parallelize(....) vs dataSet.map(...)?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭