apache-spark-2.0相关内容

如何从单个目录仅加载 pyspark spark.read.csv 中的前 n 个文件

我有一个场景,我正在加载和处理 4TB 的数据,一个文件夹中大约有 15000 个 .csv 文件. 由于资源有限,我打算分两次处理批次,然后将它们联合起来. 我想知道我是否只能加载 50%(或第一个批处理 1 中的文件数和批处理 2 中的其余文件数)使用 spark.read.csv. 我不能使用正则表达式,因为这些文件是生成的来自多个来源并且它们的数量是奇数(来自某些来源很少, ..
发布时间:2021-11-14 22:52:45 其他开发

指定列的 Spark sql 问题

我们正在尝试将一个 oracle 数据库复制到 hive 中.我们从 oracle 获取查询并在 hive 中运行它们.因此,我们以这种格式获取它们: INSERT INTO schema.table(col1,col2) VALUES ('val','val'); 虽然此查询直接在 Hive 中工作,但当我使用 spark.sql 时,出现以下错误: org.apache.spark.sq ..
发布时间:2021-11-14 22:52:42 其他开发

使用 extraOptimizations 转换 Spark SQL AST

我想将 SQL 字符串作为用户输入,然后在执行前对其进行转换.特别是,我想修改顶级投影(select 子句),注入要由查询检索的额外列. 我希望通过使用 sparkSession.experimental.extraOptimizations 连接到 Catalyst 来实现这一目标.我知道我正在尝试的不是严格意义上的优化(转换改变了 SQL 语句的语义),但 API 似乎仍然合适.但是,查 ..
发布时间:2021-11-14 22:51:56 其他开发

Spark 中 UDAF 与聚合器的性能对比

我正在尝试在 Spark 中编写一些注重性能的代码,并想知道我是否应该编写一个 Aggregator 或 用户定义的聚合函数 (UDAF) 用于我对数据帧的汇总操作. 我无法在任何地方找到任何关于这些方法有多快以及您应该在 spark 2.0+ 中使用的数据. 解决方案 你应该写一个 Aggregator 而不是 UserDefinedAggregateFunction 作为 Use ..

Apache spark加入动态重新分区

我正在尝试对两个表进行相当简单的连接,并不复杂.加载两个表,进行连接并更新列,但它不断抛出异常. 我注意到任务卡在最后一个分区 199/200 并最终崩溃.我怀疑是数据倾斜导致所有数据都加载到最后一个分区199. SELECT COUNT(DISTINCT report_audit) FROM ReportDs = 150 万. 虽然 SELECT COUNT(*) FRO ..

不支持 Any 类型的架构

我正在尝试创建一个 spark UDF,以从用户定义的案例类中提取(键、值)对的映射. scala 函数似乎工作正常,但是当我尝试在 spark2.0 中将其转换为 UDF 时,我遇到了“不支持任何类型的架构"错误. case class myType(c1: String, c2: Int)def getCaseClassParams(cc: Product): Map[String, ..