apache-spark-2.0相关内容

Spark 2.0 CSV错误

我正在从1.6升级到spark 2,并且在读取CSV文件时遇到问题.在spark 1.6中,我可以将类似的内容读取到CSV文件中. val df = sqlContext.read.format("com.databricks.spark.csv").option("header","true").load(文件名) 现在,我使用文档中给出的以下代码: val df = spark.r ..
发布时间:2021-04-08 20:19:31 其他开发

Scala案例类忽略了Spark shell中的导入

我希望这个问题有明显的答案! 我刚刚升级到Spark v2.0,并且 spark-shell (Scala 2.11内部版本)有一个奇怪的问题. 如果我输入以下最小Scala, 导入java.sql.Timestamp案例类Crime(caseNumber:字符串,日期:时间戳记,描述:字符串,详细信息:字符串,逮捕:布尔值) 我收到以下错误消息, :11:错 ..
发布时间:2021-04-08 19:50:51 其他开发

Cassandra的Spark2会话,SQL查询

在Spark-2.0中,什么是创建Spark会话的最佳方法.因为在Spark-2.0和Cassandra-中都对API进行了重新设计,从而实质上弃用了SqlContext(以及CassandraSqlContext).因此,为了执行SQL,我要么创建一个Cassandra会话(com.datastax.driver.core.Session)并使用execute(“").或者我必须创建一个 Spa ..

java.lang.IllegalStateException:读取增量文件时出错,使用kafka进行火花结构化流式传输

我在我们的项目中使用结构化流+ Kafka进行实时数据分析.我正在使用Spark 2.2,kafka 0.10.2. 在应用程序启动时从检查点进行流查询恢复时,我遇到了一个问题.由于从单个kafka流点派生了多个流查询,并且每个流查询都有不同的checkpint目录.因此,在作业失败的情况下,当我们重新启动作业时,会有一些流查询无法从检查点位置恢复,因此会引发读取增量文件错误的异常.这是日志 ..

Spark流的动态分配

我有一个Spark Streaming作业与其他作业(Spark核心作业)一起在我们的集群上运行。我想对包括Spark Streaming在内的这些作业使用动态资源分配。根据下面的JIRA问题,动态分配不支持Spark Streaming(在1.6.1版本中)。但是已在2.0.0中修复 JIRA链接 PDF在本期中,它说应该有一个名为 spark.streaming.dynamicA ..

使用Spark 2.0.2从Kafka读取Avro消息(结构化流)

我有一个spark 2.0应用程序,该应用程序使用Spark Streaming(带有spark-streaming-kafka-0-10_2.11)从kafka读取消息. 结构化的流媒体看起来真的很酷,所以我想尝试迁移代码,但是我不知道如何使用它. 在常规流中,我使用kafkaUtils来创建Dstrean,在传递的参数中,它是值反序列化器. 在结构化流式传输中,文档说我应该使 ..

如何从单个目录仅加载pyspark spark.read.csv中的前n个文件

在一种情况下,我正在加载和处理4TB数据, 大约一个文件夹中有15000个.csv文件. 由于我的资源有限,因此我计划将这些资源分成两部分进行处理 批次并将它们合并. 我试图了解我是否只能加载50%(或前n个 批处理1中的文件数,批处理2中的其余文件)使用 spark.read.csv. 我无法使用正则表达式,因为生成了这些文件 来自多个来源,数量不均(某些来源 来源很少,而其他来 ..
发布时间:2020-09-04 21:16:47 其他开发

使用extraOptimizations转换Spark SQL AST

我想将一个SQL字符串作为用户输入,然后在执行之前对其进行转换.特别是,我想修改顶层投影(选择子句),注入要由查询检索的其他列. 我希望通过使用sparkSession.experimental.extraOptimizations连接到Catalyst来实现这一目标.我知道我要尝试的并不是严格意义上的优化(转换会更改SQL语句的语义),但是API似乎仍然合适.但是,查询执行程序似乎忽略了我 ..
发布时间:2020-09-04 19:57:16 其他开发