apache-spark-2.0 第4页 - IT屋-程序员软件开发技术分享社区

指定列的Spark SQL问题

我们正在尝试将oracle数据库复制到配置单元中.我们从oracle获取查询，并在配置单元中运行它们. 因此，我们以以下格式获取它们: INSERT INTO schema.table(col1,col2) VALUES ('val','val'); 此查询直接在Hive中运行时，当我使用spark.sql时，出现以下错误: org.apache.spark.sql.catalys ..

发布时间：2020-09-04 19:55:34 sql apache-spark apache-spark-sql apache-spark-2.0 其他开发

使用Scala的Spark 2.0时间戳差异(以毫秒为单位)

我正在使用Spark 2.0，并在Scala中寻找一种实现以下目标的方法: 两个数据帧列值之间需要时间戳差异(以毫秒为单位). Value_1 = 06/13/2017 16:44:20.044 Value_2 = 06/13/2017 16:44:21.067 两者的数据类型都是时间戳. 注意:在两个值上都应用函数 unix_timestamp(Column s)并进行减法 ..

发布时间：2020-09-04 19:12:03 scala timestamp apache-spark-sql user-defined-functions apache-spark-2.0 其他开发

Apache Spark中的Jaro-Winkler分数计算

我们需要在Apache Spark 数据集中跨字符串实现Jaro-Winkler距离计算.我们是新兴的，在网络上搜索之后，我们找不到很多东西.如果您能指导我们，那就太好了.我们考虑使用 flatMap ，然后意识到这无济于事，然后我们尝试使用几个foreach循环，但无法弄清楚如何进行.因为每个字符串都必须与所有字符串进行比较.就像下面的数据集一样. RowFactory.create(0, ..

发布时间：2020-09-04 18:43:02 apache-spark apache-spark-mllib apache-spark-ml apache-spark-2.0 apache-spark-dataset 其他开发

将RDD对以特定格式保存在输出文件中

我有一个JavaPairRDD，可以说类型的数据 > 当我执行data.saveAsTextFile("output")时输出将包含以下格式的数据: (1，[1,2,3,4]) 等... 我想要在输出文件中这样的内容: 1 1,2,3,4 i.e. 1\t1,2,3,4 任何帮助将不胜感激解决方案 ..

发布时间：2020-09-04 08:57:36 apache-spark apache-spark-2.0 其他开发

如何在Spark 2中启用钨优化?

我刚刚在hive支持下构建了Spark 2，并使用Hortonworks 2.3.4将其部署到集群中.但是，我发现此Spark 2.0.3比HDP 2.3随附的标准spark 1.5.3慢. 当我检查explain时，似乎我的Spark 2.0.3没有使用钨.我需要创建特殊版本来启用钨吗? 火花1.5.3解释 == Physical Plan == TungstenAggrega ..

发布时间：2020-09-04 08:12:23 apache-spark pyspark apache-spark-sql apache-spark-2.0 其他开发

如何使用数据集进行分组

我有使用rdd的请求: val test = Seq(("New York", "Jack"), ("Los Angeles", "Tom"), ("Chicago", "David"), ("Houston", "John"), ("Detroit", "Michael"), ("Chicago", "Andrew"), ("Detroit" ..

发布时间：2020-09-04 08:12:05 apache-spark dataset apache-spark-2.0 其他开发

在Spark 2.1.0中读取大文件时出现内存不足错误

我想使用spark来将大型(51 GB)XML文件(在外部HDD上)读入数据帧(使用但是不管我如何调整，我总是得到java.lang.OutOfMemoryError: Java heap space. 我想了解为什么不增加分区数量会阻止OOM错误不是应该将任务分成更多的部分，以使每个部分都较小并且不会引起内存问题吗? (Spark不可能试图将所有内容都塞进内存，如果不合适的话 ..

发布时间：2020-09-04 08:08:29 xml scala apache-spark apache-spark-2.0 apache-spark-xml 其他开发

将系统属性传递给spark-submit并从类路径或自定义路径读取文件

我最近在Apache Spark中找到了一种使用logback代替log4j的方法 (都供本地使用和spark-submit).但是，最后一块丢失了. 问题是Spark非常努力地在其类路径中看不到logback.xml设置.我已经找到了一种在本地执行期间加载它的方法: 我到目前为止所拥有的基本上，检查系统属性logback.configurationFile，但是从我的/sr ..

发布时间：2020-09-04 07:55:55 java scala apache-spark apache-spark-2.0 spark-submit Java开发

Apache Spark与Apache Spark 2

与Apache Spark相比，Apache Spark2带来了哪些改进? 从架构的角度来看从应用程序角度看或更多解决方案 Apache Spark 2.0.0 API基本上类似于1.X，Spark 2.0.0确实有API重大更改 Apache Spark 2.0.0 是2.x行中的第一个发行版.主要更新包括 API可用性，SQL 2003支持，性能改进，结构化流 ..

发布时间：2020-09-04 07:51:19 apache-spark apache-spark-2.0 其他开发

动态绑定变量/参数在Spark SQL中?

如何在Apache Spark SQL中绑定变量?例如: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("SELECT * FROM src WHERE col1 = ${VAL1}").collect().foreach(println) 解决方案 Spark SQL(从1. ..

发布时间：2020-09-04 06:11:05 scala apache-spark apache-spark-sql apache-spark-2.0 其他开发

Apache Spark加入了动态重新分区

我正在尝试在两个表上进行相当简单的联接，没有什么复杂的. 加载两个表，进行联接和更新列，但它总是引发异常. 我注意到任务卡在了最后一个分区199/200上，最终崩溃了. 我的怀疑是数据歪斜，导致所有数据都加载到了最后一个分区199. SELECT COUNT(DISTINCT report_audit) FROM ReportDs = 1.5million. 而 SELEC ..

发布时间：2020-09-04 05:18:12 scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0 其他开发

Apache Spark Dataframe-从CSV文件的第n行加载数据

我想处理一个大订单的CSV文件(5GB)，在文件的开头有一些元数据行. 标题列在第4行(以"h，开头")中表示，其后是另一个元数据行，描述了可选性.数据行以"d"开头 m,Version,v1.0 m,Type,xx m,, h,Col1,Col2,Col3,Col4,Col5,.............,Col100 m,Mandatory,Opti ..

发布时间：2020-09-04 04:55:32 apache-spark apache-spark-sql spark-dataframe apache-spark-2.0 其他开发

不支持任何类型的架构

我正在尝试创建一个火花UDF，以从用户定义的案例类中提取(键，值)对的映射. scala函数似乎工作正常，但是当我尝试在spark2.0中将其转换为UDF时，遇到了“不支持Any类型的模式"错误. case class myType(c1: String, c2: Int) def getCaseClassParams(cc: Product): Map[String, Any] = ..

发布时间：2020-09-04 04:04:03 scala apache-spark apache-spark-sql udf apache-spark-2.0 其他开发

如何使用Spark 2屏蔽列?

我有一些表需要掩盖其中的某些列.每个表中要屏蔽的列各不相同，我正在从application.conf文件中读取这些列. 例如，如下所示的员工表 +----+------+-----+---------+ | id | name | age | address | +----+------+-----+---------+ | 1 | abcd | 21 | India | +- ..

发布时间：2020-09-04 03:47:37 scala apache-spark apache-spark-sql apache-spark-2.0 其他开发

如何透视流数据集?

我试图透视一个Spark流数据集(结构化流)，但是却得到一个AnalysisException(以下摘录). 有人可以确认结构化流(Spark 2.0)中确实不支持数据透视吗，也许建议其他方法? 线程“主"中的异常org.apache.spark.sql.AnalysisException:具有流源的查询必须使用writeStream.start();执行；卡夫卡在org.apac ..

发布时间：2020-09-04 03:16:52 apache-spark spark-structured-streaming apache-spark-2.0 其他开发

触发堆内存配置和钨

我认为，通过集成Tungesten项目，spark会自动使用堆外内存. spark.memory.offheap.size和spark.memory.offheap.enabled的作用是什么?我是否需要在此处手动指定钨的堆外内存量? 解决方案 Spark/Tungsten使用编码器/解码器将JVM对象表示为高度专用的Spark SQL类型对象，然后可以以高性能方式对其进行序列化和操 ..

发布时间：2020-09-04 03:05:21 apache-spark apache-spark-sql spark-dataframe apache-spark-2.0 off-heap 其他开发

如何从现有的SparkContext创建SparkSession

我有一个Spark应用程序，该应用程序使用带有SparkSession的Spark 2.0新API. 我正在使用SparkContext的另一个应用程序之上构建此应用程序.我想将SparkContext传递给我的应用程序，并使用现有的SparkContext初始化SparkSession. 但是我找不到一种方法来做到这一点.我发现带有SparkContext的SparkSession构造函数 ..

发布时间：2020-09-04 03:03:33 scala apache-spark apache-spark-2.0 其他开发

如何在pyspark中将密集向量的RDD转换为DataFrame?

我有这样的DenseVector RDD >>> frequencyDenseVectors.collect() [DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 0.0, 1.0]), DenseVector([1.0, 1.0, 1.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0 ..

发布时间：2020-09-04 01:18:38 apache-spark pyspark apache-spark-mllib apache-spark-ml apache-spark-2.0 其他开发

为什么在流数据集上使用缓存失败并显示"AnalysisException:必须使用writeStream.start()执行带有流源的查询"?

SparkSession .builder .master("local[*]") .config("spark.sql.warehouse.dir", "C:/tmp/spark") .config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint") .appName("my-t ..

发布时间：2020-09-04 01:17:34 scala apache-spark apache-spark-sql apache-spark-2.0 spark-structured-streaming 其他开发

Spark拼花地板分区:大量文件

我正在尝试利用Spark分区.我正在尝试做类似的事情 data.write.partitionBy("key").parquet("/location") 这里的问题是每个分区都会创建大量的镶木地板文件，如果我尝试从根目录读取，则会导致读取速度慢. 为避免我尝试 data.coalese(numPart).write.partitionBy("key").parquet("/ ..

发布时间：2020-09-04 00:04:37 apache-spark spark-dataframe rdd apache-spark-2.0 bigdata 其他开发

apache-spark-2.0相关内容