apache-spark-2.0 第2页 - IT屋-程序员软件开发技术分享社区

如何使用 Spark 2 屏蔽列?

我有一些表格，需要屏蔽其中的一些列.要屏蔽的列因表而异，我正在从 application.conf 文件中读取这些列. 以employee表为例，如下图 +----+------+-----+---------+|身份证 |姓名 |年龄 |地址 |+----+------+-----+---------+|1 |abcd |21 |印度 |+----+------+-----+------ ..

发布时间：2021-11-14 22:01:10 scala apache-spark apache-spark-sql apache-spark-2.0 其他开发

如何在 Apache Spark SQL 中绑定变量?例如: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)sqlContext.sql("SELECT * FROM src WHERE col1 = ${VAL1}").collect().foreach(println) 解决方案 Spark SQL(从 1.6 ..

发布时间：2021-11-14 21:54:37 scala apache-spark apache-spark-sql apache-spark-2.0 其他开发

触发堆内存配置和钨

我认为随着项目 Tungesten 的集成，spark 会自动使用堆外内存. spark.memory.offheap.size 和 spark.memory.offheap.enabled 有什么用?我是否需要在这里手动指定 Tungsten 的堆外内存量? 解决方案 Spark/Tungsten 使用编码器/解码器将 JVM 对象表示为高度专业化的 Spark SQL 类型对象， ..

发布时间：2021-11-14 21:53:17 apache-spark apache-spark-sql spark-dataframe apache-spark-2.0 off-heap 其他开发

为什么 SparkSQL 在 SQL 查询中需要两个文字转义反斜杠?

当我从 Spark 2.0 REPL (spark-shell) 运行以下 Scala 代码时，它按照我的预期运行，使用简单的正则表达式拆分字符串. import org.apache.spark.sql.SparkSession//创建会话val sparkSession = SparkSession.builder.master("local").getOrCreate()//使用 Spar ..

发布时间：2021-11-14 21:48:06 apache-spark apache-spark-sql apache-spark-2.0 其他开发

如何在 spark (scala) 中将 WrappedArray[WrappedArray[Float]] 转换为 Array[Array[Float]]

我使用的是 Spark 2.0.我有一列数据框包含一个 WrappedArray 的 WrappedArrays of Float. 一行的一个例子是: [[1.0 2.0 2.0][6.0 5.0 2.0][4.0 2.0 3.0]] 我正在尝试将此列转换为 Array[Array[Float]]. 到目前为止我尝试的是以下内容: dataframe.select("myc ..

发布时间：2021-11-14 21:48:03 arrays scala casting spark-dataframe apache-spark-2.0 其他开发

为什么在流式数据集上使用缓存失败并显示“AnalysisException:必须使用 writeStream.start() 执行具有流式源的查询"?

SparkSession.builder.master("本地[*]").config("spark.sql.warehouse.dir", "C:/tmp/spark").config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint").appName("我的测试").getOrCreate.rea ..

发布时间：2021-11-14 21:30:36 scala apache-spark apache-spark-sql apache-spark-2.0 spark-structured-streaming 其他开发

读取带有包含嵌入逗号的引用字段的 csv 文件

我正在 Pyspark 中读取一个 csv 文件，如下所示: df_raw=spark.read.option("header","true").csv(csv_path) 但是，数据文件引用了带有嵌入逗号的字段不应被视为逗号.我如何在 Pyspark 中处理这个问题?我知道 pandas 可以处理这个问题，但 Spark 可以吗?我使用的版本是 Spark 2.0.0. 这是一个在 P ..

发布时间：2021-11-14 21:23:54 csv apache-spark pyspark apache-spark-sql apache-spark-2.0 其他开发

Spark parquet 分区:大量文件

我正在尝试利用火花分区.我正在尝试做类似的事情 data.write.partitionBy("key").parquet("/location") 这里的问题是每个分区都会创建大量的镶木地板文件，如果我尝试从根目录读取，会导致读取速度变慢. 为了避免我尝试过 data.coalese(numPart).write.partitionBy("key").parquet("/locati ..

发布时间：2021-11-14 21:22:18 apache-spark spark-dataframe rdd apache-spark-2.0 bigdata 其他开发

Spark 中有哪些不同的连接类型?

我查看了文档，它说支持以下连接类型: 要执行的连接类型.默认内部.必须是以下之一:内部、交叉、外，全，full_outer，左，left_outer，右，right_outer，left_semi，left_anti. 我查看了关于 SQL 连接和顶部的 StackOverflow 答案几个答案没有提到上面的一些连接，例如left_semi 和 left_anti.它们在 Spark ..

发布时间：2021-11-14 21:17:49 scala apache-spark apache-spark-sql spark-dataframe apache-spark-2.0 其他开发

Spark 2.0 数据集与数据帧

从 spark 2.0.1 开始我有一些问题.我阅读了很多文档，但到目前为止找不到足够的答案: 有什么区别 df.select("foo") df.select($"foo") 我理解正确吗 myDataSet.map(foo.someVal) 是类型安全的，不会转换为 RDD 而是保持在 DataSet 表示中/没有额外的开销(2.0.0 的性能明智) 所有其他命令，例如 ..

发布时间：2021-11-14 21:14:09 scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0 其他开发

Apache Spark 中的 Jaro-Winkler 分数计算

我们需要在 Apache Spark Dataset 中实现跨字符串的 Jaro-Winkler 距离计算.我们是 Spark 的新手，在网上搜索后我们找不到太多东西.如果您能指导我们，那就太好了.我们想过使用 flatMap 然后意识到它无济于事，然后我们尝试使用几个 foreach 循环但无法弄清楚如何继续.因为每个字符串都必须与所有字符串进行比较.就像下面的数据集一样. RowFactor ..

发布时间：2021-11-14 21:11:25 apache-spark apache-spark-mllib apache-spark-ml apache-spark-2.0 apache-spark-dataset 其他开发

如何在pyspark中将密集向量的RDD转换为DataFrame?

我有一个 DenseVector RDD 像这样 >>>frequencyDenseVectors.collect()[DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 0.0, 1.0]), DenseVector([1.0, 1.0, 1.0, ., 0.0.0.0], 0.0, 0.0, 0.0, 0.0 ..

发布时间：2021-11-14 20:58:31 apache-spark pyspark apache-spark-mllib apache-spark-ml apache-spark-2.0 其他开发

读取带有包含嵌入逗号的引用字段的 csv 文件

我正在 Pyspark 中读取一个 csv 文件，如下所示: df_raw=spark.read.option("header","true").csv(csv_path) 但是，数据文件引用了带有嵌入逗号的字段不应被视为逗号.我如何在 Pyspark 中处理这个问题?我知道 pandas 可以处理这个问题，但 Spark 可以吗?我使用的版本是 Spark 2.0.0. 这是一个在 P ..

发布时间：2021-11-12 05:43:26 csv apache-spark pyspark apache-spark-sql apache-spark-2.0 其他开发

Spark parquet 分区:大量文件

我正在尝试利用火花分区.我正在尝试做类似的事情 data.write.partitionBy("key").parquet("/location") 这里的问题是每个分区都会创建大量的镶木地板文件，如果我尝试从根目录读取，会导致读取速度变慢. 为了避免我尝试过 data.coalese(numPart).write.partitionBy("key").parquet("/locati ..

发布时间：2021-11-12 05:39:21 apache-spark spark-dataframe rdd apache-spark-2.0 bigdata 其他开发

Spark 中有哪些连接类型?

我查看了文档，它说支持以下连接类型: 要执行的连接类型.默认内部.必须是以下之一:内部、交叉、外，全，full_outer，左，left_outer，右，right_outer，left_semi，left_anti. 我查看了关于 SQL 连接和顶部的 StackOverflow 答案几个答案没有提到上面的一些连接，例如left_semi 和 left_anti.它们在 Spark ..

发布时间：2021-11-12 05:30:10 scala apache-spark apache-spark-sql spark-dataframe apache-spark-2.0 其他开发

Spark 2.0 数据集与数据帧

从 spark 2.0.1 开始我有一些问题.我阅读了很多文档，但到目前为止找不到足够的答案: 有什么区别 df.select("foo") df.select($"foo") 我理解正确吗 myDataSet.map(foo.someVal) 是类型安全的，不会转换为 RDD 而是保持在 DataSet 表示中/没有额外的开销(2.0.0 的性能明智) 所有其他命令，例如 ..

发布时间：2021-11-12 05:24:05 scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0 其他开发

java.lang.IllegalStateException:读取增量文件时出错，使用 kafka 触发结构化流

我在我们的项目中使用 Structured Streaming + Kafka 进行实时数据分析.我使用的是 Spark 2.2，kafka 0.10.2. 我在应用程序启动时从检查点恢复流式查询时遇到问题.由于从单个 kafka 流点派生出多个流查询，并且每个流查询都有不同的检查目录.因此，在作业失败的情况下，当我们重新启动作业时，会出现一些无法从检查点位置恢复的流查询，因此会引发异常读取 ..

发布时间：2021-11-12 02:12:03 apache-kafka apache-spark-2.0 spark-structured-streaming checkpoint 其他开发

使用 Spark 2.0.2(结构化流)从 Kafka 读取 Avro 消息

我有一个 spark 2.0 应用程序，它使用 spark 流(使用 spark-streaming-kafka-0-10_2.11)从 kafka 读取消息. 结构化流看起来很酷，所以我想尝试迁移代码，但我不知道如何使用它. 在常规流中，我使用 kafkaUtils 来 createDstrean，在我传递的参数中，它是值反序列化器. 在 Structured Streamin ..

发布时间：2021-11-12 01:44:22 scala apache-kafka spark-streaming avro apache-spark-2.0 其他开发

Spark 中 UDAF 与聚合器的性能对比

我正在尝试在 Spark 中编写一些注重性能的代码，并想知道我是否应该编写一个 Aggregator 或用户定义的聚合函数 (UDAF) 用于我对数据帧的汇总操作. 我无法在任何地方找到任何关于这些方法有多快以及您应该在 spark 2.0+ 中使用的数据. 解决方案你应该写一个 Aggregator 而不是 UserDefinedAggregateFunction 作为 Use ..

发布时间：2021-10-26 17:48:09 performance apache-spark spark-dataframe aggregate-functions apache-spark-2.0 其他开发

如何从下载 Spark 页面的源代码构建 Spark?

我尝试在带有 Ubuntu 16.04 的 Ubuntu VM 上安装和构建 Spark 2.0.0，如下所示: 安装 Java sudo apt-add-repository ppa:webupd8team/javasudo apt-get 更新sudo apt-get install oracle-java8-installer 安装 Scala 转到他们网站上的“下载"选项卡 ..

发布时间：2021-07-15 19:03:24 scala ubuntu sbt apache-spark-2.0 其他开发

apache-spark-2.0相关内容

如何使用 Spark 2 屏蔽列?

在 Spark SQL 中动态绑定变量/参数?

触发堆内存配置和钨

为什么 SparkSQL 在 SQL 查询中需要两个文字转义反斜杠?

如何在 spark (scala) 中将 WrappedArray[WrappedArray[Float]] 转换为 Array[Array[Float]]

为什么在流式数据集上使用缓存失败并显示“AnalysisException:必须使用 writeStream.start() 执行具有流式源的查询"?

读取带有包含嵌入逗号的引用字段的 csv 文件

Spark parquet 分区:大量文件

Spark 中有哪些不同的连接类型?

Spark 2.0 数据集与数据帧

Apache Spark 中的 Jaro-Winkler 分数计算

如何在pyspark中将密集向量的RDD转换为DataFrame?

读取带有包含嵌入逗号的引用字段的 csv 文件

Spark parquet 分区:大量文件

Spark 中有哪些连接类型?

Spark 2.0 数据集与数据帧

java.lang.IllegalStateException:读取增量文件时出错，使用 kafka 触发结构化流

使用 Spark 2.0.2(结构化流)从 Kafka 读取 Avro 消息

Spark 中 UDAF 与聚合器的性能对比

如何从下载 Spark 页面的源代码构建 Spark?