apache-spark-2.0相关内容
我有一些表格,需要屏蔽其中的一些列.要屏蔽的列因表而异,我正在从 application.conf 文件中读取这些列. 以employee表为例,如下图 +----+------+-----+---------+|身份证 |姓名 |年龄 |地址 |+----+------+-----+---------+|1 |abcd |21 |印度 |+----+------+-----+------
..
如何在 Apache Spark SQL 中绑定变量?例如: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)sqlContext.sql("SELECT * FROM src WHERE col1 = ${VAL1}").collect().foreach(println) 解决方案 Spark SQL(从 1.6
..
我认为随着项目 Tungesten 的集成,spark 会自动使用堆外内存. spark.memory.offheap.size 和 spark.memory.offheap.enabled 有什么用?我是否需要在这里手动指定 Tungsten 的堆外内存量? 解决方案 Spark/Tungsten 使用编码器/解码器将 JVM 对象表示为高度专业化的 Spark SQL 类型对象,
..
当我从 Spark 2.0 REPL (spark-shell) 运行以下 Scala 代码时,它按照我的预期运行,使用简单的正则表达式拆分字符串. import org.apache.spark.sql.SparkSession//创建会话val sparkSession = SparkSession.builder.master("local").getOrCreate()//使用 Spar
..
我使用的是 Spark 2.0.我有一列数据框包含一个 WrappedArray 的 WrappedArrays of Float. 一行的一个例子是: [[1.0 2.0 2.0][6.0 5.0 2.0][4.0 2.0 3.0]] 我正在尝试将此列转换为 Array[Array[Float]]. 到目前为止我尝试的是以下内容: dataframe.select("myc
..
SparkSession.builder.master("本地[*]").config("spark.sql.warehouse.dir", "C:/tmp/spark").config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint").appName("我的测试").getOrCreate.rea
..
我正在 Pyspark 中读取一个 csv 文件,如下所示: df_raw=spark.read.option("header","true").csv(csv_path) 但是,数据文件引用了带有嵌入逗号的字段不应被视为逗号.我如何在 Pyspark 中处理这个问题?我知道 pandas 可以处理这个问题,但 Spark 可以吗?我使用的版本是 Spark 2.0.0. 这是一个在 P
..
我正在尝试利用火花分区.我正在尝试做类似的事情 data.write.partitionBy("key").parquet("/location") 这里的问题是每个分区都会创建大量的镶木地板文件,如果我尝试从根目录读取,会导致读取速度变慢. 为了避免我尝试过 data.coalese(numPart).write.partitionBy("key").parquet("/locati
..
我查看了文档,它说支持以下连接类型: 要执行的连接类型.默认内部.必须是以下之一:内部、交叉、外,全,full_outer,左,left_outer,右,right_outer,left_semi,left_anti. 我查看了关于 SQL 连接和顶部的 StackOverflow 答案几个答案没有提到上面的一些连接,例如left_semi 和 left_anti.它们在 Spark
..
从 spark 2.0.1 开始我有一些问题.我阅读了很多文档,但到目前为止找不到足够的答案: 有什么区别 df.select("foo") df.select($"foo") 我理解正确吗 myDataSet.map(foo.someVal) 是类型安全的,不会转换为 RDD 而是保持在 DataSet 表示中/没有额外的开销(2.0.0 的性能明智) 所有其他命令,例如
..
我们需要在 Apache Spark Dataset 中实现跨字符串的 Jaro-Winkler 距离计算.我们是 Spark 的新手,在网上搜索后我们找不到太多东西.如果您能指导我们,那就太好了.我们想过使用 flatMap 然后意识到它无济于事,然后我们尝试使用几个 foreach 循环但无法弄清楚如何继续.因为每个字符串都必须与所有字符串进行比较.就像下面的数据集一样. RowFactor
..
我有一个 DenseVector RDD 像这样 >>>frequencyDenseVectors.collect()[DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 0.0, 1.0]), DenseVector([1.0, 1.0, 1.0, ., 0.0.0.0], 0.0, 0.0, 0.0, 0.0
..
我正在 Pyspark 中读取一个 csv 文件,如下所示: df_raw=spark.read.option("header","true").csv(csv_path) 但是,数据文件引用了带有嵌入逗号的字段不应被视为逗号.我如何在 Pyspark 中处理这个问题?我知道 pandas 可以处理这个问题,但 Spark 可以吗?我使用的版本是 Spark 2.0.0. 这是一个在 P
..
我正在尝试利用火花分区.我正在尝试做类似的事情 data.write.partitionBy("key").parquet("/location") 这里的问题是每个分区都会创建大量的镶木地板文件,如果我尝试从根目录读取,会导致读取速度变慢. 为了避免我尝试过 data.coalese(numPart).write.partitionBy("key").parquet("/locati
..
我查看了文档,它说支持以下连接类型: 要执行的连接类型.默认内部.必须是以下之一:内部、交叉、外,全,full_outer,左,left_outer,右,right_outer,left_semi,left_anti. 我查看了关于 SQL 连接和顶部的 StackOverflow 答案几个答案没有提到上面的一些连接,例如left_semi 和 left_anti.它们在 Spark
..
从 spark 2.0.1 开始我有一些问题.我阅读了很多文档,但到目前为止找不到足够的答案: 有什么区别 df.select("foo") df.select($"foo") 我理解正确吗 myDataSet.map(foo.someVal) 是类型安全的,不会转换为 RDD 而是保持在 DataSet 表示中/没有额外的开销(2.0.0 的性能明智) 所有其他命令,例如
..
我在我们的项目中使用 Structured Streaming + Kafka 进行实时数据分析.我使用的是 Spark 2.2,kafka 0.10.2. 我在应用程序启动时从检查点恢复流式查询时遇到问题.由于从单个 kafka 流点派生出多个流查询,并且每个流查询都有不同的检查目录.因此,在作业失败的情况下,当我们重新启动作业时,会出现一些无法从检查点位置恢复的流查询,因此会引发异常读取
..
我有一个 spark 2.0 应用程序,它使用 spark 流(使用 spark-streaming-kafka-0-10_2.11)从 kafka 读取消息. 结构化流看起来很酷,所以我想尝试迁移代码,但我不知道如何使用它. 在常规流中,我使用 kafkaUtils 来 createDstrean,在我传递的参数中,它是值反序列化器. 在 Structured Streamin
..
我正在尝试在 Spark 中编写一些注重性能的代码,并想知道我是否应该编写一个 Aggregator 或 用户定义的聚合函数 (UDAF) 用于我对数据帧的汇总操作. 我无法在任何地方找到任何关于这些方法有多快以及您应该在 spark 2.0+ 中使用的数据. 解决方案 你应该写一个 Aggregator 而不是 UserDefinedAggregateFunction 作为 Use
..
我尝试在带有 Ubuntu 16.04 的 Ubuntu VM 上安装和构建 Spark 2.0.0,如下所示: 安装 Java sudo apt-add-repository ppa:webupd8team/javasudo apt-get 更新sudo apt-get install oracle-java8-installer 安装 Scala 转到他们网站上的“下载"选项卡
..