apache-spark-1.6 - IT屋-程序员软件开发技术分享社区

如何通过 Spark 属性(Spark 1.6)在 spark-shell 中启用或禁用 Hive 支持?

是否有任何配置属性我们可以设置它以在 spark 1.6 中通过 spark-shell 明确禁用/启用 Hive 支持.我试图获取所有 sqlContext 配置属性， sqlContext.getAllConfs.foreach(println) 但是，我不确定禁用/启用配置单元支持实际上需要哪些属性.或者有没有其他方法可以做到这一点? 解决方案火花 >= 2.0 可以 ..

发布时间：2021-11-14 22:25:35 apache-spark hive apache-spark-sql apache-spark-1.6 其他开发

将 CSV 读入具有时间戳和日期类型的 Spark 数据帧

它是带有 Spark 1.6 的 CDH. 我正在尝试将此假设 CSV 导入 apache Spark DataFrame: $ hadoop fs -cat test.csva,b,c,2016-09-09,a,2016-11-11 09:09:09.0,aa,b,c,2016-09-10,a,2016-11-11 09:09:10.0,a 我使用 databricks-csv jar ..

发布时间：2021-11-14 21:58:20 apache-spark apache-spark-sql apache-spark-1.6 其他开发

如何在 Spark 1.6 的窗口聚合中使用 collect_set 和 collect_list 函数?

发布时间：2021-11-14 21:50:46 scala apache-spark apache-spark-sql apache-spark-1.6 其他开发

我有一个 PySpark df: +---+---+---+---+---+---+---+---+---+|身份证|a1|b1|c1|d1|e1|f1|参考|+---+---+---+---+---+---+---+---+---+|0|1|23|4|8|9|5|b1||1|2|43|8|10|20|43|e1||2|3|15|0|1|23|7|b1||3|4|2|6|11|5|8|d1||4 ..

发布时间：2021-11-14 21:43:26 apache-spark pyspark apache-spark-sql pyspark-sql apache-spark-1.6 其他开发

每种格式的写入或读取选项的参考在哪里?

我使用 Spark 1.6.1. 我们正在尝试使用 HiveContext 和 DataFrameWriter 将 ORC 文件写入 HDFS.虽然我们可以使用 df.write().orc() 我们宁愿做类似的事情 df.write().options(Map("format" -> "orc", "path" -> "/some_path") 这样我们就可以根据使用此帮助程序库的 ..

发布时间：2021-11-14 21:29:28 apache-spark apache-spark-sql apache-spark-1.6 其他开发

Spark CrossValidatorModel 访问其他模型而不是 bestModel?

我使用的是 Spark 1.6.1: 目前我正在使用 CrossValidator 用各种参数训练我的 ML 管道.在训练过程之后，我可以使用 CrossValidatorModel 的 bestModel 属性来获取在交叉验证期间表现最佳的模型.交叉验证的其他模型是否会自动丢弃，或者我可以选择性能比 bestModel 差的模型吗? 我之所以这么问是因为我使用 F1 分数指标进行交叉 ..

发布时间：2021-11-14 20:57:38 apache-spark apache-spark-mllib cross-validation apache-spark-1.6 其他开发

Spark Streaming 应用程序因 KafkaException:字符串超过最大大小或 IllegalArgumentException 而失败

TL;博士: 我非常简单的 Spark Streaming 应用程序在驱动程序中失败，并显示“KafkaException:字符串超出最大大小".我在执行程序中看到了相同的异常，但我也在执行程序日志的某个地方发现了一个 IllegalArgumentException，其中没有其他信息完整问题: 我正在使用 Spark Streaming 从 Kafka 主题中读取一些消息.这 ..

发布时间：2021-11-12 02:48:57 apache-kafka spark-streaming hadoop-yarn cloudera-cdh apache-spark-1.6 其他开发

线程"main"中的异常java.lang.NoClassDefFoundError:org/apache/spark/sql/SQLContext

我正在使用IntelliJ 2016.3版本. import sbt.Keys._导入sbt._对象ApplicationBuild扩展了Build {对象版本{val spark ="1.6.3"}val projectName ="example-spark"val common = Seq(版本:="1.0"，scalaVersion:="2.11.7")val customLibrar ..

发布时间：2021-04-08 20:27:08 apache-spark apache-spark-sql noclassdeffounderror apache-spark-1.6 其他开发

在Spark 1.6的哪里可以找到jars文件夹?

在 Spark下载页面中，如果我下载如果我下载的是v1.6.2的 tar文件，相反，我在那儿找不到jars文件夹.我应该在该网站上使用其他包装类型吗?我目前正在选择默认值(为Hadoop 2.6预先构建).或者，在哪里可以找到这些Spark罐-我应该分别从 http://spark-packages.org ? 以下是我要使用的一堆指示罐: hadoop-common 火花芯 sp ..

发布时间：2021-02-09 20:45:55 apache-spark jar apache-spark-1.6 其他开发

Spark流的动态分配

我有一个Spark Streaming作业与其他作业（Spark核心作业）一起在我们的集群上运行。我想对包括Spark Streaming在内的这些作业使用动态资源分配。根据下面的JIRA问题，动态分配不支持Spark Streaming（在1.6.1版本中）。但是已在2.0.0中修复 JIRA链接 PDF在本期中，它说应该有一个名为 spark.streaming.dynamicA ..

发布时间：2020-10-27 02:18:32 apache-spark spark-streaming dynamic-allocation apache-spark-2.0 apache-spark-1.6 其他开发

为什么在Spark Shell中导入SparkSession失败，并显示“对象SparkSession不是软件包org.apache.spark.sql的成员”？

我在VM，Cloudera计算机上使用Spark 1.6.0。我正在尝试从Spark外壳向Hive表中输入一些数据。为此，我正在尝试使用SparkSession。但是下面的导入无效。 scala> import org.apache.spark.sql.SparkSession ：33：错误：对象SparkSession不是包org.apache.spar ..

发布时间：2020-10-03 00:28:38 apache-spark cloudera-cdh apache-spark-1.6 其他开发

Spark Streaming应用程序失败，出现KafkaException：字符串超出最大大小或IllegalArgumentException

TL; DR：我非常简单的Spark Streaming应用程序在驱动程序中失败，并显示“ KafkaException：字符串超出最大大小”。我在执行程序中看到了相同的异常，但是我还在执行程序的日志中的某个地方发现了一个IllegalArgumentException，其中没有其他信息完整问题：我正在使用Spark Streaming从Kafka主题中读取一些消息。这 ..

发布时间：2020-10-03 00:28:35 apache-kafka spark-streaming yarn cloudera-cdh apache-spark-1.6 其他开发

如何通过Spark属性(Spark 1.6)在spark-shell中启用或禁用Hive支持?

是否有任何配置属性，我们可以将其设置为通过spark 1.6中的spark-shell显式禁用/启用Hive支持.我试图使用所有的sqlContext配置属性， sqlContext.getAllConfs.foreach(println) 但是，我不确定禁用/启用配置单元支持实际上需要哪个属性.还是有其他方法可以做到这一点? 解决方案火花> = 2.0 通过配置可以 ..

发布时间：2020-09-04 08:13:41 apache-spark hive apache-spark-sql apache-spark-1.6 其他开发

将CSV读取到带有时间戳和日期类型的Spark Dataframe中

它是带有Spark 1.6 的CDH. 我正在尝试将此假设CSV导入到Apache Spark DataFrame中: $ hadoop fs -cat test.csv a,b,c,2016-09-09,a,2016-11-11 09:09:09.0,a a,b,c,2016-09-10,a,2016-11-11 09:09:10.0,a 我使用 databricks-csv j ..

发布时间：2020-09-04 06:41:32 apache-spark apache-spark-sql apache-spark-1.6 其他开发

为什么由于连接被拒绝，YARN上的Spark应用程序失败并显示FetchFailedException?

我正在使用spark version 1.6.3，而yarn version 2.7.1.2.3随HDP-2.3.0.0-2557一起提供.因为，在我使用的HDP版本中，spark版本太旧了，我宁愿远程使用另一个spark作为纱线模式. 这是我运行spark shell的方式; ./spark-shell --master yarn-client 一切似乎都很好，sparkCont ..

发布时间：2020-09-04 06:08:34 apache-spark yarn apache-spark-1.6 其他开发

如何处理"WARN TaskSetManager:阶段包含非常大的任务"?

我使用spark 1.6.1. 我的spark应用程序读取s3中存储的10000个以上实木复合地板文件. val df = sqlContext.read.option("mergeSchema", "true").parquet(myPaths: _*) myPaths是Array[String]，其中包含10000个实木复合地板文件的路径.每个路径都是这样的s3n://buck ..

发布时间：2020-09-04 05:41:25 apache-spark apache-spark-1.6 其他开发

PySpark-如何使用一列中的行值访问与该列值同名的另一列

我有一个PySpark df: +---+---+---+---+---+---+---+---+ | id| a1| b1| c1| d1| e1| f1|ref| +---+---+---+---+---+---+---+---+ | 0| 1| 23| 4| 8| 9| 5| b1| | 1| 2| 43| 8| 10| 20| 43| e1| | 2| 3| 1 ..

发布时间：2020-09-04 03:45:54 apache-spark pyspark apache-spark-sql pyspark-sql apache-spark-1.6 其他开发

PySpark序列化EOFError

我正在读取CSV作为Spark DataFrame，并对其执行机器学习操作.我不断收到Python序列化EOFError-为什么知道?我认为这可能是内存问题-即文件超出了可用RAM-但大幅度减小DataFrame的大小并不能防止EOF错误. 下面的玩具代码和错误. #set spark context conf = SparkConf().setMaster("local").setA ..

发布时间：2020-09-04 03:10:45 python apache-spark pyspark apache-spark-1.6 Python

如何在Spark 1.6的窗口聚合中使用collect_set和collect_list函数?

发布时间：2020-09-04 02:52:22 scala apache-spark apache-spark-sql apache-spark-1.6 其他开发

udf没有TypeTag可用于类型字符串

我不了解火花的行为. 我创建了一个udf，返回如下所示的整数 import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} object Show { def main(args: Array[String]): Unit = { val (sc,sq ..

发布时间：2020-09-04 02:40:03 scala apache-spark apache-spark-1.6 其他开发

apache-spark-1.6相关内容