apache-spark-1.6相关内容
是否有任何配置属性我们可以设置它以在 spark 1.6 中通过 spark-shell 明确禁用/启用 Hive 支持.我试图获取所有 sqlContext 配置属性, sqlContext.getAllConfs.foreach(println) 但是,我不确定禁用/启用配置单元支持实际上需要哪些属性.或者有没有其他方法可以做到这一点? 解决方案 火花 >= 2.0 可以
..
它是带有 Spark 1.6 的 CDH. 我正在尝试将此假设 CSV 导入 apache Spark DataFrame: $ hadoop fs -cat test.csva,b,c,2016-09-09,a,2016-11-11 09:09:09.0,aa,b,c,2016-09-10,a,2016-11-11 09:09:10.0,a 我使用 databricks-csv jar
..
在 Spark 1.6.0/Scala 中,是否有机会获得 collect_list("colC") 或 collect_set("colC").over(Window.partitionBy("colA")).orderBy("colB")? 解决方案 假设你有 dataframe as +----+----+----+|colA|colB|colC|+----+----+----+|
..
我有一个 PySpark df: +---+---+---+---+---+---+---+---+---+|身份证|a1|b1|c1|d1|e1|f1|参考|+---+---+---+---+---+---+---+---+---+|0|1|23|4|8|9|5|b1||1|2|43|8|10|20|43|e1||2|3|15|0|1|23|7|b1||3|4|2|6|11|5|8|d1||4
..
我使用 Spark 1.6.1. 我们正在尝试使用 HiveContext 和 DataFrameWriter 将 ORC 文件写入 HDFS.虽然我们可以使用 df.write().orc() 我们宁愿做类似的事情 df.write().options(Map("format" -> "orc", "path" -> "/some_path") 这样我们就可以根据使用此帮助程序库的
..
我使用的是 Spark 1.6.1: 目前我正在使用 CrossValidator 用各种参数训练我的 ML 管道.在训练过程之后,我可以使用 CrossValidatorModel 的 bestModel 属性来获取在交叉验证期间表现最佳的模型.交叉验证的其他模型是否会自动丢弃,或者我可以选择性能比 bestModel 差的模型吗? 我之所以这么问是因为我使用 F1 分数指标进行交叉
..
TL;博士: 我非常简单的 Spark Streaming 应用程序在驱动程序中失败,并显示“KafkaException:字符串超出最大大小".我在执行程序中看到了相同的异常,但我也在执行程序日志的某个地方发现了一个 IllegalArgumentException,其中没有其他信息 完整问题: 我正在使用 Spark Streaming 从 Kafka 主题中读取一些消息.这
..
我正在使用IntelliJ 2016.3版本. import sbt.Keys._导入sbt._对象ApplicationBuild扩展了Build {对象版本{val spark ="1.6.3"}val projectName ="example-spark"val common = Seq(版本:="1.0",scalaVersion:="2.11.7")val customLibrar
..
在 Spark下载页面中,如果我下载如果我下载的是v1.6.2的 tar文件,相反,我在那儿找不到jars文件夹.我应该在该网站上使用其他包装类型吗?我目前正在选择默认值(为Hadoop 2.6预先构建).或者,在哪里可以找到这些Spark罐-我应该分别从 http://spark-packages.org ? 以下是我要使用的一堆指示罐: hadoop-common 火花芯 sp
..
我有一个Spark Streaming作业与其他作业(Spark核心作业)一起在我们的集群上运行。我想对包括Spark Streaming在内的这些作业使用动态资源分配。根据下面的JIRA问题,动态分配不支持Spark Streaming(在1.6.1版本中)。但是已在2.0.0中修复 JIRA链接 PDF在本期中,它说应该有一个名为 spark.streaming.dynamicA
..
我在VM,Cloudera计算机上使用Spark 1.6.0。 我正在尝试从Spark外壳向Hive表中输入一些数据。 为此,我正在尝试使用SparkSession。但是下面的导入无效。 scala> import org.apache.spark.sql.SparkSession :33:错误:对象SparkSession不是包org.apache.spar
..
TL; DR: 我非常简单的Spark Streaming应用程序在驱动程序中失败,并显示“ KafkaException:字符串超出最大大小”。我在执行程序中看到了相同的异常,但是我还在执行程序的日志中的某个地方发现了一个IllegalArgumentException,其中没有其他信息 完整问题: 我正在使用Spark Streaming从Kafka主题中读取一些消息。 这
..
是否有任何配置属性,我们可以将其设置为通过spark 1.6中的spark-shell显式禁用/启用Hive支持.我试图使用所有的sqlContext配置属性, sqlContext.getAllConfs.foreach(println) 但是,我不确定禁用/启用配置单元支持实际上需要哪个属性.还是有其他方法可以做到这一点? 解决方案 火花> = 2.0 通过配置可以
..
它是带有Spark 1.6 的CDH. 我正在尝试将此假设CSV导入到Apache Spark DataFrame中: $ hadoop fs -cat test.csv a,b,c,2016-09-09,a,2016-11-11 09:09:09.0,a a,b,c,2016-09-10,a,2016-11-11 09:09:10.0,a 我使用 databricks-csv j
..
我正在使用spark version 1.6.3,而yarn version 2.7.1.2.3随HDP-2.3.0.0-2557一起提供.因为,在我使用的HDP版本中,spark版本太旧了,我宁愿远程使用另一个spark作为纱线模式. 这是我运行spark shell的方式; ./spark-shell --master yarn-client 一切似乎都很好,sparkCont
..
我使用spark 1.6.1. 我的spark应用程序读取s3中存储的10000个以上实木复合地板文件. val df = sqlContext.read.option("mergeSchema", "true").parquet(myPaths: _*) myPaths是Array[String],其中包含10000个实木复合地板文件的路径.每个路径都是这样的s3n://buck
..
我有一个PySpark df: +---+---+---+---+---+---+---+---+ | id| a1| b1| c1| d1| e1| f1|ref| +---+---+---+---+---+---+---+---+ | 0| 1| 23| 4| 8| 9| 5| b1| | 1| 2| 43| 8| 10| 20| 43| e1| | 2| 3| 1
..
我正在读取CSV作为Spark DataFrame,并对其执行机器学习操作.我不断收到Python序列化EOFError-为什么知道?我认为这可能是内存问题-即文件超出了可用RAM-但大幅度减小DataFrame的大小并不能防止EOF错误. 下面的玩具代码和错误. #set spark context conf = SparkConf().setMaster("local").setA
..
在Spark 1.6.0/Scala中,是否有机会获得collect_list("colC")或collect_set("colC").over(Window.partitionBy("colA").orderBy("colB")? 解决方案 鉴于您拥有dataframe作为 +----+----+----+ |colA|colB|colC| +----+----+----+ |1
..
我不了解火花的行为. 我创建了一个udf,返回如下所示的整数 import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} object Show { def main(args: Array[String]): Unit = { val (sc,sq
..