apache-spark-2.0相关内容
我们正在尝试将oracle数据库复制到配置单元中.我们从oracle获取查询,并在配置单元中运行它们. 因此,我们以以下格式获取它们: INSERT INTO schema.table(col1,col2) VALUES ('val','val'); 此查询直接在Hive中运行时,当我使用spark.sql时,出现以下错误: org.apache.spark.sql.catalys
..
我正在使用Spark 2.0,并在Scala中寻找一种实现以下目标的方法: 两个数据帧列值之间需要时间戳差异(以毫秒为单位). Value_1 = 06/13/2017 16:44:20.044 Value_2 = 06/13/2017 16:44:21.067 两者的数据类型都是时间戳. 注意:在两个值上都应用函数 unix_timestamp(Column s)并进行减法
..
我们需要在Apache Spark 数据集中跨字符串实现Jaro-Winkler距离计算.我们是新兴的,在网络上搜索之后,我们找不到很多东西.如果您能指导我们,那就太好了.我们考虑使用 flatMap ,然后意识到这无济于事,然后我们尝试使用几个foreach循环,但无法弄清楚如何进行.因为每个字符串都必须与所有字符串进行比较.就像下面的数据集一样. RowFactory.create(0,
..
我有一个JavaPairRDD,可以说类型 的数据 > 当我执行data.saveAsTextFile("output")时 输出将包含以下格式的数据: (1,[1,2,3,4]) 等... 我想要在输出文件中这样的内容: 1 1,2,3,4 i.e. 1\t1,2,3,4 任何帮助将不胜感激 解决方案
..
我刚刚在hive支持下构建了Spark 2,并使用Hortonworks 2.3.4将其部署到集群中.但是,我发现此Spark 2.0.3比HDP 2.3随附的标准spark 1.5.3慢. 当我检查explain时,似乎我的Spark 2.0.3没有使用钨.我需要创建特殊版本来启用钨吗? 火花1.5.3解释 == Physical Plan == TungstenAggrega
..
我有使用rdd的请求: val test = Seq(("New York", "Jack"), ("Los Angeles", "Tom"), ("Chicago", "David"), ("Houston", "John"), ("Detroit", "Michael"), ("Chicago", "Andrew"), ("Detroit"
..
我想使用spark来将大型(51 GB)XML文件(在外部HDD上)读入数据帧(使用但是不管我如何调整,我总是得到java.lang.OutOfMemoryError: Java heap space. 我想了解为什么不增加分区数量会阻止OOM错误 不是应该将任务分成更多的部分,以使每个部分都较小并且不会引起内存问题吗? (Spark不可能试图将所有内容都塞进内存,如果不合适的话
..
我最近在Apache Spark中找到了 一种使用logback代替log4j的方法 (都供本地使用和spark-submit).但是,最后一块丢失了. 问题是Spark非常努力地在其类路径中看不到logback.xml设置.我已经找到了一种在本地执行期间加载它的方法: 我到目前为止所拥有的 基本上,检查系统属性logback.configurationFile,但是从我的/sr
..
与Apache Spark相比,Apache Spark2带来了哪些改进? 从架构的角度来看 从应用程序角度看 或更多 解决方案 Apache Spark 2.0.0 API基本上类似于1.X,Spark 2.0.0确实有API重大更改 Apache Spark 2.0.0 是2.x行中的第一个发行版.主要更新包括 API可用性,SQL 2003支持,性能改进,结构化流
..
如何在Apache Spark SQL中绑定变量?例如: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("SELECT * FROM src WHERE col1 = ${VAL1}").collect().foreach(println) 解决方案 Spark SQL(从1.
..
我正在尝试在两个表上进行相当简单的联接,没有什么复杂的. 加载两个表,进行联接和更新列,但它总是引发异常. 我注意到任务卡在了最后一个分区199/200上,最终崩溃了. 我的怀疑是数据歪斜,导致所有数据都加载到了最后一个分区199. SELECT COUNT(DISTINCT report_audit) FROM ReportDs = 1.5million. 而 SELEC
..
我想处理一个大订单的CSV文件(5GB),在文件的开头有一些元数据行. 标题列在第4行(以"h,开头")中表示,其后是另一个元数据行,描述了可选性.数据行以"d"开头 m,Version,v1.0 m,Type,xx m,, h,Col1,Col2,Col3,Col4,Col5,.............,Col100 m,Mandatory,Opti
..
我正在尝试创建一个火花UDF,以从用户定义的案例类中提取(键,值)对的映射. scala函数似乎工作正常,但是当我尝试在spark2.0中将其转换为UDF时,遇到了“不支持Any类型的模式"错误. case class myType(c1: String, c2: Int) def getCaseClassParams(cc: Product): Map[String, Any] =
..
我有一些表需要掩盖其中的某些列.每个表中要屏蔽的列各不相同,我正在从application.conf文件中读取这些列. 例如,如下所示的员工表 +----+------+-----+---------+ | id | name | age | address | +----+------+-----+---------+ | 1 | abcd | 21 | India | +-
..
我试图透视一个Spark流数据集(结构化流),但是却得到一个AnalysisException(以下摘录). 有人可以确认结构化流(Spark 2.0)中确实不支持数据透视吗,也许建议其他方法? 线程“主"中的异常org.apache.spark.sql.AnalysisException:具有流源的查询必须使用writeStream.start();执行; 卡夫卡 在org.apac
..
我认为,通过集成Tungesten项目,spark会自动使用堆外内存. spark.memory.offheap.size和spark.memory.offheap.enabled的作用是什么?我是否需要在此处手动指定钨的堆外内存量? 解决方案 Spark/Tungsten使用编码器/解码器将JVM对象表示为高度专用的Spark SQL类型对象,然后可以以高性能方式对其进行序列化和操
..
我有一个Spark应用程序,该应用程序使用带有SparkSession的Spark 2.0新API. 我正在使用SparkContext的另一个应用程序之上构建此应用程序.我想将SparkContext传递给我的应用程序,并使用现有的SparkContext初始化SparkSession. 但是我找不到一种方法来做到这一点.我发现带有SparkContext的SparkSession构造函数
..
我有这样的DenseVector RDD >>> frequencyDenseVectors.collect() [DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 0.0, 1.0]), DenseVector([1.0, 1.0, 1.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0
..
SparkSession .builder .master("local[*]") .config("spark.sql.warehouse.dir", "C:/tmp/spark") .config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint") .appName("my-t
..
我正在尝试利用Spark分区.我正在尝试做类似的事情 data.write.partitionBy("key").parquet("/location") 这里的问题是每个分区都会创建大量的镶木地板文件,如果我尝试从根目录读取,则会导致读取速度慢. 为避免我尝试 data.coalese(numPart).write.partitionBy("key").parquet("/
..