apache-spark相关内容

Hive UDF用于选择除某些列外的所有内容

HiveQL中的常见查询构建模式(通常是SQL)是选择所有列( SELECT * )或显式指定的一组列( SELECT A,B,C )。 SQL没有内置机制来选择除指定的一组列之外的所有其他内容。 有几种排除某些列的机制,如这个SO问题,但没有一个适用于HiveQL。 (例如,使用 SELECT * 然后 ALTER TABLE DROP 创建一个临时表的想法在大数据环境中大肆破坏。) ..
发布时间:2018-06-12 13:54:50 其他开发

远程连接apache spark与apache配置单元。

我可以从安装apache spark的同一群集中的hive服务器加载数据。但是,我怎么能从远程配置单元服务器加载数据到数据帧。是hive jdbc连接器的唯一选择吗? 任何建议我该怎么做? 解决方案 您可以使用 org.apache.spark.sql.hive.HiveContext 在Hive表上执行SQL查询。 您也可以将spark连接到实际存储数据的底层HDFS目录。这 ..
发布时间:2018-06-12 13:53:00 其他开发

使用Apache Spark查询多个Hive商店

我有一个Spark应用程序,它将成功连接到配置单元并使用Spark引擎在配置单元表上进行查询。 为了构建这个,我只是将 hive-site.xml 添加到应用程序的类路径中,spark将读取 hive-site.xml 来连接到它的Metastore。这个方法是在spark的邮件列表中建议的。 到目前为止这么好。现在我想连接到两个配置单元存储,我不认为在我的类路径中添加另一个 hive ..
发布时间:2018-06-12 13:48:28 其他开发

如何使用spark将数据加载到配置单元外部表中?

我想尝试使用spark将数据加载到配置单元外部表中。 请在此帮助我,如何使用scala代码或java将数据加载到配置单元中 提前致谢 解决方案 假设已经使用类似的方法创建了hive外部表, CREATE EXTERNAL TABLE external_parquet(c1 INT,c2 STRING,c3 TIMESTAMP) 作为PARQUET位置存储'/ user / ..
发布时间:2018-06-12 13:46:47 其他开发

在Pyspark HiveContext中,什么是SQL OFFSET的等价物?

或者一个更具体的问题是如何处理大量的数据,而这些数据一次不适合内存?用OFFSET我试图做hiveContext.sql(“select ... limit 10 offset 10”),同时递增偏移量以获取所有数据,但offset在hiveContext中似乎不是有效的。通常用于实现这一目标的替代方案是什么? 对于某些情况,pyspark代码以 from pyspark.sql im ..
发布时间:2018-06-12 13:46:41 其他开发

如何使用SparkR保持数据安全?

使用 SparkR 嵌套数组如何“爆炸”?我尝试过使用爆炸,例如: dat% mutate(a = explode(元数据))%>% head() 尽管上述不会引发异常,但它不会将元数据中的嵌套字段提升到顶层。基本上,我正在寻找与Hive的 LATERAL VIEW explode()功能类似的行为,而不依赖于 HiveCon ..
发布时间:2018-06-12 13:44:05 其他开发

只覆盖分区火花数据集中的一些分区

我们如何覆盖分区数据集,但只有我们要更改的分区?例如,重新计算上周每天的工作,并且只重写上周的数据。 默认的Spark行为是覆盖整个表,即使只有一些分区将要写出来。 解决方案 自从Spark 2.3.0覆盖表格时,这是一个选项。要覆盖它,您需要将新的 spark.sql.sources.partitionOverwriteMode 设置设置为 dynamic ,数据集需要被分区,写模 ..
发布时间:2018-06-12 13:43:43 其他开发