apache-spark相关内容

在spark中使用hive数据库

我是Spark新手,尝试使用HortonWorks Sandbox在tpcds基准表上运行一些查询。 http://www.tpc.org/tpcds/ 有在通过shell或hive-view在沙箱上使用配置单元时没有问题。问题是我不知道如何连接到数据库,如果我想使用火花。 如何在火花中使用配置单元数据库来运行查询? 直到现在我才知道的唯一解决方案是手动重建每个表并使用下面的scala代码 ..

Spark JDBC仅返回数据帧与列名称

我尝试使用spark JDBC连接到HiveTable,并使用以下代码: val df = spark.read .format( “JDBC”)。 选项(“driver”,“org.apache.hive.jdbc.HiveDriver”)。 选项(“用户”,“配置单元”)。 选项(“密码”,“”)。 选项(“url”,jdbcUrl)。 选项(“dbTable”,tableN ..
发布时间:2018-06-12 14:05:32 其他开发

如何将Spark结构化流数据写入Hive?

如何将Spark结构化流数据写入Hive? 有 df.write()。saveAsTable(tablename)但是我不确定这是否写入流数据 我通常做 df.writeStream()。trigger(new ProcessingTime(1000))。foreach(new KafkaSink())。start() 将流式数据写入Kafka,但我没有看到类似于将流式数据写入Hive ..
发布时间:2018-06-12 14:02:41 其他开发

Spark SQL中找不到Hive表 - Cloudera VM中的spark.sql.AnalysisException

我试图通过java程序访问Hive表,但看起来像我的程序在默认数据库中没有看到任何表。然而,我可以看到相同的表格,并通过spark-shell查询它们。我已经在spark conf目录中复制了hive-site.xml。只有区别 - spark-shell正在运行spark版本1.6.0,其中我的java程序正在运行Spark 2.1.0 package spark_210_test ; ..
发布时间:2018-06-12 14:02:33 其他开发

将Apache Zeppelin连接到Hive

我尝试将我的apache zeppelin与我的配置单元Metastore连接起来。我使用zeppelin 0.7.3,因此不存在只有jdbc的配置单元解释器。我已将我的hive-site.xml复制到zeppelin conf文件夹,但我不知道如何创建新的配置单元解释器。 我也尝试通过spark的配置单元环境访问配置单元表,但是当我尝试这种方式时,我看不到我的配置单元数据库只显示默认数据库 ..
发布时间:2018-06-12 14:01:11 其他开发

sparksql.sql.codegen没有提供任何改进

我在下面的spark sql中执行查询。这些表的数据存储在配置单元表中的2个不同节点中。但是由于查询有点慢,我尝试在spark中查找一些选项,以便查询可以执行得更快。所以我发现我们可以配置 sparksql.sql.codegen 和 spark.sql.inMemoryColumnarStorage.compressed 为true,而不是默认为false。 但是我没有任何改进,查询的这两 ..
发布时间:2018-06-12 13:59:07 其他开发

如何解析使用^ A(即\001)作为使用spark-csv的分隔符的csv?

非常新的火花和蜂巢以及大数据和Scala等等。我试图编写一个简单的函数,它接受一个sqlContext,从s3加载一个csv文件并返回一个DataFrame。问题在于这个特定的csv使用^ A(即\001)作为分隔符,数据集很大,所以我不能只在它上面执行“s / \001 /,/ g”。此外,这些字段可能包含逗号或其他可能用作分隔符的字符。 我知道我使用的spark-csv包含分隔符选项,但 ..
发布时间:2018-06-12 13:56:11 其他开发