apache-spark 第497页 - IT屋-程序员软件开发技术分享社区

在spark中使用hive数据库

我是Spark新手，尝试使用HortonWorks Sandbox在tpcds基准表上运行一些查询。 http://www.tpc.org/tpcds/ 有在通过shell或hive-view在沙箱上使用配置单元时没有问题。问题是我不知道如何连接到数据库，如果我想使用火花。如何在火花中使用配置单元数据库来运行查询？直到现在我才知道的唯一解决方案是手动重建每个表并使用下面的scala代码 ..

发布时间：2018-06-12 14:05:43 apache-spark hive apache-spark-sql hortonworks-sandbox 其他开发

Spark JDBC仅返回数据帧与列名称

我尝试使用spark JDBC连接到HiveTable，并使用以下代码： val df = spark.read .format（ “JDBC”）。选项（“driver”，“org.apache.hive.jdbc.HiveDriver”）。选项（“用户”，“配置单元”）。选项（“密码”，“”）。选项（“url”，jdbcUrl）。选项（“dbTable”，tableN ..

发布时间：2018-06-12 14:05:32 scala apache-spark jdbc hive 其他开发

如何访问Hive中的现有表？

我的代码：我试图通过scala访问spark应用程序中的HIVE。 > val hiveLocation =“hdfs：// master：9000 / user / hive / warehouse” val conf = new SparkConf（）。setAppName（“SOME APP NAME”）。setMaster [*]“）。set（”spark.sql.wareho ..

发布时间：2018-06-12 14:05:18 scala apache-spark hive apache-spark-sql 其他开发

什么是SparkSQL SQL查询写入JDBC表？

对于Spark中的SQL查询对于阅读，我们可以通过阅读jdbc CREATE TEMPORARY TABLE jdbcTable USING org.apache.spark.sql.jdbc OPTIONS dbtable ...; 对于写入，使用SQL将数据写入远程JDBC表的查询是什么？注意：我希望它是SQL查询。 plz提供纯粹的 ..

发布时间：2018-06-12 14:05:05 jdbc apache-spark hive apache-spark-sql hiveql 其他开发

将ArrayFuffer中的GenericRowWithSchema异常转换为DataFrame中的HashSet与Hive表中的RDD

我使用 create table myTable（var1 int，var2 string，var3 int，var4 string，var5 array>）存储为实木复合地板; 我可以验证它是否已填充 - 此处为样本值 [1，“abcdef”，2，“ghijkl”，ArrayBuffer（[1，“hello”] ..

发布时间：2018-06-12 14:05:02 scala apache-spark hive apache-spark-sql apache-spark-1.3 其他开发

如何使用密钥进行无限阵列加入？

我有两张表，分别是 table1 和 table2 。 table1 很大，而 table2 很小。另外，我有一个UDF函数，它的接口定义如下： - table1-- id 1 2 3 - 表2-- 类别 a b c d e f g UDF：foo（id：Int）：List [String] 我打算首先调用UDF以获得相 ..

发布时间：2018-06-12 14:04:15 apache-spark hive apache-spark-sql hiveql 其他开发

Apache Spark，创建配置单元上下文 - NoSuchMethodException

我有以下问题，我的主要方法是： pre $ static public main（String args []）{ SparkConf conf = new SparkConf（）。setAppName（“TestHive”）; SparkContext sc = new org.apache.spark.SparkContext（conf）; HiveContext hiveCont ..

发布时间：2018-06-12 14:03:50 java exception apache-spark hive Java开发

spark sql不能正确地转换时区

使用scala 2.10.4和spark 1.5.1和spark 1.6 sqlContext.sql（ “” （from_unixtime（at），'US / Pacific'））， | from_utc_timestamp（from_unixtime（at），'US / Pacific'），“ | select id， | to_date（from_utc_timestamp ..

发布时间：2018-06-12 14:03:12 scala apache-spark hive timezone 其他开发

SQLException上的sqlContext HiveDriver错误：方法不受支持

我一直试图使用 sqlContext.read.format（“jdbc”）。options（driver =“org.apache.hive.jdbc.HiveDriver”） to将Hive表格转换为Spark没有任何成功。我已经完成了研究并阅读如下：如何从火花连接到远程hive服务器 Spark 1.5.1与配置单元jdbc 1.2.0无关 http ：//belablo ..

发布时间：2018-06-12 14:02:43 apache-spark jdbc hive pyspark hortonworks-data-platform 其他开发

如何将Spark结构化流数据写入Hive？

如何将Spark结构化流数据写入Hive？有 df.write（）。saveAsTable（tablename）但是我不确定这是否写入流数据我通常做 df.writeStream（）。trigger（new ProcessingTime（1000））。foreach（new KafkaSink（））。start（）将流式数据写入Kafka，但我没有看到类似于将流式数据写入Hive ..

发布时间：2018-06-12 14:02:41 apache-spark hive apache-spark-2.0 其他开发

Spark SQL中找不到Hive表 - Cloudera VM中的spark.sql.AnalysisException

我试图通过java程序访问Hive表，但看起来像我的程序在默认数据库中没有看到任何表。然而，我可以看到相同的表格，并通过spark-shell查询它们。我已经在spark conf目录中复制了hive-site.xml。只有区别 - spark-shell正在运行spark版本1.6.0，其中我的java程序正在运行Spark 2.1.0 package spark_210_test ; ..

发布时间：2018-06-12 14:02:33 apache-spark hive apache-spark-sql cloudera 其他开发

定义的Spark Permanent UDF可以在Metastore中看到，但不能在Spark上的Hive SQL中使用

CREATE FUNCTION hello AS'com.dtstack.main.udf.HelloUDF'USING JAR'hdfs：///172.16.1.151：9000 / user / spark / sparkUDF.jar'$ $ b c $ c>从xctable中选择hello（xcval）错误：org .apache.spark. ..

发布时间：2018-06-12 14:02:28 apache-spark hive 其他开发

val dfA = sqlContext.sql（“select * from employees （'Emp1'，'Emp2'）“） val dfB = sqlContext.sql（”select * from employees where id not in（'Emp1'，'Emp2'）“） val dfN = dfA.withColumn（“department”，lit（“Fin ..

发布时间：2018-06-12 14:02:23 scala apache-spark dataframe hive 其他开发

高效查找Hive / Spark中的bigdata表的所有相关子范围

遵循这个问题，我想问。我有两个表：第一个表 - MajorRange row |从|为| Group .... ----- | -------- | --------- | --------- 1 | 1200 | 1500 | A 2 | 2200 | 2700 | B 3 | 1700 | 1900 | C 4 | 2100 | 2150 | D ... ..

发布时间：2018-06-12 14:01:52 apache-spark hive range bigdata 其他开发

将Apache Zeppelin连接到Hive

我尝试将我的apache zeppelin与我的配置单元Metastore连接起来。我使用zeppelin 0.7.3，因此不存在只有jdbc的配置单元解释器。我已将我的hive-site.xml复制到zeppelin conf文件夹，但我不知道如何创建新的配置单元解释器。我也尝试通过spark的配置单元环境访问配置单元表，但是当我尝试这种方式时，我看不到我的配置单元数据库只显示默认数据库 ..

发布时间：2018-06-12 14:01:11 hadoop apache-spark hive apache-zeppelin 其他开发

为什么Spark saveAsTable with bucketBy创建数千个文件？

上下文 Spark 2.0.1，以集群模式提供spark-submit。我正在阅读hdfs的parquet文件： val spark = SparkSession.builder .appName（“myApp”） .config（“hive.metastore.uris”，“thrift：//XXX.XXX.net：9083”） .config（“spark.sql.so ..

发布时间：2018-06-12 14:00:30 apache-spark hive 其他开发

sparksql.sql.codegen没有提供任何改进

我在下面的spark sql中执行查询。这些表的数据存储在配置单元表中的2个不同节点中。但是由于查询有点慢，我尝试在spark中查找一些选项，以便查询可以执行得更快。所以我发现我们可以配置 sparksql.sql.codegen 和 spark.sql.inMemoryColumnarStorage.compressed 为true，而不是默认为false。但是我没有任何改进，查询的这两 ..

发布时间：2018-06-12 13:59:07 apache-spark hive apache-spark-sql 其他开发

使用Spark和HiveSQL执行多个查询的问题

我希望有人能帮助我解决这个问题。在spark-shell中，如果我尝试如下所示： var sqlContext =新的org.apache.spark.sql.hive.HiveContext（sc） var query =“select * from myDB.table limit 10; drop table if exists” var我收到错误： “org.a ..

发布时间：2018-06-12 13:58:34 apache-spark hive apache-spark-sql 其他开发

如何解析使用^ A（即\001）作为使用spark-csv的分隔符的csv？

非常新的火花和蜂巢以及大数据和Scala等等。我试图编写一个简单的函数，它接受一个sqlContext，从s3加载一个csv文件并返回一个DataFrame。问题在于这个特定的csv使用^ A（即\001）作为分隔符，数据集很大，所以我不能只在它上面执行“s / \001 /，/ g”。此外，这些字段可能包含逗号或其他可能用作分隔符的字符。我知道我使用的spark-csv包含分隔符选项，但 ..

发布时间：2018-06-12 13:56:11 scala apache-spark hive delimiter spark-csv 其他开发

如何在DataFrame Spark 1.6中加载特定的Hive分区？

按照官方的 doc 我们无法在DataFrame中添加特定的配置单元分区 Till Spark 1.5以下用于处理数据帧将有实体列和数据，如下所示 - DataFrame df = hiveContext .read（）。format（“orc”）。load（“path / to / table / entity = xyz”）但是，这在Spark 1.6中 ..

发布时间：2018-06-12 13:56:03 apache-spark hive apache-spark-sql spark-dataframe 其他开发

apache-spark相关内容