apache-spark相关内容
我是Spark新手,尝试使用HortonWorks Sandbox在tpcds基准表上运行一些查询。 http://www.tpc.org/tpcds/ 有在通过shell或hive-view在沙箱上使用配置单元时没有问题。问题是我不知道如何连接到数据库,如果我想使用火花。 如何在火花中使用配置单元数据库来运行查询? 直到现在我才知道的唯一解决方案是手动重建每个表并使用下面的scala代码
..
我尝试使用spark JDBC连接到HiveTable,并使用以下代码: val df = spark.read .format( “JDBC”)。 选项(“driver”,“org.apache.hive.jdbc.HiveDriver”)。 选项(“用户”,“配置单元”)。 选项(“密码”,“”)。 选项(“url”,jdbcUrl)。 选项(“dbTable”,tableN
..
我的代码: 我试图通过scala访问spark应用程序中的HIVE。 > val hiveLocation =“hdfs:// master:9000 / user / hive / warehouse” val conf = new SparkConf()。setAppName(“SOME APP NAME”)。setMaster [*]“)。set(”spark.sql.wareho
..
对于Spark中的SQL查询 对于阅读,我们可以通过阅读jdbc CREATE TEMPORARY TABLE jdbcTable USING org.apache.spark.sql.jdbc OPTIONS dbtable ...; 对于写入,使用SQL将数据写入远程JDBC表的查询是什么? 注意:我希望它是SQL查询。 plz提供纯粹的
..
我使用 create table myTable(var1 int,var2 string,var3 int,var4 string,var5 array>)存储为实木复合地板; 我可以验证它是否已填充 - 此处为样本值 [1,“abcdef”,2,“ghijkl”,ArrayBuffer([1,“hello”]
..
我有两张表,分别是 table1 和 table2 。 table1 很大,而 table2 很小。另外,我有一个UDF函数,它的接口定义如下: - table1-- id 1 2 3 - 表2-- 类别 a b c d e f g UDF:foo(id:Int):List [String] 我打算首先调用UDF以获得相
..
我有以下问题,我的主要方法是: pre $ static public main(String args []){ SparkConf conf = new SparkConf()。setAppName(“TestHive”); SparkContext sc = new org.apache.spark.SparkContext(conf); HiveContext hiveCont
..
使用scala 2.10.4和spark 1.5.1和spark 1.6 sqlContext.sql( “” (from_unixtime(at),'US / Pacific')), | from_utc_timestamp(from_unixtime(at),'US / Pacific'),“ | select id, | to_date(from_utc_timestamp
..
我一直试图使用 sqlContext.read.format(“jdbc”)。options(driver =“org.apache.hive.jdbc.HiveDriver”) to将Hive表格转换为Spark没有任何成功。我已经完成了研究并阅读如下: 如何从火花连接到远程hive服务器 Spark 1.5.1与配置单元jdbc 1.2.0无关 http ://belablo
..
如何将Spark结构化流数据写入Hive? 有 df.write()。saveAsTable(tablename)但是我不确定这是否写入流数据 我通常做 df.writeStream()。trigger(new ProcessingTime(1000))。foreach(new KafkaSink())。start() 将流式数据写入Kafka,但我没有看到类似于将流式数据写入Hive
..
我试图通过java程序访问Hive表,但看起来像我的程序在默认数据库中没有看到任何表。然而,我可以看到相同的表格,并通过spark-shell查询它们。我已经在spark conf目录中复制了hive-site.xml。只有区别 - spark-shell正在运行spark版本1.6.0,其中我的java程序正在运行Spark 2.1.0 package spark_210_test ;
..
CREATE FUNCTION hello AS'com.dtstack.main.udf.HelloUDF'USING JAR'hdfs:///172.16.1.151:9000 / user / spark / sparkUDF.jar'$ $ b c $ c>从xctable中选择hello(xcval) 错误:org .apache.spark.
..
val dfA = sqlContext.sql(“select * from employees ('Emp1','Emp2')“) val dfB = sqlContext.sql(”select * from employees where id not in('Emp1','Emp2')“) val dfN = dfA.withColumn(“department”,lit(“Fin
..
遵循这个问题,我想问。 我有两个表: 第一个表 - MajorRange row |从|为| Group .... ----- | -------- | --------- | --------- 1 | 1200 | 1500 | A 2 | 2200 | 2700 | B 3 | 1700 | 1900 | C 4 | 2100 | 2150 | D ...
..
我尝试将我的apache zeppelin与我的配置单元Metastore连接起来。我使用zeppelin 0.7.3,因此不存在只有jdbc的配置单元解释器。我已将我的hive-site.xml复制到zeppelin conf文件夹,但我不知道如何创建新的配置单元解释器。 我也尝试通过spark的配置单元环境访问配置单元表,但是当我尝试这种方式时,我看不到我的配置单元数据库只显示默认数据库
..
上下文 Spark 2.0.1,以集群模式提供spark-submit。我正在阅读hdfs的parquet文件: val spark = SparkSession.builder .appName(“myApp”) .config(“hive.metastore.uris”,“thrift://XXX.XXX.net:9083”) .config(“spark.sql.so
..
我在下面的spark sql中执行查询。这些表的数据存储在配置单元表中的2个不同节点中。但是由于查询有点慢,我尝试在spark中查找一些选项,以便查询可以执行得更快。所以我发现我们可以配置 sparksql.sql.codegen 和 spark.sql.inMemoryColumnarStorage.compressed 为true,而不是默认为false。 但是我没有任何改进,查询的这两
..
我希望有人能帮助我解决这个问题。 在spark-shell中,如果我尝试如下所示: var sqlContext =新的org.apache.spark.sql.hive.HiveContext(sc) var query =“select * from myDB.table limit 10; drop table if exists” var我收到错误: “org.a
..
非常新的火花和蜂巢以及大数据和Scala等等。我试图编写一个简单的函数,它接受一个sqlContext,从s3加载一个csv文件并返回一个DataFrame。问题在于这个特定的csv使用^ A(即\001)作为分隔符,数据集很大,所以我不能只在它上面执行“s / \001 /,/ g”。此外,这些字段可能包含逗号或其他可能用作分隔符的字符。 我知道我使用的spark-csv包含分隔符选项,但
..
按照官方的 doc 我们无法在DataFrame中添加特定的 配置单元分区 Till Spark 1.5以下用于处理数据帧 将有实体列和数据,如下所示 - DataFrame df = hiveContext .read()。format(“orc”)。load(“path / to / table / entity = xyz”) 但是,这在Spark 1.6中
..