hivecontext相关内容
在 spark-shell (scala) 中,我们导入,org.apache.spark.sql.hive.thriftserver._用于以编程方式为特定配置单元上下文启动 Hive Thrift 服务器作为HiveThriftServer2.startWithContext(hiveContext) 公开该特定会话的注册临时表. 我们如何使用 python 做同样的事情?python
..
我想在 HiveContext 中使用 PySpark 应用 SCD1 和 SCD2.在我的方法中,我正在读取增量数据和目标表.阅读后,我加入了他们的 upsert 方法.我正在对所有源数据帧进行 registerTempTable.我正在尝试将最终数据集写入目标表,但我面临的问题是无法在读取它的表中插入覆盖. 请为此提出一些解决方案.我不想将中间数据写入物理表并再次读取. 是否有任何
..
我在 spark 和 scala 中尝试使用以下代码,附加代码和 pom.xml package com.Spark.ConnectToHadoop导入 org.apache.spark.SparkConf导入 org.apache.spark.SparkConf导入 org.apache.spark._导入 org.apache.spark.sql._导入 org.apache.spark.s
..
我想更新一个 orc 格式的 hive 表,我可以从我的 ambari hive 视图更新,但无法从 sacla (spark-shell) 运行相同的更新语句 objHiveContext.sql("select * from table_name ") 能够看到数据,但是当我运行时 objHiveContext.sql("update table_name set column_n
..
我正在尝试使用我的 HiveContext 运行插入语句,如下所示: hiveContext.sql('insert into my_table (id, score) values (1, 10)') 1.5.2 Spark SQL 文档没有明确说明这是否是支持与否,虽然它确实支持“动态分区插入". 这会导致像 这样的堆栈跟踪 分析异常:查询中不支持的语言功能:插入 my_tabl
..
我正在使用spark1.6.我正在使用spark上下文创建hivecontext.当我将数据保存到配置单元中时,会出现错误.我正在使用cloudera vm.我的蜂巢在cloudera vm内部,并在我的系统中启动.我可以使用IP访问虚拟机.我已经在vm上启动了Thrift服务器和hiveserver2.我有 hive.metastore.uris 的用户节俭服务器uri val hiveC
..
我有下面的查询,该查询应该查找列值的平均值并返回一个单一数字的结果. val avgVal = hiveContext.sql(“从users.payment中选择回合(avg(amount),4),其中dt在'2018-05-09'和'2018-05-09'"之间).().getDouble(0) 在此声明中,我面临行为不一致的情况.这通常会因以下错误而失败,但是通过Hive执行时会给出
..
我知道如果我从Hive提交查询,则会获取一个共享锁,然后该Hive表将被查询锁定: https://cwiki.apache.org/confluence/display/Hive/Locking 因此,我只是想知道查询是否由Spark Hivecontext执行,是否需要锁定并且表也将被锁定?另外,如果我通过Spark Hivecontext将数据插入表中,是否需要排他锁? 谢谢
..
我想在HiveContext中使用PySpark来应用SCD1和SCD2.在我的方法中,我正在读取增量数据和目标表.阅读后,我将加入他们的进阶方法.我正在对所有源数据帧执行registerTempTable.我正在尝试将最终数据集写入目标表,但是我面临的问题是,在读取表的表中无法进行插入覆盖. 请为此提出一些解决方案.我不想将中间数据写入物理表并再次读取. 是否有任何属性或方法可以存储
..
我想更新一个orc格式的配置单元表,我可以从ambari配置单元视图进行更新,但是无法从sacla(spark-shell)运行相同的更新语句 objHiveContext.sql("select * from table_name")能够查看数据,但是当我运行 objHiveContext.sql("update table_name set column_name ='testin
..
使用以下命令来自spark: DataFrame.write().mode(SaveMode.Ignore).format("orc").saveAsTable("myTableName") 表正在保存,我可以使用以下命令的hadoop fs -ls /apps/hive/warehouse\test.db'看到其中test是我的数据库名称 drwxr-xr-x-psudhir h
..
在我们的管道之一中,我们使用spark(java)进行聚合,并使用oozie对其进行编排. 该管道使用以下几行将汇总的数据写入ORC文件. HiveContext hc = new HiveContext(sc); DataFrame modifiedFrame = hc.createDataFrame(aggregateddatainrdd, schema); modifiedFrame
..
案例: 我有一个HiveTest表,它是一个ORC表和事务集,并且在spark shell和查看的数据中加载true。 var rdd = objHiveContext.sql(“select * from HiveTest”) rdd.show() --- 可以查看数据 现在我去了我的蜂巢shell或ambari更新了表,例如 hive>更新H
..
在spark-shell(scala)中,我们导入了 org.apache.spark.sql.hive.thriftserver._ ,以便以编程方式启动Hive Thrift服务器,作为特定的配置单元上下文 HiveThriftServer2.startWithContext(hiveContext)为该特定会话公开一个已注册的临时表。 我们如何使用python做同样的事情? py
..
我在1.6.3 spark版本中运行使用Spark HiveContext的hive合并命令,但它失败并显示下面的错误消息。 2017-09-11 18:30:33 Driver [INFO] ParseDriver - Parse已完成 2017-09-11 18:30:34驱动程序[INFO] ParseDriver - 解析命令:MERGE INTO emp_with_orc
..
我曾尝试与低于code火花和Scala,附加code和pom.xml的 包com.Spark.ConnectToHadoop进口org.apache.spark.SparkConf 进口org.apache.spark.SparkConf 进口org.apache.spark._ 进口org.apache.spark.sql._ 进口org.apache.spark.sql.hive.HiveC
..
我想用我的HiveContext运行一个INSERT语句,像这样的: hiveContext.sql(“插入my_table的(ID,得分)值(1,10)') 借助 1.5.2星火SQL文档不明确指出这是否是支持或不,尽管它的确支持“动态分区插入。” 这导致堆栈跟踪像 AnalysisException: 不支持的语言功能的查询:插入my_table的(ID,得分)值(1,10) TOK_
..