hivecontext - IT屋-程序员软件开发技术分享社区

在 Python 中以编程方式启动 HiveThriftServer

在 spark-shell (scala) 中，我们导入，org.apache.spark.sql.hive.thriftserver._用于以编程方式为特定配置单元上下文启动 Hive Thrift 服务器作为HiveThriftServer2.startWithContext(hiveContext) 公开该特定会话的注册临时表. 我们如何使用 python 做同样的事情?python ..

发布时间：2021-12-28 23:50:26 python scala hive thrift hivecontext Python

Spark HiveContext:插入覆盖它从中读取的同一个表

我想在 HiveContext 中使用 PySpark 应用 SCD1 和 SCD2.在我的方法中，我正在读取增量数据和目标表.阅读后，我加入了他们的 upsert 方法.我正在对所有源数据帧进行 registerTempTable.我正在尝试将最终数据集写入目标表，但我面临的问题是无法在读取它的表中插入覆盖. 请为此提出一些解决方案.我不想将中间数据写入物理表并再次读取. 是否有任何 ..

发布时间：2021-12-28 23:46:57 apache-spark hive pyspark hivecontext 其他开发

线程“main"中的异常java.lang.NoClassDefFoundError: org/apache/spark/sql/catalyst/analysis/OverrideFunctionRegistry

我在 spark 和 scala 中尝试使用以下代码，附加代码和 pom.xml package com.Spark.ConnectToHadoop导入 org.apache.spark.SparkConf导入 org.apache.spark.SparkConf导入 org.apache.spark._导入 org.apache.spark.sql._导入 org.apache.spark.s ..

发布时间：2021-11-14 23:02:54 scala maven apache-spark apache-spark-sql hivecontext 其他开发

如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新一个 orc 格式的 hive 表，我可以从我的 ambari hive 视图更新，但无法从 sacla (spark-shell) 运行相同的更新语句 objHiveContext.sql("select * from table_name ") 能够看到数据，但是当我运行时 objHiveContext.sql("update table_name set column_n ..

发布时间：2021-11-14 23:00:19 scala apache-spark apache-spark-sql hiveql hivecontext 其他开发

“插入……"使用 SparkSQL HiveContext

我正在尝试使用我的 HiveContext 运行插入语句，如下所示: hiveContext.sql('insert into my_table (id, score) values (1, 10)') 1.5.2 Spark SQL 文档没有明确说明这是否是支持与否，虽然它确实支持“动态分区插入". 这会导致像这样的堆栈跟踪分析异常:查询中不支持的语言功能:插入 my_tabl ..

发布时间：2021-11-14 22:18:58 apache-spark apache-spark-sql pyspark apache-spark-1.5 hivecontext 其他开发

无法使用Spark在Hive上写入数据

我正在使用spark1.6.我正在使用spark上下文创建hivecontext.当我将数据保存到配置单元中时，会出现错误.我正在使用cloudera vm.我的蜂巢在cloudera vm内部，并在我的系统中启动.我可以使用IP访问虚拟机.我已经在vm上启动了Thrift服务器和hiveserver2.我有 hive.metastore.uris 的用户节俭服务器uri val hiveC ..

发布时间：2021-04-08 20:17:23 apache-spark hive hivecontext 其他开发

Spark SQL sql("<某些聚合查询>").first().getDouble(0)给我不一致的结果

我有下面的查询，该查询应该查找列值的平均值并返回一个单一数字的结果. val avgVal = hiveContext.sql(“从users.payment中选择回合(avg(amount)，4)，其中dt在'2018-05-09'和'2018-05-09'"之间).().getDouble(0) 在此声明中，我面临行为不一致的情况.这通常会因以下错误而失败，但是通过Hive执行时会给出 ..

发布时间：2021-04-08 19:58:32 java apache-spark hive hivecontext Java开发

从Spark hivecontext查询会锁定蜂巢表吗?

我知道如果我从Hive提交查询，则会获取一个共享锁，然后该Hive表将被查询锁定: https://cwiki.apache.org/confluence/display/Hive/Locking 因此，我只是想知道查询是否由Spark Hivecontext执行，是否需要锁定并且表也将被锁定?另外，如果我通过Spark Hivecontext将数据插入表中，是否需要排他锁? 谢谢 ..

发布时间：2021-04-08 19:54:35 apache-spark hivecontext 其他开发

Spark HiveContext:插入覆盖从中读取的同一表

我想在HiveContext中使用PySpark来应用SCD1和SCD2.在我的方法中，我正在读取增量数据和目标表.阅读后，我将加入他们的进阶方法.我正在对所有源数据帧执行registerTempTable.我正在尝试将最终数据集写入目标表，但是我面临的问题是，在读取表的表中无法进行插入覆盖. 请为此提出一些解决方案.我不想将中间数据写入物理表并再次读取. 是否有任何属性或方法可以存储 ..

发布时间：2021-04-08 19:46:55 apache-spark hive pyspark hivecontext 其他开发

如何使用Scala更新ORC Hive表表单Spark的数据

我想更新一个orc格式的配置单元表，我可以从ambari配置单元视图进行更新，但是无法从sacla(spark-shell)运行相同的更新语句 objHiveContext.sql("select * from table_name")能够查看数据，但是当我运行 objHiveContext.sql("update table_name set column_name ='testin ..

发布时间：2020-09-04 20:27:06 scala apache-spark apache-spark-sql hiveql hivecontext 其他开发

蜂巢表是由Spark创建的，但在蜂巢中不可见

使用以下命令来自spark: DataFrame.write().mode(SaveMode.Ignore).format("orc").saveAsTable("myTableName") 表正在保存，我可以使用以下命令的hadoop fs -ls /apps/hive/warehouse\test.db'看到其中test是我的数据库名称 drwxr-xr-x-psudhir h ..

发布时间：2020-09-04 09:11:38 apache-spark hive hiveql hivecontext 其他开发

在Oozie中使用Hive上下文失败的Spark作业

在我们的管道之一中，我们使用spark(java)进行聚合，并使用oozie对其进行编排. 该管道使用以下几行将汇总的数据写入ORC文件. HiveContext hc = new HiveContext(sc); DataFrame modifiedFrame = hc.createDataFrame(aggregateddatainrdd, schema); modifiedFrame ..

发布时间：2020-05-20 18:33:24 java apache-spark oozie orc hivecontext Java开发

无法在spark更新后查看配置单元表的数据

案例：我有一个HiveTest表，它是一个ORC表和事务集，并且在spark shell和查看的数据中加载true。 var rdd = objHiveContext.sql（“select * from HiveTest”） rdd.show（） --- 可以查看数据现在我去了我的蜂巢shell或ambari更新了表，例如 hive>更新H ..

发布时间：2018-06-12 14:17:02 scala apache-spark hive hivecontext spark-hive 其他开发

以Python编程启动HiveThriftServer

在spark-shell（scala）中，我们导入了 org.apache.spark.sql.hive.thriftserver._ ，以便以编程方式启动Hive Thrift服务器，作为特定的配置单元上下文 HiveThriftServer2.startWithContext（hiveContext）为该特定会话公开一个已注册的临时表。我们如何使用python做同样的事情？ py ..

发布时间：2018-06-12 14:07:22 python scala hive thrift hivecontext Python

Hive合并命令在Spark HiveContext中不起作用

我在1.6.3 spark版本中运行使用Spark HiveContext的hive合并命令，但它失败并显示下面的错误消息。 2017-09-11 18:30:33 Driver [INFO] ParseDriver - Parse已完成 2017-09-11 18:30:34驱动程序[INFO] ParseDriver - 解析命令：MERGE INTO emp_with_orc ..

发布时间：2018-05-31 19:03:09 hadoop apache-spark hive acid hivecontext 分布式计算/Hadoop

异常螺纹＆QUOT;主＆QUOT; java.lang.NoClassDefFoundError的：组织/阿帕奇/火花/ SQL /催化剂/分析/ OverrideFunctionRegistry

我曾尝试与低于code火花和Scala，附加code和pom.xml的包com.Spark.ConnectToHadoop进口org.apache.spark.SparkConf 进口org.apache.spark.SparkConf 进口org.apache.spark._ 进口org.apache.spark.sql._ 进口org.apache.spark.sql.hive.HiveC ..

发布时间：2016-05-22 16:31:38 scala maven apache-spark apache-spark-sql hivecontext 其他开发

＆QUOT; INSERT INTO ...＆QUOT;与SparkSQL HiveContext

我想用我的HiveContext运行一个INSERT语句，像这样的： hiveContext.sql（“插入my_table的（ID，得分）值（1,10）'）借助 1.5.2星火SQL文档不明确指出这是否是支持或不，尽管它的确支持“动态分区插入。” 这导致堆栈跟踪像 AnalysisException：不支持的语言功能的查询：插入my_table的（ID，得分）值（1，10） TOK_ ..

发布时间：2016-05-22 15:44:33 apache-spark apache-spark-sql pyspark apache-spark-1.5 hivecontext 其他开发

hivecontext相关内容