apache-hive - IT屋-程序员软件开发技术分享社区

ORC 文件上的 Spark SQL 不返回正确的架构(列名)

我有一个包含 ORC 文件的目录.我正在使用下面的代码创建一个 DataFrame var data = sqlContext.sql("SELECT * FROM orc.`/directory/contains/orc/files`"); 它返回具有此架构的数据帧 [_col0: int, _col1: bigint] 预期架构在哪里 [scan_nbr: int,visit_nbr ..

发布时间：2021-12-28 23:31:16 apache-spark apache-spark-sql apache-hive 其他开发

Apache Spark 的 Hive 部署问题(集群模式)

编辑: 我正在开发一个 Spark 应用程序，该应用程序从多个结构化架构中读取数据，并且我正在尝试从这些架构中聚合信息.我的应用程序在本地运行时运行良好.但是当我在集群上运行它时，我在配置(很可能是 hive-site.xml)或提交命令参数方面遇到了问题.我已经查找了其他相关帖子，但找不到针对我的场景的解决方案.我已经在下面详细提到了我尝试过的命令以及我遇到的错误.我是 Spark 的新手 ..

发布时间：2021-11-14 23:31:31 hadoop apache-spark apache-spark-sql apache-hive 其他开发

Apache Spark 的 Hive 部署问题(集群模式)

编辑: 我正在开发一个 Spark 应用程序，该应用程序从多个结构化架构中读取数据，并且我正在尝试从这些架构中聚合信息.我的应用程序在本地运行时运行良好.但是当我在集群上运行它时，我在配置(很可能是 hive-site.xml)或提交命令参数方面遇到了问题.我已经查找了其他相关帖子，但找不到针对我的场景的解决方案.我已经在下面详细提到了我尝试过的命令以及我遇到的错误.我是 Spark 的新手 ..

发布时间：2021-11-14 23:25:56 hadoop apache-spark apache-spark-sql apache-hive 其他开发

ORC 文件上的 Spark SQL 未返回正确的架构(列名)

我有一个包含 ORC 文件的目录.我正在使用以下代码创建一个 DataFrame var data = sqlContext.sql("SELECT * FROM orc.`/directory/contains/orc/files`"); 它返回具有此架构的数据帧 [_col0: int, _col1: bigint] 预期架构在哪里 [scan_nbr: int,visit_nbr: ..

发布时间：2021-11-14 21:48:37 apache-spark apache-spark-sql apache-hive 其他开发

在Beeline(配置单元)中添加本地文件

我正在尝试通过Beeline客户端添加本地文件，但是我一直遇到一个问题，即它告诉我该文件不存在. [test @ test-001 tmp] $ touch/tmp/m.py[test @ test-001 tmp] $ stat/tmp/m.py文件:"/tmp/m.py"大小:0块:0 IO块:4096个常规空文件设备:801h/2049d索引节点:34091464链接:1访问:(0664 ..

发布时间：2021-05-14 19:10:19 apache-hive beeline 其他开发

Hive JDBC错误：java.lang.NoSuchFieldError：HIVE_CLI_SERVICE_PROTOCOL_V7

我试图使用Hive2连接器通过JDBC创建到Impala的连接。但是我得到这个错误：线程“main”中的异常java.lang.NoSuchFieldError：HIVE_CLI_SERVICE_PROTOCOL_V7 at org.apache.hive.jdbc.HiveConnection。（HiveConnection.java:175） at org.apac ..

发布时间：2018-06-12 14:14:00 java jdbc hive impala apache-hive Java开发

ORC文件上的Spark SQL不会返回正确的架构（列名称）

我有一个包含ORC文件的目录。我使用下面的代码创建一个DataFrame $ b $ pre $ var data = sqlContext.sql（“SELECT * FROM orc.` / directory /含/兽人/ files`“）; 它用这个模式返回数据框架 [_ col0：int，_col1：bigint] 预期的模式是 $ p $ [sc ..

发布时间：2018-06-12 13:35:01 apache-spark apache-spark-sql apache-hive 其他开发

如何访问Hive& Hive中的HBase表反之亦然？

作为开发人员，我通过使用 sqoop job 从现有MySQL表导入数据，为我们的项目创建了HBase表。问题是我们的数据分析师团队熟悉MySQL语法，意味着他们可以很容易地查询 HIVE 表。对他们来说，我需要暴露HIVE中的HBase表。我不想通过在HIVE中重新填充数据来复制数据。我可以在HIVE 中公开HBase表而不重复数据吗？？如果是的话，我该怎么做？另外，如果我的HBase表中的插 ..

发布时间：2018-06-05 13:23:47 hive hbase sqoop apache-sqoop apache-hive 其他开发

没有添加Apache配置单元MSCK REPAIR TABLE新分区

我是Apache Hive的新手。在处理外部表分区时，如果我将新分区直接添加到HDFS，则在运行MSCK REPAIR表后不会添加新分区。以下是我试过的代码， - 创建外部表蜂房>创建由（区域字符串）分区的外部表工厂（名称字符串，empid int，年龄int） >以'，'结尾的行格式定界字段; - 详细表格资讯表类型：EXTERNAL_TABL ..

发布时间：2018-05-31 18:58:47 hadoop mapreduce hive apache-hive 分布式计算/Hadoop

阿帕奇星火的部署问题（集群模式）蜂巢

修改我正在开发一个应用程序的Spark从多个结构化模式读取数据，我想聚集来自这些模式的信息。我的应用程序运行良好，当我在本地运行。但是，当我在集群上运行它时，我遇到了麻烦配置（最有可能与蜂房的site.xml）或提交 - 命令参数。我看过的其他相关职位，但未能找到解决具体到我的方案。我已经提到过我试过，什么错误我详细下文了什么命令。我是新来的火花，我可能会丢失一些小事，但能提供更多的信息来支持 ..

发布时间：2016-05-22 16:39:50 hadoop apache-spark apache-spark-sql apache-hive 其他开发

apache-hive相关内容