apache-hive相关内容
我有一个包含 ORC 文件的目录.我正在使用下面的代码创建一个 DataFrame var data = sqlContext.sql("SELECT * FROM orc.`/directory/contains/orc/files`"); 它返回具有此架构的数据帧 [_col0: int, _col1: bigint] 预期架构在哪里 [scan_nbr: int,visit_nbr
..
编辑: 我正在开发一个 Spark 应用程序,该应用程序从多个结构化架构中读取数据,并且我正在尝试从这些架构中聚合信息.我的应用程序在本地运行时运行良好.但是当我在集群上运行它时,我在配置(很可能是 hive-site.xml)或提交命令参数方面遇到了问题.我已经查找了其他相关帖子,但找不到针对我的场景的解决方案.我已经在下面详细提到了我尝试过的命令以及我遇到的错误.我是 Spark 的新手
..
编辑: 我正在开发一个 Spark 应用程序,该应用程序从多个结构化架构中读取数据,并且我正在尝试从这些架构中聚合信息.我的应用程序在本地运行时运行良好.但是当我在集群上运行它时,我在配置(很可能是 hive-site.xml)或提交命令参数方面遇到了问题.我已经查找了其他相关帖子,但找不到针对我的场景的解决方案.我已经在下面详细提到了我尝试过的命令以及我遇到的错误.我是 Spark 的新手
..
我有一个包含 ORC 文件的目录.我正在使用以下代码创建一个 DataFrame var data = sqlContext.sql("SELECT * FROM orc.`/directory/contains/orc/files`"); 它返回具有此架构的数据帧 [_col0: int, _col1: bigint] 预期架构在哪里 [scan_nbr: int,visit_nbr:
..
我正在尝试通过Beeline客户端添加本地文件,但是我一直遇到一个问题,即它告诉我该文件不存在. [test @ test-001 tmp] $ touch/tmp/m.py[test @ test-001 tmp] $ stat/tmp/m.py文件:"/tmp/m.py"大小:0块:0 IO块:4096个常规空文件设备:801h/2049d索引节点:34091464链接:1访问:(0664
..
我试图使用Hive2连接器通过JDBC创建到Impala的连接。但是我得到这个错误: 线程“main”中的异常java.lang.NoSuchFieldError:HIVE_CLI_SERVICE_PROTOCOL_V7 at org.apache.hive.jdbc.HiveConnection。(HiveConnection.java:175) at org.apac
..
我有一个包含ORC文件的目录。我使用下面的代码创建一个DataFrame $ b $ pre $ var data = sqlContext.sql(“SELECT * FROM orc.` / directory /含/兽人/ files`“); 它用这个模式返回数据框架 [_ col0:int,_col1:bigint] 预期的模式是 $ p $ [sc
..
作为开发人员,我通过使用 sqoop job 从现有MySQL表导入数据,为我们的项目创建了HBase表。问题是我们的数据分析师团队熟悉MySQL语法,意味着他们可以很容易地查询 HIVE 表。对他们来说,我需要暴露HIVE中的HBase表。我不想通过在HIVE中重新填充数据来复制数据。 我可以在HIVE 中公开HBase表而不重复数据吗??如果是的话,我该怎么做?另外,如果我的HBase表中的插
..
我是Apache Hive的新手。在处理外部表分区时,如果我将新分区直接添加到HDFS,则在运行MSCK REPAIR表后不会添加新分区。以下是我试过的代码, - 创建外部表 蜂房>创建由(区域字符串)分区的外部表工厂(名称字符串,empid int,年龄int) >以','结尾的行格式定界字段; - 详细表格资讯 表类型:EXTERNAL_TABL
..
修改 我正在开发一个应用程序的Spark从多个结构化模式读取数据,我想聚集来自这些模式的信息。我的应用程序运行良好,当我在本地运行。但是,当我在集群上运行它时,我遇到了麻烦配置(最有可能与蜂房的site.xml)或提交 - 命令参数。我看过的其他相关职位,但未能找到解决具体到我的方案。我已经提到过我试过,什么错误我详细下文了什么命令。我是新来的火花,我可能会丢失一些小事,但能提供更多的信息来支持
..