impala相关内容

Parquet 支持的 Hive 表:数组列在 Impala 中不可查询

尽管 Impala 比 Hive 快得多,但我们使用 Hive 是因为它支持复杂(嵌套)数据类型,例如数组和映射. 我注意到 Impala,从 CDH5.5,现在支持复杂数据类型.由于也可以在 Impala 中运行 Hive UDF,我们可能可以在 Impala 中做我们想做的一切,但要快得多.这是个好消息! 当我浏览文档时,我看到 Impala 期望数据以 Parquet 格式存储. ..
发布时间:2021-12-28 23:49:32 其他开发

在 hive 或 impala 中计算表统计数据如何加快 Spark SQL 中的查询速度?

为了提高性能(例如连接),建议首先计算表静态. 在 Hive 中我可以做到:: 分析表计算统计数据; 在 Impala 中: compute stats ; 我的 spark 应用程序(从 hive 表中读取)是否也受益于预先计算的统计数据?如果是,我需要运行哪一个?他们是否都将统计数据保存在 hive Metastore 中?我在 Cloudera 5.5.4 上使用 spark ..
发布时间:2021-12-28 23:36:35 其他开发

Impala 时间戳与 Hive 不匹配 - 时区问题?

我在 HDFS 中有一些事件日志数据,其原始格式如下所示: 2015-11-05 19:36:25.764 INFO [...等...] 一个外部表指向这个 HDFS 位置: 创建外部表`log_stage`(`event_time` 时间戳,[...])行格式分隔以 '\t' 结尾的字段以 '\n' 结尾的行存储为输入格式'org.apache.hadoop.mapred.TextInpu ..
发布时间:2021-12-28 23:20:08 其他开发

与 hive 相比,impala 如何提供更快的查询响应

我最近开始研究使用 Hive 和 Impala 查询位于 HDFS 上的大量 CSV 数据集.正如我所料,对于我目前使用的查询,Impala 的响应时间比 Hive 的响应时间要短. 我想知道是否有某些类型的查询/用例仍然需要 Hive 以及 Impala 不适合的地方. 对于 HDFS 上的相同数据,Impala 如何提供比 Hive 更快的查询响应? 解决方案 您应该将 I ..
发布时间:2021-12-15 19:02:31 其他开发

Impala:如何查询具有不同架构的多个镶木地板文件

在 Spark 2.1 中我经常使用类似 df = spark.read.parquet(/path/to/my/files/*.parquet) 即使具有不同的架构,也可以加载包含镶木地板文件的文件夹.然后我使用 SparkSQL 对数据框执行一些 SQL 查询. 现在我想尝试 Impala,因为我阅读了 wiki 文章,其中包含诸如: Apache Impala 是一个开源的大 ..
发布时间:2021-11-14 22:44:33 其他开发

在 hive 或 impala 中计算表统计数据如何加速 Spark SQL 中的查询?

为了提高性能(例如连接),建议首先计算表静态. 在 Hive 中我可以做到:: 分析表计算统计数据; 在 Impala 中: compute stats ; 我的 spark 应用程序(从 hive 表中读取)是否也受益于预先计算的统计数据?如果是,我需要运行哪一个?他们是否都将统计数据保存在 hive Metastore 中?我在 Cloudera 5.5.4 上使用 spark ..
发布时间:2021-11-14 21:52:03 其他开发

如何有效地将数据从 Kafka 移动到 Impala 表?

以下是当前流程的步骤: Flafka 将日志写入 HDFS 上的“登陆区". Oozie 安排的一项作业将完整文件从着陆区复制到暂存区. 临时数据由使用临时区域作为其位置的 Hive 表“架构化". 将临时表中的记录添加到永久 Hive 表中(例如,insert into Permanent_table select * from staging_table). Hive 表中的数据 ..
发布时间:2021-11-12 02:10:59 其他开发

将 Impala 表从 HDFS 导出到 MySQL

我正在尝试使用 Sqoop 将一个黑斑羚表从 HDFS 导出到 MySQL.该表已经在 MySQL 中创建,并且两个表的架构应该匹配. Impala 表信息:1 开始日期字符串2 start_station_code 字符串3 end_date 字符串4 end_station_code 字符串5 duration_sec 整数6 is_member int7 cnt bigintImpala ..
发布时间:2021-08-27 19:41:25 数据库

寻找一个非云 RDBMS 来导入分区表(CSV 格式)及其目录结构

上下文:我一直在研究 Cloudera/Impala,以便使用大型数据库并创建更易于管理的“聚合".包含更少信息的表格.这些更易于管理的表的数量级为数十到数百 GB,大约有两打表.我正在查看大约 500 GB 的数据,这些数据可以放在我实验室的一台计算机上. 问题:我希望使用非云 RDBMS,以便在我的实验室本地进一步处理这些表.原始 Impala 表(其中大部分按日期分区)已导出为 CSV ..
发布时间:2021-07-03 18:50:18 其他开发

选择具有条件的组的第一行

我有一个这样的表格: FieldA FieldB FieldC1111 ABC X1111防御Y1111 GHI X2222 JKL Y2222 MNO X3333 PQR U3333 STT U 我想为每个FieldA选择一个FieldB,优先选择FieldC中的X(如果没有X,则选择另一个). 我尝试将RANK函数与PARTITION BY一起使用,但发现它太不一致了,我现在碰壁 ..
发布时间:2021-05-15 20:46:10 其他开发

使用Impala ODBC驱动程序查询参数

我正在使用Cloudera提供的Impala ODBC驱动程序.我似乎无法正确使用查询参数.例如: OdbcCommand命令= DbConnection.CreateCommand();command.CommandText =“在表中插入测试值(?,?)";command.Parameters.Add("key",OdbcType.VarChar).Value ="csharp";comm ..
发布时间:2021-05-15 20:46:08 C#/.NET

获取详细的Impyla错误消息

当我使用Python/Impyla在Impala中执行SQL语句时,我只是收到一个异常消息,并带有诸如“"Operation is in ERROR_STATE"之类的通用错误消息.如何获得有关发生的错误的更多详细信息?/p> 解决方案 游标对象具有_last_operation字段,可用于获取更多详细信息.例如 尝试:cur.execute(SQL)除例外,e:op = cur._last ..
发布时间:2021-05-15 20:46:05 Python

Impala select *不显示表的所有详细信息

我在impala中有一个sql查询,从表中选择* ,但是当我执行此操作时,某些列丢失了. 当我做描述表时,这些列在那里. 我无法显示代码段,但未显示的类型是地图,数组和结构. 解决方案 Impala不支持.复杂类型必须解压才能显示. Impala查询的结果集始终包含所有标量类型;任何复杂类型查询中的元素和字段都必须是使用联接查询“解压".查询无法直接检索复杂类型列的完整值 ..
发布时间:2021-05-13 20:20:44 其他开发

如何有效地将数据从Kafka移至Impala表?

以下是当前流程的步骤: 由Oozie安排的作业将完整文件从着陆区复制到暂存区. 通过将暂存区用作其位置的Hive表对暂存数据进行“模式化". 将登台表中的记录添加到永久性Hive表中(例如,插入到staging_table中的* * from staging_table ). 通过在Impala中执行 refresh permanent_table ,可以在Impala中获得Hive表 ..
发布时间:2021-05-13 20:15:21 其他开发

Google Dataproc是否支持Apache Impala?

我不熟悉使用云服务,并且浏览Google的Cloud Platform非常令人生畏.当涉及到Google Dataproc时,他们会做广告Hadoop,Spark和Hive. 我的问题是,Impala完全可用吗? 我想使用所有这四个工具来进行一些基准测试项目,并且我需要Apache Impala和Spark/Hive一起使用. 解决方案 您也可以尝试使用Dataproc的另一个 ..
发布时间:2021-05-12 19:20:54 其他开发

如何有效地更新文件非常频繁修改的Impala表

我们有一个基于Hadoop的解决方案(CDH 5.15),我们在其中的某些目录中获取HDFS中的新文件.在这些目录的顶部,我们有4-5个Impala(2.1)表.在HDFS中写入这些文件的过程是Spark结构化流式传输(2.3.1) 现在,一旦将文件写入HDFS,我们就会运行一些DDL查询: ALTER TABLE table1恢复分区,以检测添加到表中的新分区(及其HDFS目录和文件 ..

Impala:显示类似查询的表格

我正在使用Impala,并使用如下所示的模式从数据库中获取表的列表. 假设我有一个数据库 bank ,该数据库下的表如下所示. cust_profilecust_quarter1_transactioncust_quarter2_transactionproduct_cust_xyz........等等 现在我正在过滤 显示银行中的表格,例如"* cust *" 它正在返回预期 ..
发布时间:2021-04-22 19:36:55 其他开发