impala - IT屋-程序员软件开发技术分享社区

Parquet 支持的 Hive 表:数组列在 Impala 中不可查询

尽管 Impala 比 Hive 快得多，但我们使用 Hive 是因为它支持复杂(嵌套)数据类型，例如数组和映射. 我注意到 Impala，从 CDH5.5，现在支持复杂数据类型.由于也可以在 Impala 中运行 Hive UDF，我们可能可以在 Impala 中做我们想做的一切，但要快得多.这是个好消息！当我浏览文档时，我看到 Impala 期望数据以 Parquet 格式存储. ..

发布时间：2021-12-28 23:49:32 hive impala parquet 其他开发

在 hive 或 impala 中计算表统计数据如何加快 Spark SQL 中的查询速度?

为了提高性能(例如连接)，建议首先计算表静态. 在 Hive 中我可以做到:: 分析表计算统计数据；在 Impala 中: compute stats ; 我的 spark 应用程序(从 hive 表中读取)是否也受益于预先计算的统计数据?如果是，我需要运行哪一个?他们是否都将统计数据保存在 hive Metastore 中?我在 Cloudera 5.5.4 上使用 spark ..

发布时间：2021-12-28 23:36:35 apache-spark hive apache-spark-sql impala 其他开发

Impala 时间戳与 Hive 不匹配 - 时区问题?

我在 HDFS 中有一些事件日志数据，其原始格式如下所示: 2015-11-05 19:36:25.764 INFO [...等...] 一个外部表指向这个 HDFS 位置: 创建外部表`log_stage`(`event_time` 时间戳，[...])行格式分隔以 '\t' 结尾的字段以 '\n' 结尾的行存储为输入格式'org.apache.hadoop.mapred.TextInpu ..

发布时间：2021-12-28 23:20:08 timezone hive impala 其他开发

与 hive 相比，impala 如何提供更快的查询响应

我最近开始研究使用 Hive 和 Impala 查询位于 HDFS 上的大量 CSV 数据集.正如我所料，对于我目前使用的查询，Impala 的响应时间比 Hive 的响应时间要短. 我想知道是否有某些类型的查询/用例仍然需要 Hive 以及 Impala 不适合的地方. 对于 HDFS 上的相同数据，Impala 如何提供比 Hive 更快的查询响应? 解决方案您应该将 I ..

发布时间：2021-12-15 19:02:31 hadoop hive impala 其他开发

在 kerberos 身份验证下使用 JDBC 连接到 impala 时出错

我创建了一个扩展 DriverManagerDataSource 的类 SecureImpalaDataSource，并使用 UserGroupInformation.doAs() 使用 keytab 文件获取到 impala 的连接.但我得到如下错误: java.sql.SQLException: [Simba]ImpalaJDBCDriver 错误为身份验证初始化或创建传输:[Simba ..

发布时间：2021-11-30 17:43:07 authentication kerberos jdbctemplate cloudera-cdh impala 其他开发

Impala:如何查询具有不同架构的多个镶木地板文件

在 Spark 2.1 中我经常使用类似 df = spark.read.parquet(/path/to/my/files/*.parquet) 即使具有不同的架构，也可以加载包含镶木地板文件的文件夹.然后我使用 SparkSQL 对数据框执行一些 SQL 查询. 现在我想尝试 Impala，因为我阅读了 wiki 文章，其中包含诸如: Apache Impala 是一个开源的大 ..

发布时间：2021-11-14 22:44:33 hadoop apache-spark-sql parquet impala 其他开发

在 hive 或 impala 中计算表统计数据如何加速 Spark SQL 中的查询?

为了提高性能(例如连接)，建议首先计算表静态. 在 Hive 中我可以做到:: 分析表计算统计数据；在 Impala 中: compute stats ; 我的 spark 应用程序(从 hive 表中读取)是否也受益于预先计算的统计数据?如果是，我需要运行哪一个?他们是否都将统计数据保存在 hive Metastore 中?我在 Cloudera 5.5.4 上使用 spark ..

发布时间：2021-11-14 21:52:03 apache-spark hive apache-spark-sql impala 其他开发

如何有效地将数据从 Kafka 移动到 Impala 表?

以下是当前流程的步骤: Flafka 将日志写入 HDFS 上的“登陆区". Oozie 安排的一项作业将完整文件从着陆区复制到暂存区. 临时数据由使用临时区域作为其位置的 Hive 表“架构化". 将临时表中的记录添加到永久 Hive 表中(例如，insert into Permanent_table select * from staging_table). Hive 表中的数据 ..

发布时间：2021-11-12 02:10:59 hadoop apache-kafka flume impala 其他开发

将 Impala 表从 HDFS 导出到 MySQL

我正在尝试使用 Sqoop 将一个黑斑羚表从 HDFS 导出到 MySQL.该表已经在 MySQL 中创建，并且两个表的架构应该匹配. Impala 表信息:1 开始日期字符串2 start_station_code 字符串3 end_date 字符串4 end_station_code 字符串5 duration_sec 整数6 is_member int7 cnt bigintImpala ..

发布时间：2021-08-27 19:41:25 mysql hdfs sqoop impala hue 数据库

寻找一个非云 RDBMS 来导入分区表(CSV 格式)及其目录结构

上下文:我一直在研究 Cloudera/Impala，以便使用大型数据库并创建更易于管理的“聚合".包含更少信息的表格.这些更易于管理的表的数量级为数十到数百 GB，大约有两打表.我正在查看大约 500 GB 的数据，这些数据可以放在我实验室的一台计算机上. 问题:我希望使用非云 RDBMS，以便在我的实验室本地进一步处理这些表.原始 Impala 表(其中大部分按日期分区)已导出为 CSV ..

发布时间：2021-07-03 18:50:18 sql csv rdbms impala apache-drill 其他开发

选择具有条件的组的第一行

我有一个这样的表格: FieldA FieldB FieldC1111 ABC X1111防御Y1111 GHI X2222 JKL Y2222 MNO X3333 PQR U3333 STT U 我想为每个FieldA选择一个FieldB，优先选择FieldC中的X(如果没有X，则选择另一个). 我尝试将RANK函数与PARTITION BY一起使用，但发现它太不一致了，我现在碰壁 ..

发布时间：2021-05-15 20:46:10 sql hive impala 其他开发

使用Impala ODBC驱动程序查询参数

我正在使用Cloudera提供的Impala ODBC驱动程序.我似乎无法正确使用查询参数.例如: OdbcCommand命令= DbConnection.CreateCommand();command.CommandText =“在表中插入测试值(?，?)"；command.Parameters.Add("key"，OdbcType.VarChar).Value ="csharp";comm ..

发布时间：2021-05-15 20:46:08 c# odbc impala C#/.NET

获取详细的Impyla错误消息

当我使用Python/Impyla在Impala中执行SQL语句时，我只是收到一个异常消息，并带有诸如“"Operation is in ERROR_STATE"之类的通用错误消息.如何获得有关发生的错误的更多详细信息?/p> 解决方案游标对象具有_last_operation字段，可用于获取更多详细信息.例如尝试:cur.execute(SQL)除例外，e:op = cur._last ..

发布时间：2021-05-15 20:46:05 python impala impyla Python

设置实木复合地板snappy输出文件的大小是否为蜂巢?

我正在尝试在dfs.block.size边界上拆分由蜂巢INSERT OVERWRITE TABLE ...创建的镶木地板/易拉皮文件，因为当分区中的文件大于块大小时，impala会发出警告. impala记录以下警告: Parquet文件不应拆分为多个hdfs-block.file = hdfs://////000000_0(共7 ..

发布时间：2021-05-14 19:07:43 hive impala parquet snappy 其他开发

Impala select *不显示表的所有详细信息

我在impala中有一个sql查询，从表中选择* ，但是当我执行此操作时，某些列丢失了. 当我做描述表时，这些列在那里. 我无法显示代码段，但未显示的类型是地图，数组和结构. 解决方案 Impala不支持.复杂类型必须解压才能显示. Impala查询的结果集始终包含所有标量类型；任何复杂类型查询中的元素和字段都必须是使用联接查询“解压".查询无法直接检索复杂类型列的完整值 ..

发布时间：2021-05-13 20:20:44 sql hadoop impala 其他开发

如何有效地将数据从Kafka移至Impala表?

以下是当前流程的步骤: 由Oozie安排的作业将完整文件从着陆区复制到暂存区. 通过将暂存区用作其位置的Hive表对暂存数据进行“模式化". 将登台表中的记录添加到永久性Hive表中(例如，插入到staging_table中的* * from staging_table ). 通过在Impala中执行 refresh permanent_table ，可以在Impala中获得Hive表 ..

发布时间：2021-05-13 20:15:21 hadoop apache-kafka flume impala 其他开发

Google Dataproc是否支持Apache Impala?

我不熟悉使用云服务，并且浏览Google的Cloud Platform非常令人生畏.当涉及到Google Dataproc时，他们会做广告Hadoop，Spark和Hive. 我的问题是，Impala完全可用吗? 我想使用所有这四个工具来进行一些基准测试项目，并且我需要Apache Impala和Spark/Hive一起使用. 解决方案您也可以尝试使用Dataproc的另一个 ..

发布时间：2021-05-12 19:20:54 google-cloud-platform impala google-cloud-dataproc 其他开发

在Hive中将字符串转换为时间戳

我的值是'2017-09-27T19:25:15.927-07:00'，有什么方法可以将其转换为时间戳吗?我使用的是Hive 1.1.0. select unix_timestamp("2017-09-27T19:25:15.927-07:00"，"yyyy-MM-ddTHH:mm:ss.SSSX")但它抛出 Bad不好日期/时间转换格式 select unix_timestamp(" ..

发布时间：2021-04-29 19:49:19 datetime hadoop hive impala timestamp-with-timezone 其他开发

如何有效地更新文件非常频繁修改的Impala表

我们有一个基于Hadoop的解决方案(CDH 5.15)，我们在其中的某些目录中获取HDFS中的新文件.在这些目录的顶部，我们有4-5个Impala(2.1)表.在HDFS中写入这些文件的过程是Spark结构化流式传输(2.3.1) 现在，一旦将文件写入HDFS，我们就会运行一些DDL查询: ALTER TABLE table1恢复分区，以检测添加到表中的新分区(及其HDFS目录和文件 ..

发布时间：2021-04-22 19:37:11 hadoop impala spark-structured-streaming cloudera-cdh 其他开发

Impala:显示类似查询的表格

我正在使用Impala，并使用如下所示的模式从数据库中获取表的列表. 假设我有一个数据库 bank ，该数据库下的表如下所示. cust_profilecust_quarter1_transactioncust_quarter2_transactionproduct_cust_xyz........等等现在我正在过滤显示银行中的表格，例如"* cust *" 它正在返回预期 ..

发布时间：2021-04-22 19:36:55 hive cloudera hiveql cloudera-cdh impala 其他开发

impala相关内容