hive相关内容

Parquet 支持的 Hive 表:数组列在 Impala 中不可查询

尽管 Impala 比 Hive 快得多,但我们使用 Hive 是因为它支持复杂(嵌套)数据类型,例如数组和映射. 我注意到 Impala,从 CDH5.5,现在支持复杂数据类型.由于也可以在 Impala 中运行 Hive UDF,我们可能可以在 Impala 中做我们想做的一切,但要快得多.这是个好消息! 当我浏览文档时,我看到 Impala 期望数据以 Parquet 格式存储. ..
发布时间:2021-12-28 23:49:32 其他开发

外部表不返回其文件夹中的数据

我在 Hive 中在此位置创建了一个外部表: 创建外部表 tb(...)PARTITIONED BY (datehour INT)行格式 SERDE 'com.cloudera.hive.serde.JSONSerDe'LOCATION '/user/cloudera/data'; 数据存在于文件夹中,但是当我查询表时,它什么都不返回.表格的结构使其适合数据结构. SELECT * FROM ..
发布时间:2021-12-28 23:49:20 其他开发

创建在列的特定值上重置的排名

我当前的数据是这样的(注意它是按日期时间排序的): +----------------+---------------------+---------+|客户编号 |日期 |频道 |+----------------+---------------------+---------+|120584446 |2015-05-22 21:16:05 |一个 ||120584446 |2015-05-2 ..
发布时间:2021-12-28 23:49:12 其他开发

来自 CSV 的 Hive 表.引号中的行终止

我尝试从保存到 HDFS 的 CSV 文件创建表.问题是 csv 在引号内包含 换行符.CSV 记录示例: ID,PR_ID,SUMMARY2063,1184,"这是问题字段,因为包含换行符这不是新记录,而是第三列文本的一部分" 我创建了 hive 表: 创建临时外部表 hive_database.hive_table(ID 字符串,PR_ID STRING,摘要字符串)行格式 serde ..
发布时间:2021-12-28 23:49:02 其他开发

过滤火花分区表在 Pyspark 中不起作用

我正在使用 spark 2.3 并使用 pyspark 中的数据帧编写器类方法编写了一个数据帧来创建配置单元分区表. newdf.coalesce(1).write.format('orc').partitionBy('veh_country').mode("overwrite").saveAsTable('emp.partition_Load_table') 这是我的表结构和分区信息. h ..
发布时间:2021-12-28 23:48:55 其他开发

SQL:分解数组

我有一个包含 JSON 对象的表.每个 JSON 对象在方括号中包含一个数组,以逗号分隔. 如何使用 SQL 访问方括号数组中的任何元素,例如“Matt"? {"str":[1、134,61,“马特",{"action.type":"registered","application":491,"value":423,"value2":12344},[“应用"],[],“49:0"]} 我 ..
发布时间:2021-12-28 23:48:47 其他开发

何时使用 Sqoop --create-hive-table

谁能说出 create-hive-table 和 & 之间的区别?hive-import 方法?两者都会创建一个hive表,但每个的意义是什么? 解决方案 hive-import 命令: hive-import 命令会自动为 hive Metastore 中的填充表填充元数据.如果 Hive 中的表还不存在,Sqoop将简单地根据为您的表或查询获取的元数据创建它.如果该表已经存在,Sqo ..
发布时间:2021-12-28 23:48:34 其他开发

mysql 的 sqoop 导入问题

我有一个基于 cdh5 的 hadoop ha 设置.我尝试使用 sqoop 从 mysql 导入表失败,并出现以下错误. 15/03/20 12:47:53 错误 manager.SqlManager:从数据库读取错误:java.sql.SQLException:流式结果集 com.mysql.jdbc.RowDataDynamic@33573e93 仍然处于活动状态.当任何流结果集打开并在给 ..
发布时间:2021-12-28 23:48:17 其他开发

Hive 和 Hadoop MapReduce 的关系?

是否有任何 Hive 内部进程连接到减少或映射任务? 补充一下! Hive 如何与 MapReduce 相关联? 如何安排作业? 查询结果如何返回给hive驱动? 解决方案 对于 HIVE,没有直接沟通 Map/Reduce 任务的过程.它与 Jobtracker(YARN 中的 Application Master)通信(流程 6.3),仅用于在调度后与作业处理相关的事情 ..
发布时间:2021-12-28 23:48:11 其他开发

收集到 Hive 中的地图

我有一个 Hive 表,例如 id |价值-------------1A2乙 3一个 4乙 5 本质上,我想模仿 Python 的 defaultdict(list) 并创建一个以 id 作为键和 value 作为值的映射. 查询: select COLLECT_TO_A_MAP(id, value)从表 输出: {A:[1,2,4], B:[3,5]} 我尝试使用 klout' ..
发布时间:2021-12-28 23:47:59 其他开发

HDFS 文件比较

由于没有 diff,我如何比较两个 HDFS 文件? 我正在考虑使用 Hive 表并从 HDFS 加载数据,然后在 2 个表上使用连接语句.有没有更好的办法? 解决方案 hadoop 没有提供 diff 命令,但实际上你可以使用 diff 在 shell 中使用重定向代码>命令: diff ..
发布时间:2021-12-28 23:47:50 其他开发

Hive 更改位置语句不起作用

hive>更改表 my_table_name 设置位置“hdfs://nameservice1/foo";行耗时:0.173 秒蜂巢>更改表 my_table_name 设置位置“hdfs://nameservice1/foo/bar";授权失败:org.apache.hadoop.security.AccessControlException:用户 hadoop_user 的路径 hdfs:// ..
发布时间:2021-12-28 23:47:29 其他开发

使用 Hive 查询计算 Hadoop 中连续记录之间的差异

我有一个 Hive 表,用于保存客户呼叫的数据.为简单起见,考虑它有 2 列,第一列保存客户 ID,第二列保存调用的时间戳(unix 时间戳). 我可以查询此表以查找每个客户的所有来电: SELECT * FROM mytable SORT BY customer_id, call_time; 结果是: Customer1 时间戳11客户 1 时间戳 12客户 1 时间戳 13客户 2 ..
发布时间:2021-12-28 23:47:20 其他开发

如何在 Hive 中定义嵌套的集合项

我正在尝试创建一个带有嵌套集合项的配置单元表.假设我有一个结构数组. 创建表样本(记录数组>) 行格式分隔以“,"结尾的字段以“|"结尾的集合项; 第一级,分隔符 ',' 将覆盖默认分隔符 '^A'. 二级,分隔符'|'将覆盖默认的第二级分隔符 '^B' 以分离出最外层的结构(即数组). 第三级 hive 将使用默认的第三级分隔符 '^C' 作为 Struct 的分隔符 现 ..
发布时间:2021-12-28 23:47:12 其他开发

如何控制蜂巢作业名称但保留阶段信息?

我的系统定期执行许多 hive 查询.当您查看作业跟踪器时,它们显示为“SELECT field, other_field ..... (Stage-1)"等.这对我来说不是特别有帮助,所以我补充说: set mapred.job.name = 更有帮助的名字; 到查询.现在我可以更好地区分它们了.但是,现在我被分成多个阶段的查询都显示为相同的名称.我最喜欢的是 set mapred ..
发布时间:2021-12-28 23:47:05 其他开发

Spark HiveContext:插入覆盖它从中读取的同一个表

我想在 HiveContext 中使用 PySpark 应用 SCD1 和 SCD2.在我的方法中,我正在读取增量数据和目标表.阅读后,我加入了他们的 upsert 方法.我正在对所有源数据帧进行 registerTempTable.我正在尝试将最终数据集写入目标表,但我面临的问题是无法在读取它的表中插入覆盖. 请为此提出一些解决方案.我不想将中间数据写入物理表并再次读取. 是否有任何 ..
发布时间:2021-12-28 23:46:57 其他开发