hive-partitions - IT屋-程序员软件开发技术分享社区

HIVE是否会同时使用分区条件而不是分区条件执行全表查询？

我有一个由一个日期列名datetime分区的配置单元表如果我执行类似的查询 select * from table where datetime = "2021-05-01" and id in (1,2) 如果有额外的and id in (1,2)条件，配置单元是否会执行全表搜索？是否可以通过explain结果确定？推荐答案分区清理应该可以正常工作。为了 ..

发布时间：2022-04-04 19:57:49 hadoop hive hiveql explain hive-partitions 其他开发

如何将一个分区的数据插入/复制到配置单元中的多个分区?

我的 hive 表中有 day='2019-01-01' 的数据，我想将相同的数据复制到 2019 年 1 月的整个月份.(即在'2019-01-02','2019-01-03'...'2019-01-31') 我正在尝试关注，但数据仅插入到“2019-01-02"而不是“2019-01-03"中. INSERT OVERWRITE TABLE db_t.students PARTITIO ..

发布时间：2022-01-11 14:12:29 hive calendar hiveql date-range hive-partitions 其他开发

如何将一个分区的数据插入/复制到 hive 中的多个分区?

我的 hive 表中有 day='2019-01-01' 的数据，我想将相同的数据复制到 2019 年 1 月的整个月份.(即在'2019-01-02', '2019-01-03'...'2019-01-31') 我正在尝试关注，但数据仅插入到“2019-01-02"而不是“2019-01-03"中. INSERT OVERWRITE TABLE db_t.students PARTITI ..

发布时间：2021-12-28 23:28:37 hive calendar hiveql date-range hive-partitions 其他开发

hive drop all partitions 保留最近 4 天的分区

我有一个分区如下的表: TABLE 日志分区(年 = 2019，月 = 06，日 = 18) 分区 'year'、'month' 和 'day' 为字符串格式. 我需要删除保留过去 7 天分区的分区.并且需要每周运行作业，以便日志表在每周开始时有 7 天的日志. 解决方案您可以在分区规范中使用 ..

发布时间：2021-12-28 23:19:05 hive hiveql hive-partitions hiveddl 其他开发

使用一个文件在 Hive 中创建表

我正在使用以下命令在 Hive 中创建一个新表: CREATE TABLE new_table AS select * from old_table; 我的问题是在创建表后，它为每个分区生成多个文件 - 而我只需要每个分区一个文件. 如何在表格中定义它?谢谢！解决方案有很多可能的解决方案: 1) 在查询的末尾添加 distribute by partition key. ..

发布时间：2021-12-28 23:13:44 hive create-table hive-partitions hiveddl hive-configuration 其他开发

pyspark - 从 Hive 分区列逻辑获取最新分区

我是 pySpark 的新手.我正在尝试使用 PySpark-dataframes 获取配置单元表的最新分区(日期分区)，如下所示.但我确信使用数据帧函数(而不是通过编写 SQL)有更好的方法来做到这一点.您能否就更好的方法分享意见. 此解决方案正在扫描 Hive 表上的整个数据以获取它. df_1 = sqlContext.table("dbname.tablename");df_1_d ..

发布时间：2021-12-22 21:39:34 apache-spark hive pyspark hive-partitions 其他开发

Hive:为现有文件夹结构添加分区

我在 HDFS 中有一个文件夹结构，如下所示.但是，使用 ALTER TABLE ADD PARTITION 命令实际上没有在表上创建分区，即使文件夹结构被设置为好像表有分区一样. 如何自动将所有分区添加到 Hive 表中?(Hive 1.0，外部表) /user/frank/clicks.db/日期=20190401/file0004.csv/日期=20190402/file0009.c ..

发布时间：2021-12-15 18:31:38 hadoop hive hdfs partitioning hive-partitions 其他开发

我有一个表zhihu_answer_increment，它被列ym分区.当我执行查询 select distinct(ym) from zhihu.zhihu_answer_increment; 时，花了 1 多分钟才完成.在此过程中，hive 启动了 map-reduce 作业.这是日志: INFO : MapReduce 作业启动:信息:阶段-阶段-1:映射:1 减少:1 累积 CPU:3. ..

发布时间：2021-06-30 19:22:49 performance hive query-optimization hive-partitions 其他开发

如何在不删除数据的情况下撤消ALTER TABLE ... ADD PARTITION

假设我有两个配置单元表， table_1 和 table_2 .我使用: ALTER TABLE table_2添加分区(col = val)位置[table_1_location] 现在， table_2 将在 col = val 的分区中将数据存储在 table_1 中. 我想做的就是逆转此过程.我希望 table_2 不在 col = val 上具有分区，并且我希望table_ ..

发布时间：2021-05-14 19:09:57 apache-spark hive partition hive-partitions hiveddl 其他开发

Hive查询中由于内存而出现的问题

我们有一个插入查询，其中我们试图通过从非分区表中读取数据来向分区表中插入数据. 查询- 插入db1.fact_table PARTITION(part_col1，part_col2)(col1，col2，col3，col4，col5，col6，.......col32LOAD_DT，part_col1，Part_col2)选择col1，col2，col3，col4，col5，col6，.. ..

发布时间：2021-05-14 19:09:48 hive insert hiveql partition hive-partitions 其他开发

将数据从一个表复制到另一分区表

％hive插入NEWPARTITIONING分区(year(L_SHIPDATE))，从LINEITEM中选择*；我想将订单项中的数据复制到分区表 NEWPARTITIONING 中，但是出现以下错误: 1:54行无法识别语句中')''select''*'附近的输入. 不明白为什么会发生此错误.谁能给我一些想法解决方案 Hive支持 DYNAMIC 或 STATIC 分 ..

发布时间：2021-05-14 19:09:13 hive hiveql partitioning hive-partitions 其他开发

在Hive中将分区添加到外部表需要很多时间

我想知道将分区添加到外部表的最佳方法是什么.我在S3的蜂巢中有一个外部表，分区为车辆=/日期=/小时= 现在可以在一天中的任何时间添加新车辆，并且一天中有几个小时或几天没有车辆的数据. 几乎没有解决方案-msck reapir表:这需要很多时间-通过脚本添加分区:我可能不知道何时创建新车辆或何时不存在车辆的小时数据人们通常如何解决将分区添加到外部表的问题解决方案 ms ..

发布时间：2021-05-14 19:07:52 hive partition hive-partitions 其他开发

从具有多个分区列的配置单元表中获取最新数据

我有一个具有以下结构的配置单元表 ID字符串，值字符串，年int月int，天诠释小时整数，分钟int 该表每15分钟刷新一次，并按年/月/日/小时/分钟列进行分区.请在分区上找到以下示例. 年= 2019/月= 12/天= 29/小时= 19/分钟= 15年= 2019/月= 12/天= 30/小时= 00/分钟= 45年= 2019/月= 12/天= 30/小时= 08/分钟= 45年 ..

发布时间：2021-05-14 19:07:02 performance hive hiveql partition hive-partitions 其他开发

进入Hive表-非分区表到具有多个分区的分区表-无法插入目标表，因为列号/类型

当我尝试插入分区表时，出现以下错误: SemanticException [错误10044]:行1:23无法插入目标表，因为列号/类型不同:表insclause-0有6列，并且3列已分区，我们不需要任何必须转储的过滤器/存储从非分区表到分区表. 我的桌子: 来源: id名称工资深度1 sai 1000销售2 syam 2000小时3 sundar 3000银行目标: ..

发布时间：2021-05-14 19:05:28 sql hive hiveql hive-partitions 其他开发

Reg:配置单元中查询优化器的效率

在阅读了有关查询优化技术的知识之后，我开始了解以下技术. 1.索引-位图和BTree2.分区3.桶装我得到了分区和存储分区以及何时使用它们的区别，但是我仍然对索引的实际工作方式感到困惑.索引的元数据存储在哪里?是存储它的namenode吗?即，实际上，在创建分区或存储桶时，我们可以在hdfs中看到多个目录，这些目录解释了查询性能的优化，但如何可视化索引呢?尽管存在分区和存储桶的问题，但它 ..

发布时间：2021-05-13 20:16:03 hadoop indexing hive hiveql hive-partitions 其他开发

Hive外部表最佳分区大小

外部表分区的最佳大小是多少?我打算按年/月/日对表进行分区，每天将获得约2GB的数据. 解决方案配置单元分区定义将存储在metastore中，因此太多的分区将占用metastore中的大量空间. 分区将作为目录存储在HDFS中，因此许多分区键将生成多级目录，这会使它们的扫描速度变慢. 您的查询将作为MapReduce作业执行，因此创建太小的分区是没有用的. 要视情况而定 ..

发布时间：2021-04-24 21:22:28 hive partitioning create-table partition hive-partitions 其他开发

如何从配置单元获取最新的分区数据

我需要从具有最新分区的配置单元中的表中获取所有记录.该表由date,year,month分区，例如(date=25,year=2020,month=3)，同样会有很多分区. 分区不是静态的，它将经常更改.我正在尝试获取查询中的最新分区. 有人可以帮我写查询吗? 解决方案尝试一下: select * from your_table t where concat_ws(' ..

发布时间：2020-11-23 18:43:00 hive hiveql hadoop-streaming hive-partitions 其他开发

如何使用Hive检查分区是否存在

我有一个HiveQL脚本，可以基于hive表执行一些操作.但是在执行这些操作之前，我将检查所需的分区是否存在，如果不存在，则将终止脚本.那我该如何实现呢? 解决方案使用shell: table_name="schema.table" partition_spec="key=value" partition_exists=$(hive -e "show partitions $ta ..

发布时间：2020-11-23 18:42:57 hive hiveql hive-partitions 其他开发

使用一条insert语句在多个分区中插入数据

我有表A和表B，其中B是使用名为X的字段对A进行分区的表. 当我要将数据从A插入到B时，通常执行以下语句: INSERT INTO TABLE B PARTITION(X=x) SELECT FROM A WHERE X=x 现在我要实现的是能够插入X范围，比如说x1，x2，x3 ...如何在一个语句中实现呢? 解决方案使用动态分区负载: ..

发布时间：2020-11-23 18:42:36 hadoop hive hiveql hive-partitions 其他开发

蜂巢面试问题中的分区

1)如果分区列中没有数据，那么当您查询该列时，会得到什么错误? 2)如果某些行没有分区列，将如何处理这些行?会不会有数据丢失? 3)为什么需要对数字列进行存储?我们也可以使用字符串列吗?您将选择什么处理程序以及在什么基础上选择分类列? 4)内部表详细信息也将存储在metastore中吗?还是只存储外部表的详细信息? 5)什么类型的查询仅在mapper端运行，而不在reduc ..

发布时间：2020-11-23 18:34:18 hive mapreduce hiveql hive-partitions 其他开发

hive-partitions相关内容