hive相关内容

插入带有特殊字符的配置单元表格内容-制表符和换行符

我正在尝试从根据WHERE子句筛选的配置单元表格中选择具有特殊字符的数据,特别是Tab和NewLine。我已尝试 我已尝试like '%\n%'、like '%\t%'、like '%hex(9)%'等,但它们似乎不起作用。 还试图创建一个虚表来插入这样的数据,但也不起作用。请帮帮忙。 推荐答案 使用rlike '\t'表示制表符,rlike '\n'表示换行符(使用双反斜 ..
发布时间:2022-03-31 11:47:36 其他开发

基于子串匹配的蜂窝/猪连接

我有一个要求,我需要使用人名加入twets表,比如过滤包含任何人名的tweet。我有以下数据: 推文表:(7000万条记录存储为一个配置单元表) id 推文 1 克里斯蒂亚诺·罗纳尔多有史以来最伟大的 2 布拉德·皮特电影 3 无人名的随机推文 人名:(160万个姓名以.tsv文件形式存储在HDFS上) id PERSON_NAME 1 克里斯蒂亚诺·罗纳尔多 2 ..
发布时间:2022-03-01 18:34:57 其他开发

对行数、列数、文件大小是否有配置单元理论和实际限制?

我在https://cwiki.apache.org/confluence/display/Hive/Home 中找不到任何记录的限制 我的猜测是没有行数或列数的限制。文件大小受文件系统的限制。通过正确划分数据,我们还可以管理文件大小和文件数量。 谢谢您。 推荐答案 列数: 在这个JIRA中,他们成功地使用15K列和20K列测试了ORC文件的OOM(使用默认的1 GB堆)。 ..
发布时间:2022-02-27 17:53:36 其他开发

配置单元中的时间戳解析

我正在尝试读取时间戳,并根据我的要求(在配置单元中)以不同的格式重新构建它。但是,我似乎记不清月份和日期。我怀疑时间戳格式不正确,但不确定哪里出错了。 查询 select from_unixtime(unix_timestamp("Sun Mar 28 19:51:10 GMT+05:30 2021", "EEE MMM dd HH:mm:ss z YYYY"), "HH:mm:ss ..
发布时间:2022-02-22 09:26:56 其他开发

如何使用 HIVE 比较两个表并返回不同的行

假设我有一个包含大约 180 列和 100 条记录的表.该表被备份到临时表中,原始表被删除.在生成相同表的管道上运行此迁移(更改)之后.我想将备份的表与新的行(记录)进行比较,并将任何差异移至第三个表(_result 表),所以我这样做: 插入覆盖表zakj_customers.customers_detail_result选择acct_id, IF (a.title != b.title, 1 ..
发布时间:2022-01-25 09:43:27 其他开发

WSO2 BAM Hive NoSuchObjectException 错误

我已按照文档中的说明配置了 BAM 2.4.0使用 WSO2 BAM 进行监控.我正在使用 MySQL. 当我尝试按照 BAM 管理控制台“更改统计数据库"部分中的说明运行删除表的脚本时,我收到了此错误.有什么想法吗? [2014-05-08 11:01:19,948] 错误 {hive.ql.metadata.Hive} - NoSuchObjectException(消息:defaul ..
发布时间:2022-01-17 23:21:11 其他开发

Hive Buckets-了解TABLESAMPLE(BUCKET X OUT OF Y)

嗨,我对 hive 非常陌生,我已经在 hadoop 中了解了桶的概念,但未能理解以下几行.有人可以帮助我吗? SELECT avg(viewTime)FROM page_view TABLESAMPLE(32 个中的第 1 个); TABLESAMPLE 的一般语法是表格样本(桶 x 超出 y) 查询的样本量约为 1/y.此外,y 需要是在创建表时为表指定的桶数的倍数或因子.例如,如果 ..
发布时间:2022-01-14 08:12:38 其他开发

Hive 中的字数统计程序

我正在尝试学习 Hive.令人惊讶的是,我找不到如何编写简单的字数统计工作的示例.以下是正确的吗? 假设我有一个输入文件 input.tsv: 你好,世界这是一个示例输入文件 我在 Python 中创建了一个拆分器来将每一行变成单词: 导入系统对于 sys.stdin 中的行:对于 line.split() 中的单词:打印字 然后我的 Hive 脚本中有以下内容: CREATE T ..
发布时间:2022-01-14 08:09:35 其他开发

在 hive 的外部表中创建分区

我已在 hive 的内部表中成功创建并添加了动态分区.即通过使用以下步骤: 1-创建源表 2-从本地加载数据到源表 3- 创建另一个带有分区的表 - partition_table 4- 将数据从源表插入到该表中,从而动态创建所有分区 我的问题是,如何在外部表中执行此操作?我读了很多关于此的文章,但我很困惑,我是否必须指定已经存在的分区的路径才能为外部表创建分区?? ..
发布时间:2022-01-14 08:03:11 其他开发

Hive 上的自定义 Map Reduce 程序,规则是什么?输入输出如何?

我被困了几天,因为我想根据我在 hive 上的查询创建一个自定义 map reduce 程序,谷歌搜索后发现的例子不多,我仍然对规则感到困惑. 创建我的自定义mapreduce程序的规则是什么,mapper和reducer类呢? 谁能提供任何解决方案? 我想用Java开发这个程序,但我还是卡住了,然后在collector中格式化输出时,如何在mapper和reducer类中格式化 ..
发布时间:2022-01-14 08:01:25 其他开发

OLAP 可以在 BigTable 中做吗?

过去我曾经使用在 MySQL 上运行的 OLAP 多维数据集构建 WebAnalytics.现在,我使用的 OLAP 多维数据集只是一个大表(好吧,它的存储比那更智能),其中每一行基本上是一个测量值或一组测量值的聚合.每个度量都有一堆维度(即哪个页面名称、用户代理、ip 等)和一堆值(即有多少浏览量、多少访问者等). 您在这样的表上运行的查询通常采用以下形式(元 SQL): SELECT ..
发布时间:2022-01-13 23:59:25 其他开发

自定义 Mapper 和 Reducer 与 HiveQL

问题陈述:- 我需要比较两个表 Table1 和 Table2 并且它们都存储相同的东西.所以我需要比较 Table2 和 Table1 因为 Table1 是需要进行比较的主表.因此,在比较之后,我需要报告 Table2 存在某种差异.这两张表有很多数据,大约 TB 的数据.所以目前我已经编写了 HiveQL 来进行比较并取回数据. 所以我的问题是在 PERFORMANCE 方面哪个 ..
发布时间:2022-01-13 23:57:11 其他开发

在 SQLClient 中访问 Hive 表,但不能从 Putty 访问

我是 Hive、MapReduce 和 Hadoop 的新手.我正在使用 Putty 连接到 hive 表并访问表中的记录.所以我所做的是 - 我打开 Putty 并在主机名中输入 - vip.name.com,然后单击 Open.然后我输入了我的用户名和密码,然后输入了几个命令来访问 Hive sql.以下是我所做的列表 $ bashbash-3.00$ 蜂巢Hive 历史文件=/tmp/rk ..
发布时间:2022-01-13 23:57:01 其他开发