hive相关内容
我创建了一个 Hive 表,它从文本文件加载数据.但是它在所有查询上返回空结果集. 我尝试了以下命令: CREATE TABLE table2(id1 INT,id2 INT,id3 INT,id4 字符串,id5 INT,id6 字符串,id7 字符串,id8 字符串,id9 字符串,id10 字符串,id11 字符串,id12 字符串,id13 字符串,id14 字符串,id15 字符
..
我有一些输入信息,我试图从我的输入中删除部分 .0,其中 ID 字符串以 .0 结尾. select student_id, regexp_replace(student_id, '.0','') from school_result.credit_records where student_id like '%.0'; 输入: 01-0230984.0312345098.03456
..
我正在尝试使用以下 Sqoop 命令将 BLOB(图像)数据表单 oracle 导入 Hive. sqoop import --connect jdbc:oracle:thin:@host --username --password --m 3 --table tablename --hive-drop-import-delims --hive-table tablename --目标目录 ''
..
如果不存在日志,则创建外部表(LGACT 字符串,NTNAME 字符串)由 '\t' 终止的行格式分隔字段LOCATION '/user/hive/warehouse/LOGS/test'; 在“test"文件夹下,我每天都在写文件.例如: /user/hive/warehouse/LOGS/test/20170420/用户/蜂巢/仓库/日志/测试/20170421/用户/蜂巢/仓库/日志/测
..
在 Hive 中,如何将查询结果存储在变量中?我试过下面的命令:SET hivevar:a=(查询); 但不是结果,而是查询本身被存储.有没有办法存储结果? 解决方案 Hive 变量只不过是一种文本替换机制. 替换在解析和执行之前完成. hive>设置 hivevar:v1=se;蜂巢>设置 hivevar:v2=l;蜂巢>设置 hivevar:v3=ec;蜂巢>设置 hivev
..
我在 hive 中有一个带有列的登录详细信息表 (日期、时间、用户) 我正在尝试编写一个查询,该查询可以选择在两个日期之间登录的用户,同时还要考虑时间.例如:我想知道在 10-12-2012 02:30:00 和 28-12-2012 之间登录的用户> 16:20:00.DD-MM-YYYY 格式的日期和 HH:MM:SS 格式的时间. 我可以执行 select * from
..
我有一个托管的 Hive 表,其中仅包含一个 150MB 的文件.然后我对它执行“从 tbl 中选择计数(*)",它使用 2 个映射器.我想将其设置为更大的数字. 首先我尝试了 'set mapred.max.split.size=8388608;',所以希望它会使用 19 个映射器.但它只使用了 3.不知何故,它仍然将输入分成 64MB.我也使用了'set dfs.block.size=8
..
据我了解,Hbase 是 Hadoop 数据库,Hive 是数据仓库. Hive 允许创建表并在其中存储数据,您还可以将现有的 HBase 表映射到 Hive 并对其进行操作. 如果 hive 做这一切,为什么我们应该使用 hbase?我们可以单独使用 hive 吗?我很困惑:( 解决方案 所以简单来说,使用 hive,您可以在您的表上触发类似 SQL 的查询(有一些例外),并
..
我需要将数据插入给定的外部表,该表应按插入日期进行分区.我的问题是 Hive 如何处理时间戳生成?当我为所有插入的记录选择时间戳时: WITH delta_insert AS (SELECT trg.*, from_unixtime(unix_timestamp()) AS generic_timestampFROM target_table trg)选择 *从 delta_insert; 所
..
我有一个变量,每一行都是一个句子.示例: -Row1 “嘿,你好吗?-Rwo2“嘿,谁在那里? 我希望输出是按单词分组的计数. 示例: 嘿 2如何 1是 1... 我正在使用 split bit 功能,但我有点卡住了.对此有什么想法吗? 谢谢! 解决方案 这在 Hive 中是可能的.按非字母字符拆分,使用横向视图+爆炸,然后计算字数: with your_data
..
据我所知,Derby 在当前目录中创建文件.但那里没有. 所以我曾尝试使用 Derby 进行 hive 初始化:但是 .. 似乎已经是一个 derby 数据库. schematool --verbose -initSchema -dbType derby启动 Metastore 模式初始化到 2.1.0初始化脚本 hive-schema-2.1.0.derby.sql连接到 jdbc:d
..
我的本地机器 (Linux) 中已经有一个 MySQL 表,而且我有一个与 MySQL 表具有相同架构的 Hive 外部表. 我想在插入或更新新记录时同步我的 hive 外部表.批量更新对我来说每小时都可以.在不使用 sqoop 的情况下实现相同目标的最佳方法是什么? 谢谢,顶 解决方案 没有 scoop,您可以创建表 STORED BY JdbcStorageHandle
..
有人告诉我 count(distinct ) 可能会导致数据倾斜,因为只使用了一个减速器. 我使用一个包含 50 亿数据和 2 个查询的表进行了测试, 查询 A: select count(distinct columnA) from tableA 查询 B: select count(columnA) from(从 tableA group by columnA 选择 colu
..
嗨,我对 Hadoop 很陌生. 我已将 Microsoft HDInsight 安装到我的本地系统.现在我想连接到 hive 和 HBase 但用于 HIVE 连接我必须指定连接字符串、端口、用户名、密码. 但我不知道如何获得这个值.我曾尝试使用 localhost 和 8085 作为端口,但这不起作用.我也通过提供本地主机 IP 和我的系统 IP 来完成它. 请帮忙解决这个问
..
我想在不从磁盘加载任何内容的情况下创建和填充配置单元表. 具体来说,我有 set idlist = (1,2,3);设置值 = (2,3,5); 我想创建一个有 9 行的表格: id 值1 21 31 52 22 32 53 23 33 5 再说一次,我不想写一个 csv 文件并将它加载到 hive 中. 用例: 迭代 为 SO 问题创建小型测试样本 解决方案
..
我有运行 Spark2 (v2.2) 的 Hortonworks HDP 2.6.3.我的测试用例很简单: 用一些随机值创建一个 Hive 表.Hive 在 10000 端口 在 10016 开启 Spark Thrift 服务器 运行pyspark并通过10016查询Hive表 但是,由于 NumberFormatException,我无法从 Spark 获取数据.
..
我正在尝试在 BigInsights on Cloud 4.2 Enterprise 上运行一个访问 Hive 表的 pyspark 脚本. 首先我创建 hive 表: [biadmin@bi4c-xxxxx-mastermanager ~]$ hive蜂巢>CREATE TABLE pokes (foo INT, bar STRING);行耗时:2.147 秒蜂巢>LOAD DATA L
..
我正在尝试在 Amazon 的 EMR 上设置 Hive,以从 DynamoDB 表中提取数据并将其转储到 S3.我已按照此处找到的说明进行操作,并且在大多数情况下都取得了成功我们的桌子.但是,对于一个 DynamoDB 表,我收到一个错误(如下所示). 有问题的表有 lot 列 (>100),将映射减少到其中的一个子集允许脚本运行,所以我假设这是问题,但我找不到任何相关文档. 对我可
..
我正在尝试在 Hive 中分解多列中的记录. 例如,如果我的数据集看起来像这样 - COL_01 COL_02 COL_031 A, B X, Y, Z2 D、E、F V、W 我想要这个作为输出 - COL_01 COL_02 COL_031 A X1 B Y1 空 Z2 DV2 东2 F NULL 有没有办法在 Hive 中做到这一点? 我看到了一些关于单列爆炸的帖子,但没有
..
我使用的是 Hive 版本 0.13.1.尝试将数据插入现有表时,在使用以下查询时出错: CREATE TABLE table1 (order_num int, payment_type varchar(20), category varchar(20));INSERT INTO TABLE table1 VALUES (151, 'cash', 'lunch'); 错误: ParseE
..