hive 第7页 - IT屋-程序员软件开发技术分享社区

Hive 表在所有查询上返回空结果集

我创建了一个 Hive 表，它从文本文件加载数据.但是它在所有查询上返回空结果集. 我尝试了以下命令: CREATE TABLE table2(id1 INT,id2 INT,id3 INT,id4 字符串，id5 INT,id6 字符串，id7 字符串，id8 字符串，id9 字符串，id10 字符串，id11 字符串，id12 字符串，id13 字符串，id14 字符串，id15 字符 ..

发布时间：2021-12-28 23:55:32 mysql sql hadoop hive bigdata 数据库

Hive SQL 查询中 Regexp_replace 的奇怪行为

我有一些输入信息，我试图从我的输入中删除部分 .0，其中 ID 字符串以 .0 结尾. select student_id, regexp_replace(student_id, '.0','') from school_result.credit_records where student_id like '%.0'; 输入: 01-0230984.0312345098.03456 ..

发布时间：2021-12-28 23:55:20 regex hive hiveql regexp-replace 其他开发

我正在尝试使用以下 Sqoop 命令将 BLOB(图像)数据表单 oracle 导入 Hive. sqoop import --connect jdbc:oracle:thin:@host --username --password --m 3 --table tablename --hive-drop-import-delims --hive-table tablename --目标目录 '' ..

发布时间：2021-12-28 23:55:14 oracle hadoop hive sqoop 数据库

创建外部表配置单元，位置内部包含多个文件

如果不存在日志，则创建外部表(LGACT 字符串，NTNAME 字符串)由 '\t' 终止的行格式分隔字段LOCATION '/user/hive/warehouse/LOGS/test'; 在“test"文件夹下，我每天都在写文件.例如: /user/hive/warehouse/LOGS/test/20170420/用户/蜂巢/仓库/日志/测试/20170421/用户/蜂巢/仓库/日志/测 ..

发布时间：2021-12-28 23:55:08 java apache hadoop hive Java开发

将查询结果存储在 hive 变量中

在 Hive 中，如何将查询结果存储在变量中?我试过下面的命令:SET hivevar:a=(查询); 但不是结果，而是查询本身被存储.有没有办法存储结果? 解决方案 Hive 变量只不过是一种文本替换机制. 替换在解析和执行之前完成. hive>设置 hivevar:v1=se;蜂巢>设置 hivevar:v2=l;蜂巢>设置 hivevar:v3=ec;蜂巢>设置 hivev ..

发布时间：2021-12-28 23:55:02 hive 其他开发

合并配置单元中的两列并在运算符之间使用

我在 hive 中有一个带有列的登录详细信息表 (日期、时间、用户) 我正在尝试编写一个查询，该查询可以选择在两个日期之间登录的用户，同时还要考虑时间.例如:我想知道在 10-12-2012 02:30:00 和 28-12-2012 之间登录的用户> 16:20:00.DD-MM-YYYY 格式的日期和 HH:MM:SS 格式的时间. 我可以执行 select * from ..

发布时间：2021-12-28 23:54:53 hive 其他开发

无法增加 Hive Mapper 任务?

我有一个托管的 Hive 表，其中仅包含一个 150MB 的文件.然后我对它执行“从 tbl 中选择计数(*)"，它使用 2 个映射器.我想将其设置为更大的数字. 首先我尝试了 'set mapred.max.split.size=8388608;'，所以希望它会使用 19 个映射器.但它只使用了 3.不知何故，它仍然将输入分成 64MB.我也使用了'set dfs.block.size=8 ..

发布时间：2021-12-28 23:54:44 hadoop hive 其他开发

hbase 和 hive 有什么区别?(Hadoop)

据我了解，Hbase 是 Hadoop 数据库，Hive 是数据仓库. Hive 允许创建表并在其中存储数据，您还可以将现有的 HBase 表映射到 Hive 并对其进行操作. 如果 hive 做这一切，为什么我们应该使用 hbase?我们可以单独使用 hive 吗?我很困惑:( 解决方案所以简单来说，使用 hive，您可以在您的表上触发类似 SQL 的查询(有一些例外)，并 ..

发布时间：2021-12-28 23:54:37 hadoop hive hbase bigdata nosql 其他开发

通过确切插入的时间戳在 Hive 中进行动态分区

我需要将数据插入给定的外部表，该表应按插入日期进行分区.我的问题是 Hive 如何处理时间戳生成?当我为所有插入的记录选择时间戳时: WITH delta_insert AS (SELECT trg.*, from_unixtime(unix_timestamp()) AS generic_timestampFROM target_table trg)选择 *从 delta_insert; 所 ..

发布时间：2021-12-28 23:54:31 date hive timestamp hiveql unix-timestamp 其他开发

使用 Hive 计算文本变量的单词频率

我有一个变量，每一行都是一个句子.示例: -Row1 “嘿，你好吗?-Rwo2“嘿，谁在那里? 我希望输出是按单词分组的计数. 示例: 嘿 2如何 1是 1... 我正在使用 split bit 功能，但我有点卡住了.对此有什么想法吗? 谢谢！解决方案这在 Hive 中是可能的.按非字母字符拆分，使用横向视图+爆炸，然后计算字数: with your_data ..

发布时间：2021-12-28 23:54:11 hadoop text hive counter hiveql 其他开发

无法从 Brew 安装使用 Derby 初始化配置单元

据我所知，Derby 在当前目录中创建文件.但那里没有. 所以我曾尝试使用 Derby 进行 hive 初始化:但是 .. 似乎已经是一个 derby 数据库. schematool --verbose -initSchema -dbType derby启动 Metastore 模式初始化到 2.1.0初始化脚本 hive-schema-2.1.0.derby.sql连接到 jdbc:d ..

发布时间：2021-12-28 23:54:04 hive derby 其他开发

如何在不使用 Sqoop 的情况下自动将 Hive 外部表与 MySQL 表同步?

我的本地机器 (Linux) 中已经有一个 MySQL 表，而且我有一个与 MySQL 表具有相同架构的 Hive 外部表. 我想在插入或更新新记录时同步我的 hive 外部表.批量更新对我来说每小时都可以.在不使用 sqoop 的情况下实现相同目标的最佳方法是什么? 谢谢，顶解决方案没有 scoop，您可以创建表 STORED BY JdbcStorageHandle ..

发布时间：2021-12-28 23:53:54 apache-spark hive hdfs 其他开发

组中减速器的 Hive 数量和计数(不同)

有人告诉我 count(distinct ) 可能会导致数据倾斜，因为只使用了一个减速器. 我使用一个包含 50 亿数据和 2 个查询的表进行了测试，查询 A: select count(distinct columnA) from tableA 查询 B: select count(columnA) from(从 tableA group by columnA 选择 colu ..

发布时间：2021-12-28 23:53:45 hadoop hive mapreduce hiveql hive-configuration 其他开发

如何将 Hive 连接到 asp.net 项目

嗨，我对 Hadoop 很陌生. 我已将 Microsoft HDInsight 安装到我的本地系统.现在我想连接到 hive 和 HBase 但用于 HIVE 连接我必须指定连接字符串、端口、用户名、密码. 但我不知道如何获得这个值.我曾尝试使用 localhost 和 8085 作为端口，但这不起作用.我也通过提供本地主机 IP 和我的系统 IP 来完成它. 请帮忙解决这个问 ..

发布时间：2021-12-28 23:53:35 c# hadoop hbase hive azure-hdinsight C#/.NET

如何在没有任何中间文件的情况下创建配置单元表?

我想在不从磁盘加载任何内容的情况下创建和填充配置单元表. 具体来说，我有 set idlist = (1,2,3);设置值 = (2,3,5); 我想创建一个有 9 行的表格: id 值1 21 31 52 22 32 53 23 33 5 再说一次，我不想写一个 csv 文件并将它加载到 hive 中. 用例: 迭代为 SO 问题创建小型测试样本解决方案 ..

发布时间：2021-12-28 23:53:27 sql hive 其他开发

查询 Hive 表时，数据帧 NumberFormatException 上的 Spark 2.2 Thrift 服务器错误

我有运行 Spark2 (v2.2) 的 Hortonworks HDP 2.6.3.我的测试用例很简单: 用一些随机值创建一个 Hive 表.Hive 在 10000 端口在 10016 开启 Spark Thrift 服务器运行pyspark并通过10016查询Hive表但是，由于 NumberFormatException，我无法从 Spark 获取数据. ..

发布时间：2021-12-28 23:53:19 python hadoop hive pyspark apache-spark-2.0 Python

Spark Hive 报告 pyspark.sql.utils.AnalysisException: u'Table not found: XXX' 在纱线集群上运行时

我正在尝试在 BigInsights on Cloud 4.2 Enterprise 上运行一个访问 Hive 表的 pyspark 脚本. 首先我创建 hive 表: [biadmin@bi4c-xxxxx-mastermanager ~]$ hive蜂巢>CREATE TABLE pokes (foo INT, bar STRING);行耗时:2.147 秒蜂巢>LOAD DATA L ..

发布时间：2021-12-28 23:53:11 apache-spark hive ibm-cloud hadoop-yarn biginsights 其他开发

Hive 外部表中的最大列数

我正在尝试在 Amazon 的 EMR 上设置 Hive，以从 DynamoDB 表中提取数据并将其转储到 S3.我已按照此处找到的说明进行操作，并且在大多数情况下都取得了成功我们的桌子.但是，对于一个 DynamoDB 表，我收到一个错误(如下所示). 有问题的表有 lot 列 (>100)，将映射减少到其中的一个子集允许脚本运行，所以我假设这是问题，但我找不到任何相关文档. 对我可 ..

发布时间：2021-12-28 23:53:04 hadoop amazon-web-services hive amazon-dynamodb 其他开发

在 Hive 中的多个列上爆炸

我正在尝试在 Hive 中分解多列中的记录. 例如，如果我的数据集看起来像这样 - COL_01 COL_02 COL_031 A, B X, Y, Z2 D、E、F V、W 我想要这个作为输出 - COL_01 COL_02 COL_031 A X1 B Y1 空 Z2 DV2 东2 F NULL 有没有办法在 Hive 中做到这一点? 我看到了一些关于单列爆炸的帖子，但没有 ..

发布时间：2021-12-28 23:52:57 sql arrays split hive hiveql 其他开发

如何将数据插入到 Hive(0.13.1) 表中?

我使用的是 Hive 版本 0.13.1.尝试将数据插入现有表时，在使用以下查询时出错: CREATE TABLE table1 (order_num int, payment_type varchar(20), category varchar(20));INSERT INTO TABLE table1 VALUES (151, 'cash', 'lunch'); 错误: ParseE ..

发布时间：2021-12-28 23:52:50 mysql hive hiveql 数据库

hive相关内容