hive 第3页 - IT屋-程序员软件开发技术分享社区

插入带有特殊字符的配置单元表格内容-制表符和换行符

我正在尝试从根据WHERE子句筛选的配置单元表格中选择具有特殊字符的数据，特别是Tab和NewLine。我已尝试我已尝试like '%\n%'、like '%\t%'、like '%hex(9)%'等，但它们似乎不起作用。还试图创建一个虚表来插入这样的数据，但也不起作用。请帮帮忙。推荐答案使用rlike '\t'表示制表符，rlike '\n'表示换行符(使用双反斜 ..

发布时间：2022-03-31 11:47:36 hive special-characters etl hiveql 其他开发

当我使用Avro'；子句创建一个配置单元表时，Avro模式存储在哪里？

创建由Avro数据支持的配置单元表至少有两种不同的方法：基于avro架构(在本例中，存储在HDFS中)创建表：创建表USERS_FROM_AVRO_SCHEMA 行格式Serde‘org.apache.hadoop.hive.serde2.avro.AvroSerDe’ 存储为INPUTFORMAT‘org.apache.hadoop.hive.ql.io.avro.AvroConta ..

发布时间：2022-03-04 16:24:05 hive schema avro metastore 其他开发

基于子串匹配的蜂窝/猪连接

我有一个要求，我需要使用人名加入twets表，比如过滤包含任何人名的tweet。我有以下数据：推文表：(7000万条记录存储为一个配置单元表) id 推文 1 克里斯蒂亚诺·罗纳尔多有史以来最伟大的 2 布拉德·皮特电影 3 无人名的随机推文人名：(160万个姓名以.tsv文件形式存储在HDFS上) id PERSON_NAME 1 克里斯蒂亚诺·罗纳尔多 2 ..

发布时间：2022-03-01 18:34:57 hadoop join hive bigdata apache-pig 其他开发

对行数、列数、文件大小是否有配置单元理论和实际限制？

我在https://cwiki.apache.org/confluence/display/Hive/Home 中找不到任何记录的限制我的猜测是没有行数或列数的限制。文件大小受文件系统的限制。通过正确划分数据，我们还可以管理文件大小和文件数量。谢谢您。推荐答案列数：在这个JIRA中，他们成功地使用15K列和20K列测试了ORC文件的OOM(使用默认的1 GB堆)。 ..

发布时间：2022-02-27 17:53:36 hadoop hive hdfs 其他开发

ApplicationMaster退出代码杀死的容器是143

我在几种情况下都收到以下错误： 2017-03-23 11:55:10,794 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics report from attempt_1490079327128_0048_r_000003 ..

发布时间：2022-02-23 23:47:17 hadoop hive mapreduce hadoop2 其他开发

配置单元：转换"；yyyy-MM-dd'；T'；HH:mm:ss.SSS'；Z'；"；中缺少秒的字符串日期时间

我使用以下代码将字符串DATETIME变量转换为DATETIME，但转换后的字符串缺少SSS部分。使用的代码： cast(FROM_UNIXTIME(UNIX_TIMESTAMP(oldtime, "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'"),"yyyy-MM-dd HH:mm:ss.SSS") as timestamp) as newtime 结果： 2 ..

发布时间：2022-02-22 09:28:22 datetime hadoop hive hiveql cloudera 其他开发

配置单元中的时间戳解析

我正在尝试读取时间戳，并根据我的要求(在配置单元中)以不同的格式重新构建它。但是，我似乎记不清月份和日期。我怀疑时间戳格式不正确，但不确定哪里出错了。查询 select from_unixtime(unix_timestamp("Sun Mar 28 19:51:10 GMT+05:30 2021", "EEE MMM dd HH:mm:ss z YYYY"), "HH:mm:ss ..

发布时间：2022-02-22 09:26:56 sql hive timestamp hiveql simpledateformat 其他开发

如何使用 HIVE 比较两个表并返回不同的行

假设我有一个包含大约 180 列和 100 条记录的表.该表被备份到临时表中，原始表被删除.在生成相同表的管道上运行此迁移(更改)之后.我想将备份的表与新的行(记录)进行比较，并将任何差异移至第三个表(_result 表)，所以我这样做: 插入覆盖表zakj_customers.customers_detail_result选择acct_id, IF (a.title != b.title, 1 ..

发布时间：2022-01-25 09:43:27 sql hadoop hive compare nosql 其他开发

Hive 查询派生列并找到派生列的总数

我有一个场景，其中 credit_Date、debit_date 和 loan_date 可以相同.输出表有以下几列日期:应结合credit_date、debit_date和loan_date(credit_date、debit_date和loan_date可以相同(或)为空) Credit_payment:查找给定credit_date、实体、货币、所有者的信用金额总和 De ..

发布时间：2022-01-23 15:57:44 hadoop hive subquery bigdata derived-column 其他开发

Hive:有没有办法获取表中存在的所有数字列的聚合?

我有一个包含超过 50 列(数字和字符)的表，有没有办法在不指定每一列的情况下获取整体统计信息? 举个例子: a b c d1 2 3 45 6 7 89 10 11 12 理想情况下，我会有类似的东西: column_name min avg max sum1 5 9 15b 2 6 10 18c 3 7 11 21d 4 8 12 24 尽管如此，一次获取一个聚合 ..

发布时间：2022-01-22 21:42:03 hive pivot hql transpose aggregates 其他开发

WSO2 BAM Hive NoSuchObjectException 错误

我已按照文档中的说明配置了 BAM 2.4.0使用 WSO2 BAM 进行监控.我正在使用 MySQL. 当我尝试按照 BAM 管理控制台“更改统计数据库"部分中的说明运行删除表的脚本时，我收到了此错误.有什么想法吗? [2014-05-08 11:01:19,948] 错误 {hive.ql.metadata.Hive} - NoSuchObjectException(消息:defaul ..

发布时间：2022-01-17 23:21:11 hive wso2 wso2bam 其他开发

将 CSV 文件(包含空字符串和重复项)导入 DynamoDB

我有一个 CSV 文件，我正在尝试将其导入 Amazon DynamoDB.所以我把它上传到 S3，建立一个 EMR 集群，然后创建一个像这样的外部表: 蜂巢>创建外部表 s3_table_myitems (colA BIGINT, colB STRING, colC STRING, colD DOUBLE, colE DOUBLE, colF STRING, colG STRING)行格式 S ..

发布时间：2022-01-15 17:44:41 csv hadoop amazon-web-services hive amazon-dynamodb 其他开发

Hive Buckets-了解TABLESAMPLE(BUCKET X OUT OF Y)

嗨，我对 hive 非常陌生，我已经在 hadoop 中了解了桶的概念，但未能理解以下几行.有人可以帮助我吗? SELECT avg(viewTime)FROM page_view TABLESAMPLE(32 个中的第 1 个)； TABLESAMPLE 的一般语法是表格样本(桶 x 超出 y) 查询的样本量约为 1/y.此外，y 需要是在创建表时为表指定的桶数的倍数或因子.例如，如果 ..

发布时间：2022-01-14 08:12:38 hadoop mapreduce hive 其他开发

Hive 中的字数统计程序

我正在尝试学习 Hive.令人惊讶的是，我找不到如何编写简单的字数统计工作的示例.以下是正确的吗? 假设我有一个输入文件 input.tsv: 你好，世界这是一个示例输入文件我在 Python 中创建了一个拆分器来将每一行变成单词: 导入系统对于 sys.stdin 中的行:对于 line.split() 中的单词:打印字然后我的 Hive 脚本中有以下内容: CREATE T ..

发布时间：2022-01-14 08:09:35 mapreduce hive 其他开发

Hive ParseException - 无法识别“结束"“字符串"附近的输入

尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误: NoViableAltException(88@[])在 org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.identifier(HiveParser_IdentifiersParser.java:9123)在 org.apache.hadoop.hive. ..

发布时间：2022-01-14 08:08:32 hadoop mapreduce hive bigdata amazon-dynamodb 其他开发

在 hive 的外部表中创建分区

我已在 hive 的内部表中成功创建并添加了动态分区.即通过使用以下步骤: 1-创建源表 2-从本地加载数据到源表 3- 创建另一个带有分区的表 - partition_table 4- 将数据从源表插入到该表中，从而动态创建所有分区我的问题是，如何在外部表中执行此操作?我读了很多关于此的文章，但我很困惑，我是否必须指定已经存在的分区的路径才能为外部表创建分区?? ..

发布时间：2022-01-14 08:03:11 hadoop hive mapreduce hbase 其他开发

Hive 上的自定义 Map Reduce 程序，规则是什么?输入输出如何?

我被困了几天，因为我想根据我在 hive 上的查询创建一个自定义 map reduce 程序，谷歌搜索后发现的例子不多，我仍然对规则感到困惑. 创建我的自定义mapreduce程序的规则是什么，mapper和reducer类呢? 谁能提供任何解决方案? 我想用Java开发这个程序，但我还是卡住了，然后在collector中格式化输出时，如何在mapper和reducer类中格式化 ..

发布时间：2022-01-14 08:01:25 hadoop mapreduce hive 其他开发

OLAP 可以在 BigTable 中做吗?

过去我曾经使用在 MySQL 上运行的 OLAP 多维数据集构建 WebAnalytics.现在，我使用的 OLAP 多维数据集只是一个大表(好吧，它的存储比那更智能)，其中每一行基本上是一个测量值或一组测量值的聚合.每个度量都有一堆维度(即哪个页面名称、用户代理、ip 等)和一堆值(即有多少浏览量、多少访问者等). 您在这样的表上运行的查询通常采用以下形式(元 SQL): SELECT ..

发布时间：2022-01-13 23:59:25 hadoop olap mapreduce hbase hive 其他开发

自定义 Mapper 和 Reducer 与 HiveQL

问题陈述:- 我需要比较两个表 Table1 和 Table2 并且它们都存储相同的东西.所以我需要比较 Table2 和 Table1 因为 Table1 是需要进行比较的主表.因此，在比较之后，我需要报告 Table2 存在某种差异.这两张表有很多数据，大约 TB 的数据.所以目前我已经编写了 HiveQL 来进行比较并取回数据. 所以我的问题是在 PERFORMANCE 方面哪个 ..

发布时间：2022-01-13 23:57:11 performance hadoop mapreduce hive hiveql 其他开发

在 SQLClient 中访问 Hive 表，但不能从 Putty 访问

我是 Hive、MapReduce 和 Hadoop 的新手.我正在使用 Putty 连接到 hive 表并访问表中的记录.所以我所做的是 - 我打开 Putty 并在主机名中输入 - vip.name.com，然后单击 Open.然后我输入了我的用户名和密码，然后输入了几个命令来访问 Hive sql.以下是我所做的列表 $ bashbash-3.00$ 蜂巢Hive 历史文件=/tmp/rk ..

发布时间：2022-01-13 23:57:01 sql hadoop mapreduce hive putty 其他开发

hive相关内容