apache-pig相关内容

替换猪中的字符

我的数据格式如下.. {"Foo":"ABC","Bar":"20090101100000","Quux":"{\"QuuxId\":1234,\"QuuxName\":\"Sam\"}"} 我需要它采用这种格式: {"Foo":"ABC","Bar":"20090101100000","Quux":{"QuuxId":1234,"QuuxName":"Sam"}} 我正在尝试使用 Pig ..
发布时间:2021-11-12 04:18:41 其他开发

Hadoop Pig 有序分析函数

我是 Pig 的新手,想使用一个有序的分析函数,类似于 SQL 中的功能. 我的数据如下所示: (stock_symbol,date,stock_price_open,stock_price_close)(TAC,2001-08-06,16.39,16.36)(TAC,2001-08-07,16.3,16.54)(TAC,2001-08-08,16.55,16.44)(TAC,2001-0 ..
发布时间:2021-11-12 04:18:38 其他开发

将文件加载到 pig 并解压

我正在将 Azure 存储中的一堆文件加载到 pig 中.Pig 默认支持 gzip,因此如果文件扩展名为 .gz,一切正常. 问题是旧文件以 .zip 扩展名存储(我有数百万个). 有没有办法告诉 pig 加载文件并将 .zip 视为 gzip? 解决方案 我真的不知道还有其他一些选择,但你可以尝试这样的事情 编写一个 bash 脚本,将给定的 zip 文件转换为 gz ..
发布时间:2021-11-12 04:18:35 其他开发

在 PIG 中存储日期和时间

我正在尝试存储一个分别具有两列日期和时间的 txt 文件.像这样的东西:1999-01-01 12:08:56 现在我想使用 PIG 执行一些日期操作,但我想像这样存储日期和时间1999-01-01T12:08:56(我检查了这个链接):http://docs.oracle.com/javase/6/docs/api/java/text/SimpleDateFormat.html 我想 ..
发布时间:2021-11-12 04:18:32 其他开发

Unix Shell 脚本作为 Pig 和 Hive 的 UDF

对于 Apache Pig 和 Hive 中的用户定义,我们可以使用 unix shell 脚本而不是使用(Java 或 Python)吗? 如果可以,我们如何在 Hive Query 或 Pig 脚本中提及? 解决方案 不,您不能将 unix shell 脚本用作 Pig UDF.Pig UDF 目前仅支持六种语言:Java、Jython、Python、JavaScript、Rub ..
发布时间:2021-11-12 04:18:24 服务器开发

PIG 中的 REGEX_EXTRACT 错误

我有一个包含 3 列的 CSV 文件:tweetid、tweet 和 Userid.但是在 tweet 列中有逗号分隔值. 即1 行数据: `396124437168537600`,“我真的希望我没有放弃我为你所做的一切,我对自己的自我感到非常生气,因为它甚至让它达到了它所做的.",savava143 我想单独提取所有 3 个字段,但是 REGEX_EXTRACT 给我一个错误代码: ..
发布时间:2021-11-12 04:18:21 其他开发

Apache Pig:动态列

我有一个数据集 (CSV),它具有三个值列(v1、2 和 3),其中包含一个值.值的描述以逗号分隔的字符串形式存储在 'keys' 列中. |v1 |v2 |v3 |钥匙 ||一个 |C |E |X,Y,Z | 使用 Pig 我想将此信息加载到 HBase 表中,其中列族是 C,列限定符是关键. |C:X |C:Y |C:Z ||一个 |C |E | 以前有没有人做过这件事并愿意分享这些知 ..
发布时间:2021-11-12 04:18:18 其他开发

Hive 未检测时间戳格式

我有一个 PIG 脚本 从 csv 加载和转换数据 替换一些字符 调用java程序(JAR)将csv中的日期时间从06/02/2015 18:52转换为2015-6-2 18:52 (mm/DD/yyyy to yyyy-MM-dd) 注册/home/cloudera/DateTime.jar;A = Load '/user/cloudera/Data.csv' using Pig ..
发布时间:2021-11-12 04:18:15 其他开发

在 Windows 8 上安装 Pig 0.13.0

我可以在 Windows 上的 pig 0.13.0 版本中进入 grunt shell.当试图从 hdfs 加载一个简单的文件并转储它时.发生以下错误. 2014-10-13 17:29:45,167 [main] 错误 org.apache.pig.tools.grunt.Grunt - 错误 2998:未处理的内部错误.org.apache.hadoop.mapreduce.JobCont ..
发布时间:2021-11-12 04:18:12 其他开发

在hadoop中操作行数据以添加缺失的列

我有来自 IIS 的日志文件存储在 hdfs 中,但由于网络服务器配置,一些日志没有包含所有列或它们以不同的顺序出现.我想生成具有通用架构的文件,以便我可以在它们之上定义 Hive 表. 好的日志示例: #Fields: 日期时间 s-ip cs-method cs-uri-stem useragent2013-07-16 00:00:00 10.1.15.8 GET/common/vie ..
发布时间:2021-11-12 04:18:06 其他开发

使用 PIG 拉丁语计算百分比

我有一个包含两列的表格(代码:chararray,sp:double) 我想计算每个 sp 的百分比. 输入t001 60a002 75a003 34bb04 56英国广播公司 5 23cc2c 45ddc5 45 期望的输出: 代码 Perct001 17%a002 22%a003 10%bb04 16.5%英国广播公司 5 6%cc2c 13.3%ddc5 13.3% 我试过这样 ..
发布时间:2021-11-12 04:18:00 其他开发

了解地图语法

我在理解 map 应该如何使用时遇到了一些问题. 按照这个教程我创建了一个包含以下文字: [open#apache][阿帕奇#hadoop] ,我能够毫无错误地加载该文件: a = 将 'data/file_name.txt' 加载为 (M:map []) 现在,我如何获取所有“值"的列表?即 (apache)(Hadoop) 此外,我刚刚开始学习 Pig,因此每个提示都会非常有 ..
发布时间:2021-11-12 04:17:54 其他开发

Apache PIG:获取星期几并相应地拆分

我需要在两个日期之间拆分日期,并从中忽略星期六和星期日.0.11.1 上的内置函数将有助于获取星期几,但如何确定是星期六还是星期日?任何人都知道吗?我的预期输出如下所述. 输入: 用户从日期至今 拉吉 10/3/2013 10/8/2013 詹姆斯 10/4/2013 10/7/2013 等等. 预期输出: 拉吉 10/3/2013 拉吉 10/4/ ..
发布时间:2021-11-12 04:17:48 其他开发

Apache Pig - 在相同关系上嵌套 FOREACH

我有许多袋子,我想计算袋子之间的成对相似性. sequences = FOREACH raw GENERATE gen_bag(logs); 关系描述如下: sequences: {t: (type: chararray, value:charray)} 相似度由 Python UDF 计算,该 UDF 将两个包作为参数.我试图对序列变量进行嵌套的 foreach,但我不能在同一关系上循环 ..
发布时间:2021-11-12 04:17:42 Python