apache-pig相关内容
我的数据格式如下.. {"Foo":"ABC","Bar":"20090101100000","Quux":"{\"QuuxId\":1234,\"QuuxName\":\"Sam\"}"} 我需要它采用这种格式: {"Foo":"ABC","Bar":"20090101100000","Quux":{"QuuxId":1234,"QuuxName":"Sam"}} 我正在尝试使用 Pig
..
我是 Pig 的新手,想使用一个有序的分析函数,类似于 SQL 中的功能. 我的数据如下所示: (stock_symbol,date,stock_price_open,stock_price_close)(TAC,2001-08-06,16.39,16.36)(TAC,2001-08-07,16.3,16.54)(TAC,2001-08-08,16.55,16.44)(TAC,2001-0
..
我正在将 Azure 存储中的一堆文件加载到 pig 中.Pig 默认支持 gzip,因此如果文件扩展名为 .gz,一切正常. 问题是旧文件以 .zip 扩展名存储(我有数百万个). 有没有办法告诉 pig 加载文件并将 .zip 视为 gzip? 解决方案 我真的不知道还有其他一些选择,但你可以尝试这样的事情 编写一个 bash 脚本,将给定的 zip 文件转换为 gz
..
我正在尝试存储一个分别具有两列日期和时间的 txt 文件.像这样的东西:1999-01-01 12:08:56 现在我想使用 PIG 执行一些日期操作,但我想像这样存储日期和时间1999-01-01T12:08:56(我检查了这个链接):http://docs.oracle.com/javase/6/docs/api/java/text/SimpleDateFormat.html 我想
..
我一直在使用 Pig 和 XMLLOADER 来加载 xml 文件.我一直在练习 BOOK 示例.但是,我需要处理的 XML 文件在标签中有冒号.当我运行一个脚本时,它说由于 ':' 无法处理它.(最后是确切的日志) 这是我的文件.为“:"大小写的目的而修改.BOOKT.xml Hadoop 权威指南汤姆·怀特
..
对于 Apache Pig 和 Hive 中的用户定义,我们可以使用 unix shell 脚本而不是使用(Java 或 Python)吗? 如果可以,我们如何在 Hive Query 或 Pig 脚本中提及? 解决方案 不,您不能将 unix shell 脚本用作 Pig UDF.Pig UDF 目前仅支持六种语言:Java、Jython、Python、JavaScript、Rub
..
我有一个包含 3 列的 CSV 文件:tweetid、tweet 和 Userid.但是在 tweet 列中有逗号分隔值. 即1 行数据: `396124437168537600`,“我真的希望我没有放弃我为你所做的一切,我对自己的自我感到非常生气,因为它甚至让它达到了它所做的.",savava143 我想单独提取所有 3 个字段,但是 REGEX_EXTRACT 给我一个错误代码:
..
我有一个数据集 (CSV),它具有三个值列(v1、2 和 3),其中包含一个值.值的描述以逗号分隔的字符串形式存储在 'keys' 列中. |v1 |v2 |v3 |钥匙 ||一个 |C |E |X,Y,Z | 使用 Pig 我想将此信息加载到 HBase 表中,其中列族是 C,列限定符是关键. |C:X |C:Y |C:Z ||一个 |C |E | 以前有没有人做过这件事并愿意分享这些知
..
我有一个 PIG 脚本 从 csv 加载和转换数据 替换一些字符 调用java程序(JAR)将csv中的日期时间从06/02/2015 18:52转换为2015-6-2 18:52 (mm/DD/yyyy to yyyy-MM-dd) 注册/home/cloudera/DateTime.jar;A = Load '/user/cloudera/Data.csv' using Pig
..
我可以在 Windows 上的 pig 0.13.0 版本中进入 grunt shell.当试图从 hdfs 加载一个简单的文件并转储它时.发生以下错误. 2014-10-13 17:29:45,167 [main] 错误 org.apache.pig.tools.grunt.Grunt - 错误 2998:未处理的内部错误.org.apache.hadoop.mapreduce.JobCont
..
我有两个文件,在 data1 1 31 25 1 在data2 2 32 4 然后我尝试将它们读入猪 d1 = LOAD 'data1';d2 = foreach d1 生成 flatten(STRSPLIT($0, ' +')) as (f1:int,f2:int);d3 = 加载 'data2' ;d4 = foreach d3 生成 flatten(STRSPLIT($0, ' +
..
我有来自 IIS 的日志文件存储在 hdfs 中,但由于网络服务器配置,一些日志没有包含所有列或它们以不同的顺序出现.我想生成具有通用架构的文件,以便我可以在它们之上定义 Hive 表. 好的日志示例: #Fields: 日期时间 s-ip cs-method cs-uri-stem useragent2013-07-16 00:00:00 10.1.15.8 GET/common/vie
..
我刚刚开始在 cloudera 平台上使用 Hadoop/Pig/Hive,对如何有效加载数据进行查询有疑问. 我目前有大约 50GB 的 iis 日志加载到 hdfs 中,目录结构如下: /user/oi/raw_iis/Webserver1/Org/SubOrg/W3SVC1056242793//user/oi/raw_iis/Webserver2/Org/SubOrg/W3SVC
..
我有一个包含两列的表格(代码:chararray,sp:double) 我想计算每个 sp 的百分比. 输入t001 60a002 75a003 34bb04 56英国广播公司 5 23cc2c 45ddc5 45 期望的输出: 代码 Perct001 17%a002 22%a003 10%bb04 16.5%英国广播公司 5 6%cc2c 13.3%ddc5 13.3% 我试过这样
..
我有以下代码: Data = load '/user/cloudera/' using PigStorage('\t')作为( ID:字符数组,时间间隔:字符数组,代码:字符数组);transf = foreach Source_Data 生成 (int) ID,ToString( ToDate((long) Time_Interval), 'yyyy-MM-dd hh:ss:mm') 作为时间
..
我在理解 map 应该如何使用时遇到了一些问题. 按照这个教程我创建了一个包含以下文字: [open#apache][阿帕奇#hadoop] ,我能够毫无错误地加载该文件: a = 将 'data/file_name.txt' 加载为 (M:map []) 现在,我如何获取所有“值"的列表?即 (apache)(Hadoop) 此外,我刚刚开始学习 Pig,因此每个提示都会非常有
..
我在 HDFS 中有一个文件 44,UK,{"names":{"name1":"John","name2":"marry","name3":"stuart"},"fruits":{"fruit1":"apple","fruit2":"orange"}},31-07-2016 91,INDIA,{"names":{"name1":"Ram","name2":"Sam"},"fruits"
..
我需要在两个日期之间拆分日期,并从中忽略星期六和星期日.0.11.1 上的内置函数将有助于获取星期几,但如何确定是星期六还是星期日?任何人都知道吗?我的预期输出如下所述. 输入: 用户从日期至今 拉吉 10/3/2013 10/8/2013 詹姆斯 10/4/2013 10/7/2013 等等. 预期输出: 拉吉 10/3/2013 拉吉 10/4/
..
我在启动 pig 脚本时遇到了 Java 问题,似乎是某些依赖项或版本冲突,正在运行 Debian/Cloudera CDH4/Apache Pig java.lang.Exception: java.lang.IncompatibleClassChangeError: Found interface org.apache.hadoop.mapreduce.Counter, but class
..
我有许多袋子,我想计算袋子之间的成对相似性. sequences = FOREACH raw GENERATE gen_bag(logs); 关系描述如下: sequences: {t: (type: chararray, value:charray)} 相似度由 Python UDF 计算,该 UDF 将两个包作为参数.我试图对序列变量进行嵌套的 foreach,但我不能在同一关系上循环
..