apache-pig 第3页 - IT屋-程序员软件开发技术分享社区

替换猪中的字符

我的数据格式如下.. {"Foo":"ABC","Bar":"20090101100000","Quux":"{\"QuuxId\":1234,\"QuuxName\":\"Sam\"}"} 我需要它采用这种格式: {"Foo":"ABC","Bar":"20090101100000","Quux":{"QuuxId":1234,"QuuxName":"Sam"}} 我正在尝试使用 Pig ..

发布时间：2021-11-12 04:18:41 hadoop apache-pig azure-hdinsight 其他开发

Hadoop Pig 有序分析函数

我是 Pig 的新手，想使用一个有序的分析函数，类似于 SQL 中的功能. 我的数据如下所示: (stock_symbol,date,stock_price_open,stock_price_close)(TAC,2001-08-06,16.39,16.36)(TAC,2001-08-07,16.3,16.54)(TAC,2001-08-08,16.55,16.44)(TAC,2001-0 ..

发布时间：2021-11-12 04:18:38 hadoop apache-pig 其他开发

将文件加载到 pig 并解压

我正在将 Azure 存储中的一堆文件加载到 pig 中.Pig 默认支持 gzip，因此如果文件扩展名为 .gz，一切正常. 问题是旧文件以 .zip 扩展名存储(我有数百万个). 有没有办法告诉 pig 加载文件并将 .zip 视为 gzip? 解决方案我真的不知道还有其他一些选择，但你可以尝试这样的事情编写一个 bash 脚本，将给定的 zip 文件转换为 gz ..

发布时间：2021-11-12 04:18:35 hadoop apache-pig 其他开发

在 PIG 中存储日期和时间

我正在尝试存储一个分别具有两列日期和时间的 txt 文件.像这样的东西:1999-01-01 12:08:56 现在我想使用 PIG 执行一些日期操作，但我想像这样存储日期和时间1999-01-01T12:08:56(我检查了这个链接):http://docs.oracle.com/javase/6/docs/api/java/text/SimpleDateFormat.html 我想 ..

发布时间：2021-11-12 04:18:32 apache-pig 其他开发

加载带有冒号的标签时出现猪 xmlloader 错误

我一直在使用 Pig 和 XMLLOADER 来加载 xml 文件.我一直在练习 BOOK 示例.但是，我需要处理的 XML 文件在标签中有冒号.当我运行一个脚本时，它说由于 ':' 无法处理它.(最后是确切的日志) 这是我的文件.为“:"大小写的目的而修改.BOOKT.xml Hadoop 权威指南汤姆·怀特 ..

发布时间：2021-11-12 04:18:26 regex xml apache-pig hortonworks-data-platform 其他开发

Unix Shell 脚本作为 Pig 和 Hive 的 UDF

对于 Apache Pig 和 Hive 中的用户定义，我们可以使用 unix shell 脚本而不是使用(Java 或 Python)吗? 如果可以，我们如何在 Hive Query 或 Pig 脚本中提及? 解决方案不，您不能将 unix shell 脚本用作 Pig UDF.Pig UDF 目前仅支持六种语言:Java、Jython、Python、JavaScript、Rub ..

发布时间：2021-11-12 04:18:24 shell unix hive apache-pig 服务器开发

PIG 中的 REGEX_EXTRACT 错误

我有一个包含 3 列的 CSV 文件:tweetid、tweet 和 Userid.但是在 tweet 列中有逗号分隔值. 即1 行数据: `396124437168537600`，“我真的希望我没有放弃我为你所做的一切，我对自己的自我感到非常生气，因为它甚至让它达到了它所做的."，savava143 我想单独提取所有 3 个字段，但是 REGEX_EXTRACT 给我一个错误代码: ..

发布时间：2021-11-12 04:18:21 apache-pig 其他开发

Apache Pig:动态列

我有一个数据集 (CSV)，它具有三个值列(v1、2 和 3)，其中包含一个值.值的描述以逗号分隔的字符串形式存储在 'keys' 列中. |v1 |v2 |v3 |钥匙 ||一个 |C |E |X,Y,Z | 使用 Pig 我想将此信息加载到 HBase 表中，其中列族是 C，列限定符是关键. |C:X |C:Y |C:Z ||一个 |C |E | 以前有没有人做过这件事并愿意分享这些知 ..

发布时间：2021-11-12 04:18:18 hbase apache-pig 其他开发

Hive 未检测时间戳格式

我有一个 PIG 脚本从 csv 加载和转换数据替换一些字符调用java程序(JAR)将csv中的日期时间从06/02/2015 18:52转换为2015-6-2 18:52 (mm/DD/yyyy to yyyy-MM-dd) 注册/home/cloudera/DateTime.jar;A = Load '/user/cloudera/Data.csv' using Pig ..

发布时间：2021-11-12 04:18:15 date hadoop hive apache-pig cloudera 其他开发

我可以在 Windows 上的 pig 0.13.0 版本中进入 grunt shell.当试图从 hdfs 加载一个简单的文件并转储它时.发生以下错误. 2014-10-13 17:29:45,167 [main] 错误 org.apache.pig.tools.grunt.Grunt - 错误 2998:未处理的内部错误.org.apache.hadoop.mapreduce.JobCont ..

发布时间：2021-11-12 04:18:12 windows hadoop apache-pig hdfs 其他开发

猪加入 java.lang.ClassCastException: java.lang.String 不能转换为 java.lang.Integer

我有两个文件，在 data1 1 31 25 1 在data2 2 32 4 然后我尝试将它们读入猪 d1 = LOAD 'data1';d2 = foreach d1 生成 flatten(STRSPLIT($0, ' +')) as (f1:int,f2:int);d3 = 加载 'data2' ;d4 = foreach d3 生成 flatten(STRSPLIT($0, ' + ..

发布时间：2021-11-12 04:18:09 apache-pig 其他开发

在hadoop中操作行数据以添加缺失的列

我有来自 IIS 的日志文件存储在 hdfs 中，但由于网络服务器配置，一些日志没有包含所有列或它们以不同的顺序出现.我想生成具有通用架构的文件，以便我可以在它们之上定义 Hive 表. 好的日志示例: #Fields: 日期时间 s-ip cs-method cs-uri-stem useragent2013-07-16 00:00:00 10.1.15.8 GET/common/vie ..

发布时间：2021-11-12 04:18:06 hadoop hive apache-pig 其他开发

有选择地将 iis 日志文件加载到 Hive 中

我刚刚开始在 cloudera 平台上使用 Hadoop/Pig/Hive，对如何有效加载数据进行查询有疑问. 我目前有大约 50GB 的 iis 日志加载到 hdfs 中，目录结构如下: /user/oi/raw_iis/Webserver1/Org/SubOrg/W3SVC1056242793//user/oi/raw_iis/Webserver2/Org/SubOrg/W3SVC ..

发布时间：2021-11-12 04:18:03 hadoop hive apache-pig hdfs 其他开发

使用 PIG 拉丁语计算百分比

我有一个包含两列的表格(代码:chararray，sp:double) 我想计算每个 sp 的百分比. 输入t001 60a002 75a003 34bb04 56英国广播公司 5 23cc2c 45ddc5 45 期望的输出: 代码 Perct001 17%a002 22%a003 10%bb04 16.5%英国广播公司 5 6%cc2c 13.3%ddc5 13.3% 我试过这样 ..

发布时间：2021-11-12 04:18:00 apache-pig 其他开发

Apache PIG - 仅从时间戳获取日期

我有以下代码: Data = load '/user/cloudera/' using PigStorage('\t')作为( ID:字符数组，时间间隔:字符数组，代码:字符数组)；transf = foreach Source_Data 生成 (int) ID，ToString( ToDate((long) Time_Interval), 'yyyy-MM-dd hh:ss:mm') 作为时间 ..

发布时间：2021-11-12 04:17:57 date datetime apache-pig converter 其他开发

了解地图语法

我在理解 map 应该如何使用时遇到了一些问题. 按照这个教程我创建了一个包含以下文字: [open#apache][阿帕奇#hadoop] ，我能够毫无错误地加载该文件: a = 将 'data/file_name.txt' 加载为 (M:map []) 现在，我如何获取所有“值"的列表?即 (apache)(Hadoop) 此外，我刚刚开始学习 Pig，因此每个提示都会非常有 ..

发布时间：2021-11-12 04:17:54 apache-pig 其他开发

如何使用 PIG Loader 将带有 JSON 字符串作为每行一部分的平面文件处理为 CSV 文件?

我在 HDFS 中有一个文件 44,UK,{"names":{"name1":"John","name2":"marry","name3":"stuart"},"fruits":{"fruit1":"apple","fruit2":"orange"}},31-07-2016 91,INDIA,{"names":{"name1":"Ram","name2":"Sam"},"fruits" ..

发布时间：2021-11-12 04:17:51 csv apache-pig hdfs 其他开发

Apache PIG:获取星期几并相应地拆分

我需要在两个日期之间拆分日期，并从中忽略星期六和星期日.0.11.1 上的内置函数将有助于获取星期几，但如何确定是星期六还是星期日?任何人都知道吗?我的预期输出如下所述. 输入: 用户从日期至今拉吉 10/3/2013 10/8/2013 詹姆斯 10/4/2013 10/7/2013 等等. 预期输出: 拉吉 10/3/2013 拉吉 10/4/ ..

发布时间：2021-11-12 04:17:48 hadoop apache-pig 其他开发

CDH4 - 异常:java.lang.IncompatibleClassChangeError:

我在启动 pig 脚本时遇到了 Java 问题，似乎是某些依赖项或版本冲突，正在运行 Debian/Cloudera CDH4/Apache Pig java.lang.Exception: java.lang.IncompatibleClassChangeError: Found interface org.apache.hadoop.mapreduce.Counter, but class ..

发布时间：2021-11-12 04:17:45 java apache-pig cloudera Java开发

Apache Pig - 在相同关系上嵌套 FOREACH

我有许多袋子，我想计算袋子之间的成对相似性. sequences = FOREACH raw GENERATE gen_bag(logs); 关系描述如下: sequences: {t: (type: chararray, value:charray)} 相似度由 Python UDF 计算，该 UDF 将两个包作为参数.我试图对序列变量进行嵌套的 foreach，但我不能在同一关系上循环 ..

发布时间：2021-11-12 04:17:42 python hadoop mapreduce apache-pig Python

apache-pig相关内容