apache-pig相关内容

无法在单词之间拆分包含空格和制表符的字符数组字段.帮助我使用 Apache Pig 执行命令?

示例.txt 文件 2017-01-01 10:21:59 THURSDAY -39 3 乘车-旅行两小时2017-02-01 12:45:19 FRIDAY -55 8 搭火车-旅行一小时2017-03-01 11:35:49 SUNDAY -55 8 搭火车-旅行一小时一世.. 当我执行建议的命令时,它被分成三个字段. 当我执行以下操作时,它没有按预期工作. A = LOAD 'S ..
发布时间:2021-11-12 04:19:43 其他开发

PIG 中的 CASE 语句

我正在尝试根据几个条件从“地理编码"中提取“顶点代码": SUBSTRING(geocode,0,2) ---->代码00-51 ---->0170 ---->0361-78 ---->04否则---->00 现在必须将获得的“code"值与“geocode"值(前缀)连接,并再次与末尾的 00(后缀)连接以形成“vertex_code" 例如:geocode = 44556677 ..
发布时间:2021-11-12 04:19:34 其他开发

标量只能与 PIG 中的投影一起使用

标量只能与投影一起使用 我在使用 foreach 时遇到此错误.我该如何解决此错误?我如何在 foreach 中使用 LIMIT ?请推荐一些提前致谢.. 编辑(Tichdroma):从评论中复制代码 A = LOAD 'part-r-00000';G = Group A by ($0,$2);Y = foreach G 生成 FLATTEN(group), FLATTEN($1);排序 ..
发布时间:2021-11-12 04:19:31 其他开发

Hadoop - 使用 PIG 加载 Hive 表

我想使用 Pig 加载 Hive 表.我认为我们可以通过 HCatLoader 做到这一点,但我使用 xml 文件来加载 pig.为此,我必须使用 XMLLoader.我可以使用两个选项在 Pig 中加载 XML 文件吗? 我正在使用我自己的 UDF 从 XML 文件中提取数据,一旦我们提取了所有数据,我必须将 Pig 数据加载到 Hive 表中. 我无法使用 HIVE 提取 XML ..
发布时间:2021-11-12 04:19:29 其他开发

使用 Pig 对大型数据帧进行非规范化

我有一个大型 (21GB) 制表符分隔的表单数据框 DOCID_1 TERMID_1 TITLE_1 YEAR_1 AUTHOR_1DOCID_1 TERMID_2 TITLE_1 YEAR_1 AUTHOR_1...DOCID_n TERMID_n TITLE_n YEAR_n AUTHOR_n 也就是说,一个 (DOCID, TERMID) 对将始终唯一标识一行.我需要的是一个数据框,其中 ..
发布时间:2021-11-12 04:19:25 其他开发

在本地或 mapreduce 模式下运行 pig 时遇到问题

我的 Ubuntu VM 上已经运行了 Hadoop 1.2,该 VM 运行在 Windows 7 机器上.我最近在同一个 Ubuntu VM 上安装了 Pig 0.12.0.我已经从 apache 网站下载了 pig-0.12.0.tar.gz.我已经正确设置了所有变量,例如 JAVA_HOME、HADOOP_HOME、PIG_HOME 变量.当我尝试在本地模式下启动 pig 时,我看到的是: ..
发布时间:2021-11-12 04:19:23 其他开发

仅使用 PigLatin 在 Pig 中加载具有不同分隔符的非结构化数据

您好,我正在尝试仅使用 PigLatin 将以下数据(包括不同的分隔符并且是非结构化的)加载到 Pig 中,而不使用即 Java 准备数据. 输入: 1234 #one,#two,#three第5679章第1234章 输出我要查找的内容: 1234 #one1234#二1234#三5678#一5678#二第1234章 有什么想法吗?这在猪中甚至可能吗?非常感谢提前! 解决方案 ..
发布时间:2021-11-12 04:19:20 其他开发

用于添加列的java udf

我正在编写 java udf 函数来通过比较位置列来添加密码.这是我的代码. import java.io.IOException;导入 org.apache.pig.EvalFunc;导入 org.apache.pig.data.Tuple;导入 org.apache.commons.lang3.StringUtils;公共类 MB_pincodechennai 扩展了 EvalFunc{私 ..
发布时间:2021-11-12 04:19:17 Java开发

hadoop pig 加入任何匹配的元组值

我是 Pig 的新手,并试图用它来处理数据集.我有一组看起来像 的记录 id 元素--------------1 ["a","b","c"]2 ["a","f","g"]3 ["f","g","h"] 这个想法是我想创建具有任何重叠元素的元素元组.如果元素只是一个项目而不是数组,我可以做一个简单的连接: A = LOAD 'mydata' ...B = FOREACH A GENERATE ..
发布时间:2021-11-12 04:19:07 其他开发

通过猪脚本传递参数时出错

当我尝试使用属性文件调用 pig 脚本时,出现错误: pig -P/mapr/ANALYTICS/apps/PigTest/pig.properties -f pig_if_condition.pig SLF4J:类路径包含多个 SLF4J 绑定.SLF4J:在 [jar:file:/opt/mapr/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/St ..
发布时间:2021-11-12 04:19:02 其他开发

Apache PIG - 如何削减小数点后的数字

有没有可能在浮点数或双数的小数点后切割某个区域?例如:结果是 2.67894 => 我想要 2.6 作为结果(而不是四舍五入时的 2.7). 解决方案 为此编写一个 UDF(用户定义函数). 一个非常简单的python UDF (numformat.py): @outputSchema('value:double')定义格式(数据):返回回合(数据,1) (当然,您可以对 UDF ..
发布时间:2021-11-12 04:18:59 其他开发

Pig - 使用三元条件根据不同条件进行过滤

我正在尝试使用 PIG 根据星期几使用三元条件过滤关系,但它给了我一个我还没有看到的错误. 这就是我想要做的: C = filter B by (DaysBetween(CurrentTime(),ToDate(0L)) % 7) == (long)0 ?B.interval == 'daily' : B.interval == 'weekly'; 返回的错误是: ERROR 1200 ..
发布时间:2021-11-12 04:18:47 其他开发

Pig - 对组的 RANK 操作

我是 Pig 的新手,我正在尝试在组内执行 RANK 操作.我的数据看起来像 姓名 地址 日期地址1 20150101地址20150130B 地址 1 20140325B 地址2 20140821B 地址3 20150102 我想要这样的输出 姓名地址日期排名地址1 20150101 1地址2 20150130 2B 地址 1 20140325 1B 地址2 20140821 2B 地址 ..
发布时间:2021-11-12 04:18:44 其他开发