apache-pig 第2页 - IT屋-程序员软件开发技术分享社区

无法在单词之间拆分包含空格和制表符的字符数组字段.帮助我使用 Apache Pig 执行命令?

示例.txt 文件 2017-01-01 10:21:59 THURSDAY -39 3 乘车-旅行两小时2017-02-01 12:45:19 FRIDAY -55 8 搭火车-旅行一小时2017-03-01 11:35:49 SUNDAY -55 8 搭火车-旅行一小时一世.. 当我执行建议的命令时，它被分成三个字段. 当我执行以下操作时，它没有按预期工作. A = LOAD 'S ..

发布时间：2021-11-12 04:19:43 apache-pig 其他开发

在猪脚本中使用正则表达式从日志中提取字符串

我有日志数据，我想将每个信息提取到一个变量中以下是单行日志示例.{:id=>306, :name=>"bblite", :cpu=>{:quota=>4, :allocated=>4, :actual=>0}, :memory=>{:quota=>8192,:allocated=>8192, :actual=>8578}, :cluster_stats=>{"wc1104"=>{:cpu= ..

发布时间：2021-11-12 04:19:40 regex hadoop apache-pig 其他开发

删除“字符串表达式"的过程/代码是什么?从使用 Apache Pig 的文件?

A = load '/home/wrdtest.txt';B = foreach A generate flatten(TOKENIZE((chararray)$0)) as word;C = 按单词过滤 B != 'the';D = 按词组 C；E = foreach D 生成 COUNT(C) 作为计数，分组为单词；F = 按计数降序排列 E；将 F 存储到 '/tmp/sample_data ..

发布时间：2021-11-12 04:19:37 hadoop apache-pig 其他开发

PIG 中的 CASE 语句

我正在尝试根据几个条件从“地理编码"中提取“顶点代码": SUBSTRING(geocode,0,2) ---->代码00-51 ---->0170 ---->0361-78 ---->04否则---->00 现在必须将获得的“code"值与“geocode"值(前缀)连接，并再次与末尾的 00(后缀)连接以形成“vertex_code" 例如:geocode = 44556677 ..

发布时间：2021-11-12 04:19:34 hadoop apache-pig 其他开发

标量只能与 PIG 中的投影一起使用

标量只能与投影一起使用我在使用 foreach 时遇到此错误.我该如何解决此错误?我如何在 foreach 中使用 LIMIT ?请推荐一些提前致谢.. 编辑(Tichdroma):从评论中复制代码 A = LOAD 'part-r-00000';G = Group A by ($0,$2);Y = foreach G 生成 FLATTEN(group), FLATTEN($1);排序 ..

发布时间：2021-11-12 04:19:31 hadoop apache-pig 其他开发

Hadoop - 使用 PIG 加载 Hive 表

我想使用 Pig 加载 Hive 表.我认为我们可以通过 HCatLoader 做到这一点，但我使用 xml 文件来加载 pig.为此，我必须使用 XMLLoader.我可以使用两个选项在 Pig 中加载 XML 文件吗? 我正在使用我自己的 UDF 从 XML 文件中提取数据，一旦我们提取了所有数据，我必须将 Pig 数据加载到 Hive 表中. 我无法使用 HIVE 提取 XML ..

发布时间：2021-11-12 04:19:29 hadoop hive apache-pig hcatalog 其他开发

使用 Pig 对大型数据帧进行非规范化

我有一个大型 (21GB) 制表符分隔的表单数据框 DOCID_1 TERMID_1 TITLE_1 YEAR_1 AUTHOR_1DOCID_1 TERMID_2 TITLE_1 YEAR_1 AUTHOR_1...DOCID_n TERMID_n TITLE_n YEAR_n AUTHOR_n 也就是说，一个 (DOCID, TERMID) 对将始终唯一标识一行.我需要的是一个数据框，其中 ..

发布时间：2021-11-12 04:19:25 apache-pig 其他开发

在本地或 mapreduce 模式下运行 pig 时遇到问题

我的 Ubuntu VM 上已经运行了 Hadoop 1.2，该 VM 运行在 Windows 7 机器上.我最近在同一个 Ubuntu VM 上安装了 Pig 0.12.0.我已经从 apache 网站下载了 pig-0.12.0.tar.gz.我已经正确设置了所有变量，例如 JAVA_HOME、HADOOP_HOME、PIG_HOME 变量.当我尝试在本地模式下启动 pig 时，我看到的是: ..

发布时间：2021-11-12 04:19:23 hadoop apache-pig 其他开发

仅使用 PigLatin 在 Pig 中加载具有不同分隔符的非结构化数据

您好，我正在尝试仅使用 PigLatin 将以下数据(包括不同的分隔符并且是非结构化的)加载到 Pig 中，而不使用即 Java 准备数据. 输入: 1234 #one,#two,#three第5679章第1234章输出我要查找的内容: 1234 #one1234#二1234#三5678#一5678#二第1234章有什么想法吗?这在猪中甚至可能吗?非常感谢提前！解决方案 ..

发布时间：2021-11-12 04:19:20 apache-pig 其他开发

用于添加列的java udf

我正在编写 java udf 函数来通过比较位置列来添加密码.这是我的代码. import java.io.IOException;导入 org.apache.pig.EvalFunc;导入 org.apache.pig.data.Tuple;导入 org.apache.commons.lang3.StringUtils;公共类 MB_pincodechennai 扩展了 EvalFunc{私 ..

发布时间：2021-11-12 04:19:17 java apache-pig udf Java开发

通过 Apache Pig UDF 在 javascript 中读取文件

我在这里有一些(非常简化的)nodejs 代码: var fs = require('fs');var derpfile = String(fs.readFileSync('./derp.txt', 'utf-8'));var derps = derpfile.split( '\n' );for (var i = 0; i ..

发布时间：2021-11-12 04:19:13 javascript node.js hadoop apache-pig user-defined-functions 前端开发

如何解决设置协调器oozie中文件不存在的错误

设置协调器oozie时出现错误文件不存在的解决方法: 我在日志协调器中有错误: 猪日志文件转储: 后端错误信息错误:java.io.FileNotFoundException:文件不存在:/user/hdfs/jay/part-0.tmp 设置协调员: ..

发布时间：2021-11-12 04:19:10 hadoop apache-pig oozie-coordinator 其他开发

hadoop pig 加入任何匹配的元组值

我是 Pig 的新手，并试图用它来处理数据集.我有一组看起来像的记录 id 元素--------------1 ["a","b","c"]2 ["a","f","g"]3 ["f","g","h"] 这个想法是我想创建具有任何重叠元素的元素元组.如果元素只是一个项目而不是数组，我可以做一个简单的连接: A = LOAD 'mydata' ...B = FOREACH A GENERATE ..

发布时间：2021-11-12 04:19:07 arrays join hadoop apache-pig 其他开发

如何使用加载命令在猪的文件夹中加载多个文本文件?

我一直在用它来加载一个文本文件 A = LOAD '1try.txt' USING PigStorage(' ') as (c1:chararray,c2:chararray,c3:chararray,c4:chararray); 解决方案你可以使用文件夹名代替文件名，像这样: A = LOAD 'myfolder' USING PigStorage(' ')AS (c1:chararr ..

发布时间：2021-11-12 04:19:04 hadoop apache-pig 其他开发

通过猪脚本传递参数时出错

当我尝试使用属性文件调用 pig 脚本时，出现错误: pig -P/mapr/ANALYTICS/apps/PigTest/pig.properties -f pig_if_condition.pig SLF4J:类路径包含多个 SLF4J 绑定.SLF4J:在 [jar:file:/opt/mapr/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/St ..

发布时间：2021-11-12 04:19:02 hadoop apache-pig 其他开发

Apache PIG - 如何削减小数点后的数字

有没有可能在浮点数或双数的小数点后切割某个区域?例如:结果是 2.67894 => 我想要 2.6 作为结果(而不是四舍五入时的 2.7). 解决方案为此编写一个 UDF(用户定义函数). 一个非常简单的python UDF (numformat.py): @outputSchema('value:double')定义格式(数据):返回回合(数据，1) (当然，您可以对 UDF ..

发布时间：2021-11-12 04:18:59 hadoop apache-pig hadoop2 其他开发

在 Pig latin 中，无法将数据加载为多个元组，请指教

我无法将数据加载为多个元组，不确定自己在做什么，请指教. data.txtvineet 1 通过政府hisham 2 pass Prvtraj 3 失败 Prvt 我想将它们加载为 2 个元组. A = LOAD 'data.txt' USING PigStorage('\t') AS (T1:tuple(name:bytearray, no:int), T2:tuple(result:ch ..

发布时间：2021-11-12 04:18:56 apache-pig 其他开发

使用 Pig 条件运算符来实现或?

假设我有一个表 f，由以下列组成: a, b0, 10, 00, 00, 11, 01, 1 我想创建一个新列 c，它等于 a |湾我尝试了以下方法: f = foreach f 生成 a, b, ((a or b) == 1) ?1 : 0 作为 c; 但收到以下错误: ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1200:Pi ..

发布时间：2021-11-12 04:18:53 apache-pig conditional-statements conditional-operator 其他开发

Pig - 使用三元条件根据不同条件进行过滤

我正在尝试使用 PIG 根据星期几使用三元条件过滤关系，但它给了我一个我还没有看到的错误. 这就是我想要做的: C = filter B by (DaysBetween(CurrentTime(),ToDate(0L)) % 7) == (long)0 ?B.interval == 'daily' : B.interval == 'weekly'; 返回的错误是: ERROR 1200 ..

发布时间：2021-11-12 04:18:47 filter apache-pig 其他开发

Pig - 对组的 RANK 操作

我是 Pig 的新手，我正在尝试在组内执行 RANK 操作.我的数据看起来像姓名地址日期地址1 20150101地址20150130B 地址 1 20140325B 地址2 20140821B 地址3 20150102 我想要这样的输出姓名地址日期排名地址1 20150101 1地址2 20150130 2B 地址 1 20140325 1B 地址2 20140821 2B 地址 ..

发布时间：2021-11-12 04:18:44 apache-pig 其他开发

apache-pig相关内容