apache-pig相关内容
示例.txt 文件 2017-01-01 10:21:59 THURSDAY -39 3 乘车-旅行两小时2017-02-01 12:45:19 FRIDAY -55 8 搭火车-旅行一小时2017-03-01 11:35:49 SUNDAY -55 8 搭火车-旅行一小时一世.. 当我执行建议的命令时,它被分成三个字段. 当我执行以下操作时,它没有按预期工作. A = LOAD 'S
..
我有日志数据,我想将每个信息提取到一个变量中 以下是单行日志示例.{:id=>306, :name=>"bblite", :cpu=>{:quota=>4, :allocated=>4, :actual=>0}, :memory=>{:quota=>8192,:allocated=>8192, :actual=>8578}, :cluster_stats=>{"wc1104"=>{:cpu=
..
A = load '/home/wrdtest.txt';B = foreach A generate flatten(TOKENIZE((chararray)$0)) as word;C = 按单词过滤 B != 'the';D = 按词组 C;E = foreach D 生成 COUNT(C) 作为计数,分组为单词;F = 按计数降序排列 E;将 F 存储到 '/tmp/sample_data
..
我正在尝试根据几个条件从“地理编码"中提取“顶点代码": SUBSTRING(geocode,0,2) ---->代码00-51 ---->0170 ---->0361-78 ---->04否则---->00 现在必须将获得的“code"值与“geocode"值(前缀)连接,并再次与末尾的 00(后缀)连接以形成“vertex_code" 例如:geocode = 44556677
..
标量只能与投影一起使用 我在使用 foreach 时遇到此错误.我该如何解决此错误?我如何在 foreach 中使用 LIMIT ?请推荐一些提前致谢.. 编辑(Tichdroma):从评论中复制代码 A = LOAD 'part-r-00000';G = Group A by ($0,$2);Y = foreach G 生成 FLATTEN(group), FLATTEN($1);排序
..
我想使用 Pig 加载 Hive 表.我认为我们可以通过 HCatLoader 做到这一点,但我使用 xml 文件来加载 pig.为此,我必须使用 XMLLoader.我可以使用两个选项在 Pig 中加载 XML 文件吗? 我正在使用我自己的 UDF 从 XML 文件中提取数据,一旦我们提取了所有数据,我必须将 Pig 数据加载到 Hive 表中. 我无法使用 HIVE 提取 XML
..
我有一个大型 (21GB) 制表符分隔的表单数据框 DOCID_1 TERMID_1 TITLE_1 YEAR_1 AUTHOR_1DOCID_1 TERMID_2 TITLE_1 YEAR_1 AUTHOR_1...DOCID_n TERMID_n TITLE_n YEAR_n AUTHOR_n 也就是说,一个 (DOCID, TERMID) 对将始终唯一标识一行.我需要的是一个数据框,其中
..
我的 Ubuntu VM 上已经运行了 Hadoop 1.2,该 VM 运行在 Windows 7 机器上.我最近在同一个 Ubuntu VM 上安装了 Pig 0.12.0.我已经从 apache 网站下载了 pig-0.12.0.tar.gz.我已经正确设置了所有变量,例如 JAVA_HOME、HADOOP_HOME、PIG_HOME 变量.当我尝试在本地模式下启动 pig 时,我看到的是:
..
您好,我正在尝试仅使用 PigLatin 将以下数据(包括不同的分隔符并且是非结构化的)加载到 Pig 中,而不使用即 Java 准备数据. 输入: 1234 #one,#two,#three第5679章第1234章 输出我要查找的内容: 1234 #one1234#二1234#三5678#一5678#二第1234章 有什么想法吗?这在猪中甚至可能吗?非常感谢提前! 解决方案
..
我正在编写 java udf 函数来通过比较位置列来添加密码.这是我的代码. import java.io.IOException;导入 org.apache.pig.EvalFunc;导入 org.apache.pig.data.Tuple;导入 org.apache.commons.lang3.StringUtils;公共类 MB_pincodechennai 扩展了 EvalFunc{私
..
我在这里有一些(非常简化的)nodejs 代码: var fs = require('fs');var derpfile = String(fs.readFileSync('./derp.txt', 'utf-8'));var derps = derpfile.split( '\n' );for (var i = 0; i
..
设置协调器oozie时出现错误文件不存在的解决方法: 我在日志协调器中有错误: 猪日志文件转储: 后端错误信息 错误:java.io.FileNotFoundException:文件不存在:/user/hdfs/jay/part-0.tmp 设置协调员:
..
我是 Pig 的新手,并试图用它来处理数据集.我有一组看起来像 的记录 id 元素--------------1 ["a","b","c"]2 ["a","f","g"]3 ["f","g","h"] 这个想法是我想创建具有任何重叠元素的元素元组.如果元素只是一个项目而不是数组,我可以做一个简单的连接: A = LOAD 'mydata' ...B = FOREACH A GENERATE
..
我一直在用它来加载一个文本文件 A = LOAD '1try.txt' USING PigStorage(' ') as (c1:chararray,c2:chararray,c3:chararray,c4:chararray); 解决方案 你可以使用文件夹名代替文件名,像这样: A = LOAD 'myfolder' USING PigStorage(' ')AS (c1:chararr
..
当我尝试使用属性文件调用 pig 脚本时,出现错误: pig -P/mapr/ANALYTICS/apps/PigTest/pig.properties -f pig_if_condition.pig SLF4J:类路径包含多个 SLF4J 绑定.SLF4J:在 [jar:file:/opt/mapr/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/St
..
有没有可能在浮点数或双数的小数点后切割某个区域?例如:结果是 2.67894 => 我想要 2.6 作为结果(而不是四舍五入时的 2.7). 解决方案 为此编写一个 UDF(用户定义函数). 一个非常简单的python UDF (numformat.py): @outputSchema('value:double')定义格式(数据):返回回合(数据,1) (当然,您可以对 UDF
..
我无法将数据加载为多个元组,不确定自己在做什么,请指教. data.txtvineet 1 通过政府hisham 2 pass Prvtraj 3 失败 Prvt 我想将它们加载为 2 个元组. A = LOAD 'data.txt' USING PigStorage('\t') AS (T1:tuple(name:bytearray, no:int), T2:tuple(result:ch
..
假设我有一个表 f,由以下列组成: a, b0, 10, 00, 00, 11, 01, 1 我想创建一个新列 c,它等于 a |湾 我尝试了以下方法: f = foreach f 生成 a, b, ((a or b) == 1) ?1 : 0 作为 c; 但收到以下错误: ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1200:Pi
..
我正在尝试使用 PIG 根据星期几使用三元条件过滤关系,但它给了我一个我还没有看到的错误. 这就是我想要做的: C = filter B by (DaysBetween(CurrentTime(),ToDate(0L)) % 7) == (long)0 ?B.interval == 'daily' : B.interval == 'weekly'; 返回的错误是: ERROR 1200
..
我是 Pig 的新手,我正在尝试在组内执行 RANK 操作.我的数据看起来像 姓名 地址 日期地址1 20150101地址20150130B 地址 1 20140325B 地址2 20140821B 地址3 20150102 我想要这样的输出 姓名地址日期排名地址1 20150101 1地址2 20150130 2B 地址 1 20140325 1B 地址2 20140821 2B 地址
..