apache-pig相关内容

Pig ORDER 命令失败

我正在尝试分析 apache 日志,目标是找出所有用户代理及其使用百分比.当结果包含每个用户代理、计数和百分比时,以下程序可以正常工作.当尝试根据最常用的排序时,程序在最后一行失败.有人可以帮忙吗? logs = LOAD '$LOGS' USING ApacheCombinedLogLoader AS (remoteHost, hyphen, user, time, method, uri, ..
发布时间:2021-11-12 04:17:39 其他开发

猪舍入小数到两位

关于如何在 Apache Pig 中将 Float 数据类型四舍五入到小数点后两位的任何想法? 例如: test = FOREACH (JOIN Load by (Op1, Op2), Load2 by (Op3,Op4)) GENERATELoad2::Number2 *Load::Number1 作为输出 字段 Number1 和 Number2 是浮点数.我当前的计算给了我 5 ..
发布时间:2021-11-12 04:17:36 其他开发

猪初学者的例子【意外错误】

我是 Linux 和 Apache Pig 的新手.我正在按照本教程学习猪:http://salsahpc.indiana.edu/ScienceCloud/pig_word_count_tutorial.htm 这是一个基本的字数统计示例.数据文件'input.txt'和程序文件'wordcount.pig'在Wordcount包中,在网站上有链接. 我已经在本地机器上下载了 Pig ..
发布时间:2021-11-12 04:17:28 其他开发

Pig - 简单加载异常

我刚刚开始学习 pig 并尝试用它做一些事情,所以我进入 pig 控制台并简单地输入 a = load 'sample_data.csv'; (我有一个名为 sample_data.csv).我收到以下异常: Pig Stack Trace---------------错误 2998:未处理的内部错误.姓名java.lang.NoSuchFieldError: 名称在 org.apache.pi ..
发布时间:2021-11-12 04:17:24 其他开发

无法在猪中加载 avro 架构

我有一个 avro 模式,我正在用该模式将数据写入 AvroSequenceFileOutputFormat.我查看了文件,可以确认该模式可供读取.我调用函数 avro = 使用 AvroStorage() 加载“part-r-00000.avro"; 它给了我错误信息 错误 org.apache.pig.tools.grunt.Grunt - 错误 2245:无法从 loadFunc or ..
发布时间:2021-11-12 04:17:21 其他开发

Hadoop Pig XPath返回空属性值

我使用的是 cloudera Hadoop 2.6,pig 0.15 版本. 我正在尝试从 xml 文件中提取数据.您可以在下面看到部分 xml 文件. 输出附件 我可以使用 XPath() 函数转储节点值但不能转储属性值.您可以看到下面的代码返回空元组而不是 pro ..
发布时间:2021-11-12 04:17:18 其他开发

在猪中如何连接袋子中的所有物品?

我有一个像 这样的结构 {A, {1,2,3}}{B, {4,5,6}} 我想要的是 {A, "1|2|3"}{B, "4|5|6"} 我查看了 CONCAT 运算符,但这并不能帮助我实现我想要的. 解决方案 使用 Python UDF 最容易实现这一点. myudfs.py #!/usr/bin/python@outputSchema('连接:字符串')def co ..
发布时间:2021-11-12 04:17:15 其他开发

在 Pig 中将多个地图组合在一起

我第一次使用猪.我已经得到了我想要的答案,但采用了奇怪的嵌套格式: {(price,49),(manages,"1d74426f-2b0a-4777-ac1b-042268cab09c")} 我希望输出是一个单一的地图,没有任何包装: [price#49, manages#"1d74426f-2b0a-4777-ac1b-042268cab09c"] 我已经设法使用 TOMAP 做到了这一 ..
发布时间:2021-11-12 04:17:07 其他开发

Pig 0.7.0 错误 2118:无法在 Hadoop 1.2.1 上创建输入拆分

我从 map reduce 程序得到了输出文件(存储在 HDFS 上).现在我正在尝试使用 PIG 0.7.0 加载该文件. 我收到以下错误.我试过将此文件复制到本地机器并在本地模式下运行 pig ,效果很好.但我想跳过这一步,让它在地图缩减模式下工作. 我尝试过的选项: LOAD 'file://log/part-00000',加载 '/log/part-00000',加载 'hd ..
发布时间:2021-11-12 04:17:03 其他开发

猪性能测量

我写了一个 Pig 脚本,想在 Hadoop 集群上执行它.我如何衡量总处理时间?有什么命令可以让我得到从开始到结束的处理时间吗? 解决方案 EDIT: 添加了 time 替代方案. 要知道需要多长时间(以秒为单位): time pig 另一种方法: d1=$(date +%s)猪d2=$(日期+%s)echo "$d2 - $d1" |公元前 或者,在一行中: ..
发布时间:2021-11-12 04:16:57 其他开发

PIG 存储其关系的确切位置

我对以下两个陈述感到非常困惑.1) LOAD 语句存储此关系的确切位置(学生),是在 hdfs/PIG 内部存储/本地机器上吗??? 示例:student = LOAD 'HDFS:/student' using PigStorage(','); 2) 如果我试图甩掉学生;那么显示结果需要将近 30-40 秒,而 LOAD 语句需要 1-2 秒......如果我们试图从猪内部存储中检索数据,那 ..
发布时间:2021-11-12 04:16:54 其他开发

Pig - 删除换行、返回和制表符

我正在尝试从 Pig 的列中删除字符:\n、\t 和 \r,但我得到了错误的输出. 这是我正在做的: qr_1 = LOAD 'hdfs://localhost:9000/sample.csv' USING PigStorage(',') as (Id:int,PostTypeId:int,AcceptedAnswerId:int,ParentId:int,CreationDate:cha ..
发布时间:2021-11-12 04:16:51 其他开发

Pig - 获取最大数量

样本数据 DATE WindDirection1/1/2000 西南1/2/2000 西南1/3/2000 西南1/4/2000 西北1/5/2000 西北 下面的问题 每一天都是独一无二的,风向也不是唯一的,所以现在我们正在尝试获取最常见风向的 COUNT 我的查询是 weather_data = FOREACH Weather GENERATE $16 AS Date, $9 ..
发布时间:2021-11-12 04:16:49 其他开发

尝试执行 Pig Latin 脚本时出现异常

我正在自己学习 Pig,在尝试探索数据集时遇到了异常.脚本中有什么问题以及原因: movies_data = LOAD '/movies_data' using PigStorage(',') as (id:chararray,title:chararray,year:int,rating:double,duration:double);高 = 按评分过滤电影数据 >4.0;high_rated ..
发布时间:2021-11-12 04:16:46 其他开发

由于 hbase 客户端 jar 中的硬编码 managed=true,无法连接到 Bigtable 以扫描 HTable 数据

我正在研究自定义加载函数,以使用 Dataproc 上的 Pig 从 Bigtable 加载数据.我使用从 Dataproc 获取的以下 jar 文件列表编译我的 java 代码.当我运行以下 Pig 脚本时,它在尝试与 Bigtable 建立连接时失败. 错误信息是: Bigtable 不支持托管连接. 问题: 是否有解决此问题的方法? 这是一个已知问题吗?是否有修复或调整计划 ..

按不同字段连接多个关系

假设我有三个文件 data1、data2 和 assocs: $ cat data1键 1, foo键 2,条$猫数据2钥匙3,胸罩key4,froz$猫协会键 1,键 3钥匙2,钥匙4 我通过 加载这些文件 $ pig -b -p debug=WARN -x local警告:$HADOOP_HOME 已弃用.Apache Pig 版本 0.10.0 (r1328203) 编译于 2012 ..
发布时间:2021-11-12 04:16:39 其他开发