apache-pig相关内容

如何在PIG中将字符串转换为元组

我有一个从参数-file.jon获得的字符串,该参数可以使用$param访问 $param='abc|cde|ghi' 我需要循环访问此参数变量 我尝试过的代码 以下代码的错误为“输入u0027.u0027不匹配,需要Right_Paren” A= STRSPLIT($param,'\x7c'); B=FOREACH A GENERATE 1 STORE A into ..
发布时间:2022-08-08 22:38:06 其他开发

基于子串匹配的蜂窝/猪连接

我有一个要求,我需要使用人名加入twets表,比如过滤包含任何人名的tweet。我有以下数据: 推文表:(7000万条记录存储为一个配置单元表) id 推文 1 克里斯蒂亚诺·罗纳尔多有史以来最伟大的 2 布拉德·皮特电影 3 无人名的随机推文 人名:(160万个姓名以.tsv文件形式存储在HDFS上) id PERSON_NAME 1 克里斯蒂亚诺·罗纳尔多 2 ..
发布时间:2022-03-01 18:34:57 其他开发

在地图减少中计算中位数

有人可以举例说明 map reduce 中中位数/分位数的计算吗? 我对 Datafu 的中位数的理解是,'n' 个映射器对数据并将数据发送到负责排序的“1"reducer来自 n 个映射器的所有数据并找到中值(中间值)我的理解正确吗?, 如果是这样,这种方法是否适用于大量数据,我可以清楚地看到一个减速器努力完成最后的任务.谢谢 解决方案 试图在一个系列中找到中位数(中间数)将 ..
发布时间:2022-01-13 23:23:19 其他开发

在 spark join 中,表顺序和猪一样重要吗?

有关Spark - 加入 2 PairRDD 元素 在 pig 中进行常规 join 时,join 中的最后一个表不会被带入内存而是通过流式传输,因此如果 A 每个键的基数较小而 B 的基数较大,则执行 join 明显更好A、B比join A by B,从性能角度(避免溢出和OOM) spark 中有类似的概念吗?我没有看到任何这样的建议,想知道这怎么可能?在我看来,实现与 pig 中 ..
发布时间:2021-11-28 21:41:48 其他开发

在猪中读取 csv,csv 文件包含带引号的逗号

所以我的数据看起来像这样 asdf, asdf, "adsf,qwef", asdf 当我使用 Pig 读取数据时 PigStorage(',') 它将“adsf,qwef"存储为两个数据,并像这样存储 { "adsf } { qwef" } 我希望将引号视为单个数据. 我该怎么办? 我正在尝试编写一个pigscript来做到这一点. 解决方案 您应该使用 CSVL ..
发布时间:2021-11-28 21:41:37 其他开发

依靠多列分组并获取原始数据集

2,玉米片,常规,General Mills,123、玉米片、混合坚果、柱子、144、巧克力糖浆、Regular、Hersheys、55、巧克力糖浆、无高果糖、好时、86、巧克力糖浆,Regular,Ghirardeli,67、巧克力糖浆、草莓味、吉拉德利、7 脚本 data_grp = GROUP data BY (item, type);data_cnt = FOREACH data_gr ..
发布时间:2021-11-12 04:20:27 其他开发

如何找到路径流并使用猪或蜂巢对它们进行排名?

以下是我的用例的示例. 解决方案 可以参考 这个问题 OP 提出了类似的问题.如果我正确理解您的问题,您希望从路径中删除重复项,但前提是它们彼此相邻.所以 1 ->1 ->2 ->1 会变成 1 ->2 ->1.如果这是正确的,那么您不能只是分组和 distinct(我相信您已经注意到),因为它会删除 所有 重复项.一个简单的解决方案是编写一个 UDF 来删除这些重复项,同时保留用户的不同 ..
发布时间:2021-11-12 04:20:24 Python

在pig中存储解压后的数据

我的文件格式是 - ({"food":"Tacos", "person":"Alice", "amount":3})({“食物":“番茄汤",“人":“莎拉",“数量":2})({“食物":“烤奶酪",“人":“亚历克斯",“数量":5}) 我尝试使用以下代码存储它 STORE STOCK_AINTO 'default.ash_json_pigtest'使用 HCatStorer(); ..
发布时间:2021-11-12 04:20:21 其他开发

Apache Pig-错误 6007:“无法检查名称"信息

环境:hadoop 1.0.3、hbase 0.94.1、pig 0.11.1 我在 Java 程序中运行 Pig 脚本,有时会出现以下错误,但并非总是如此.该程序所做的是从 hdfs 加载文件,进行一些转换并将其存储到 hbase 中.我的程序是多线程的.而且我已经使 PigServer 线程安全,并且在 hdfs 中创建了“/user/root"目录.这是程序的片段和我得到的例外.请指教 ..
发布时间:2021-11-12 04:20:18 Java开发

使用 Pig 对大型数据帧进行非规范化

我有一个大型 (21GB) 制表符分隔的表单数据框 DOCID_1 TERMID_1 TITLE_1 YEAR_1 AUTHOR_1DOCID_1 TERMID_2 TITLE_1 YEAR_1 AUTHOR_1...DOCID_n TERMID_n TITLE_n YEAR_n AUTHOR_n 也就是说,一个 (DOCID, TERMID) 对将始终唯一标识一行.我需要的是一个数据框,其中 ..
发布时间:2021-11-12 04:20:15 其他开发

标量只能与 PIG 中的投影一起使用

标量只能与投影一起使用 我在使用 foreach 时遇到此错误.我该如何解决此错误?我如何在 foreach 中使用 LIMIT ?请推荐一些提前致谢.. 编辑(Tichdroma):从评论中复制代码 A = LOAD 'part-r-00000';G = Group A by ($0,$2);Y = foreach G 生成 FLATTEN(group), FLATTEN($1);排序 ..
发布时间:2021-11-12 04:20:12 其他开发

PIG 中的 NOT IN 子句

我正在尝试 select * from A where A.ID NOT IN (select id from B) (in sql)sourcenew = LOAD 'hdfs://HADOOPMASTER:54310/DVTTest/Source.txt' USING PigStorage(',') as (ID:int,Name:chararray,FirstName:chararray, ..
发布时间:2021-11-12 04:20:04 其他开发

在 Pig 中为元组中的所有字段应用 TRIM()

我正在加载一个包含 56 个字段的 CSV 文件.我想在 Pig 中为元组中的所有字段应用 TRIM() 函数. 我试过了: B = FOREACH A GENERATE TRIM(*); 但它失败并出现以下错误- 错误 org.apache.pig.tools.grunt.Grunt - 错误 1045:无法推断匹配org.apache.pig.builtin.TRIM 的函数为 ..
发布时间:2021-11-12 04:20:01 其他开发

在 AWS EMR 上运行的 Pig UDF 带有 java.lang.NoClassDefFoundError: org/apache/pig/LoadFunc

我正在开发一个应用程序,尝试读取存储在 S3 bucks 中的日志文件并使用 Elastic MapReduce 对其进行解析.当前日志文件具有以下格式 -------------------------------颜色=黑色日期=1349719200PID=23898程序=JavaEOE-------------------------------颜色=白色日期=1349719234PID=2 ..
发布时间:2021-11-12 04:19:58 其他开发