apache-pig相关内容

Pig:Hadoop 作业失败

我有一个从 csv 文件查询数据的 pig 脚本. 该脚本已在本地使用小型和大型 .csv 文件进行测试. 在小集群中:它从处理脚本开始,并在完成 40% 的调用后失败 错误只是,无法从“文件路径"读取数据 我的推断是,脚本可以读取文件,但是连接中断,消息丢失 但我只收到上述错误. 解决方案 一般问题的答案是更改配置文件中的错误级别,将这两行添加到 mapre ..
发布时间:2021-11-12 04:14:30 Java开发

通过连接两个数据集求平均值

我有两个数据集, EmployeeDetail(数据集1):-ID姓名性别地点SalaryDetail(数据集2):-ID薪水 我需要同时计算每个地点的男性和女性的平均工资.所以我尝试了以下代码. EmpDetail = 将“/Users/bmohanty6/EmployeeDetails/EmpDetail.txt"加载为(id:int, name:chararray, 性别:charar ..
发布时间:2021-11-12 04:14:27 其他开发

计算猪查询中的百分比

我有一个包含两列的表格(col1:string, col2:boolean) 假设 col1 = "aaa" 对于 col1 = "aaa",有很多 True/False 值col2 我想计算 col1 (aaa) 的 True 值的百分比 输入: aaa T啊啊啊啊啊啊啊啊bbtbbt抄送抄送 输出 COL1 TOTAL_ROWS_IN_INPUT_TABLE PERCENTA ..
发布时间:2021-11-12 04:14:25 其他开发

在猪图中查找变量键

我正在尝试使用 pig 将文本分解为小写单词,然后在地图中查找每个单词.这是我在 map.txt 中的示例地图(只有 1 行长): [this#1.9,is#2.5my#3.3,vocabulary#4.1] 我是这样加载的: M = LOAD 'mapping.txt' USING PigStorage AS (mp: map[float]); 效果很好.然后我执行以下操作以加载文本并将 ..
发布时间:2021-11-12 04:14:22 其他开发

Hadoop-3.0.0 与旧版本的 Hive、Pig、Sqoop 和 Spark 的兼容性如何

我们目前在 10 节点集群上使用 hadoop-2.8.0,并计划升级到最新的 hadoop-3.0.0. 我想知道如果我们将 hadoop-3.0.0 与旧版本的 Spark 和其他组件(例如 Hive、Pig 和 Sqoop)一起使用会不会有任何问题. 解决方案 最新Hive版本不支持Hadoop3.0,看来以后Hive可能会建立在Spark或其他计算引擎上. ..
发布时间:2021-11-12 04:14:19 其他开发

如何指定“pig-0.13.0-h2.jar"build.gradle 中的依赖?

为了在我的项目中指定一个 Maven 依赖项,我提供了一个 name、一个 group id 和一个 version.这对于我项目中的每个依赖项来说已经足够了,保存一个.Pig 在同一个工件中有多个 jar(不确定我是否有正确的命名法;我对 Maven 还是比较陌生),但我只需要一个. 具体来说,我需要pig-0.13.0-h2.jar.但是,当我提供依赖项 编译“org.apache.p ..
发布时间:2021-11-12 04:14:16 Java开发

避免单个行在 Pig 中的 ToDate 中出现异常

我有一个 CSV 文件的输入,我正在尝试用 Pig 处理它.在 csv 中,有一个日期列,其中包含某些行的损坏值.在我将 ToDate() 函数应用于 FOREACH...GENERATE 语句中的日期列之前,请向我建议一种机制来过滤掉那些损坏的行(具有损坏的日期列). 我的数据的示例格式是: A,21,12/1/2010 8:26 B,33,12/1/2010 8:26 C,42 ..
发布时间:2021-11-12 04:14:13 其他开发

如何在猪文件中使用 .jar

我有两个输入文件 smt.txt 和 smo.txt.jar 文件读取文本文件并根据 java 文件中描述的某些规则拆分数据.而pig文件通过做mapreduce将这些数据放入输出文件中. 注册'maprfs:///user/username/fl.jar';定义固定加载器 fl();mt = load 'maprfs:///user/username/smt.txt' using FixedL ..
发布时间:2021-11-12 04:14:10 Java开发

PigLatin 中的 STRSPLIT 和 REGEX_EXTRACT_ALL

我有以下文件: 文件----12-3 约翰福音 1215-1 山姆 122 文件以制表符(\t) 分隔.我将行作为 line:chararray 加载,因为我希望数据不会被拆分到各个字段中. 现在,我想将详细信息(12-3 和 5-1)提取并存储为单独的数据. 我正在尝试使用 STRSPLIT 和 REGEX_EXTRACT_ALL,但数据似乎不匹配. splitdata = F ..
发布时间:2021-11-12 04:14:07 其他开发

如何在 PIG 中匹配“,"?

下面的 pig 脚本给出了文件中各种字符的数量.它适用于除 ',' 之外的所有字符. 我的代码: A = 加载 'a.txt';B = foreach A generate flatten(TOKENIZE((chararray)$0)) as word;C = 按单词匹配过滤 B '(.+)';D = foreach C 生成 flatten(TOKENIZE(REPLACE(word, ..
发布时间:2021-11-12 04:14:04 其他开发

PIG:如何删除列名中的“::"

我有一个像下面这样的猪关系: FINAL= {input_md5::type: chararray,input_md5::name: chararray,input_md5::id: long,input_md5::age: chararray,test_1:: type: chararray,test_2::name:chararray} 我正在尝试将 input_md5 关系的所有 ..
发布时间:2021-11-12 04:14:01 其他开发

使用 Pig 通过 Java 运行字符串

我有一个 UDF jar,它通过 Pig 接收一个字符串作为输入.这个 java 文件通过运行像这个命令这样的“硬编码"字符串可以很好地工作 B = foreach f generate URL_UDF.mathUDF('stack.overflow'); 会给我我期望的输出 我的问题是我试图从文本文件中获取信息并使用我的 UDF.我加载了一个文件并希望在我加载到 UDF 的文件中传递数 ..
发布时间:2021-11-12 04:13:58 Java开发

猪如何过滤不同的夫妇(对)

我是 Pig 的新手.我有一个 Pig 脚本,它在两个元素之间生成制表符分隔对.每行一对,例如: 约翰·保罗汤姆尼克马克比尔汤姆尼克保罗约翰 我需要过滤掉重复的组合.如果我使用 DISTINCT,我会过滤掉两个“Tom Nik"条目.结果是: 约翰·保罗汤姆尼克马克比尔保罗约翰 这种方法的问题是我留下了“John Paul"和“Paul John",就我的目的而言,它们应该被视为相同(相同 ..
发布时间:2021-11-12 04:13:55 其他开发

在 Pig 中合并两行

我想为以下查询编写一个猪脚本. 输入是: ABC,DEF,,,,GHI,JKL移动网络运营商,PQR,,,,STU,VWX 输出应该是: ABC,DEF,GHI,JKLMNO、PQR、STU、VWX 有人可以帮我吗? 解决方案 使用原生猪很难解决这个问题.一种选择是下载 datafu-1.2.0.jar 库并尝试以下方法. input.txt ABC,DEF,,,,G ..
发布时间:2021-11-12 04:13:52 其他开发

是否可以将参数的值传递给 UDF 构造函数?

我编写了一个带有构造函数参数的 UDF. 我已经成功初始化并在 grunt 中使用它作为 咕噜声>注册 mylib.jar咕噜声>定义函数 com.company.pig.udf.MyFunction('param-value'); 但我无法使用 Pig 参数对其进行初始化 咕噜声>定义解密 com.company.pig.udf.MyFunction($secret); 或 咕噜 ..
发布时间:2021-11-12 04:13:49 其他开发

在猪中编码

使用 Pig Latin 加载包含某些特定字符(例如,À、° 和其他字符)的数据并将数据存储在 .txt 文件中,可以看到 txt 文件中的这些符号显示为 � 和ï 字符.这是因为 UTF-8 替换字符.我想问一下是否有可能以某种方式避免它,也许使用一些猪命令,在结果中(在 txt 文件中)例如 À 而不是 �? 解决方案 在 Pig 中,我们内置了动态调用程序,允许 Pig 程序 ..
发布时间:2021-11-12 04:13:46 其他开发

使用 Apache PIG 读取多行 JSON

我有一个 JSON 文件,想使用 Apache Pig 读取. 我尝试使用常规的 JSONLOADER,但看起来 JSONLOADER 仅适用于单行 JSON.然后我尝试了 Elephant-Bird.但我仍然无法正确看到结果.任何人都可以提出解决方案吗? 输入: {"员工":[{"firstName":"John", "lastName":"Doe"},{"firstName":" ..
发布时间:2021-11-12 04:13:43 其他开发

如何根据标签对用户进行聚类

我想根据用户观看的节目的类别或标签对他们进行聚类.执行此操作的最简单/最佳算法是什么? 假设我有大约 20,000 个标签和数百万个监视事件可以用作信号,是否有我可以使用 Pig/hadoop/mortar 或在 neo4j 上实现的算法? 就数据而言,我有用户、他们看过的节目以及节目的标签(通常每个节目大约有 10 个标签). 我希望在最后有 k 个集群(可能是一打?)或广泛的 ..

如何使用通配符投影别名?

一旦我做了一个join A by id, B by id,我就会得到一个带有字段的别名A::f..., B::f...有没有办法只将它投射到 A 字段上? C = 按 id 加入 A,按 id 加入 B;D = 通过 B::n ..
发布时间:2021-11-12 04:13:37 其他开发

从 Pig 的输出中删除括号和逗号

目前我的输出如下: ((130,1))((131,1))((132,1))((133,1))((137,1))((138,2))((139,1))((140,1))((142,2))((143,1)) 我想拥有它: 130 1131 1132 1 我的代码如下: A = LOAD 'user-links-small.txt' AS (user_a: int, user_b: int);B ..
发布时间:2021-11-12 04:13:34 其他开发