apache-pig 第7页 - IT屋-程序员软件开发技术分享社区

Pig:Hadoop 作业失败

我有一个从 csv 文件查询数据的 pig 脚本. 该脚本已在本地使用小型和大型 .csv 文件进行测试. 在小集群中:它从处理脚本开始，并在完成 40% 的调用后失败错误只是，无法从“文件路径"读取数据我的推断是，脚本可以读取文件，但是连接中断，消息丢失但我只收到上述错误. 解决方案一般问题的答案是更改配置文件中的错误级别，将这两行添加到 mapre ..

发布时间：2021-11-12 04:14:30 java csv hadoop apache-pig Java开发

通过连接两个数据集求平均值

我有两个数据集， EmployeeDetail(数据集1):-ID姓名性别地点SalaryDetail(数据集2):-ID薪水我需要同时计算每个地点的男性和女性的平均工资.所以我尝试了以下代码. EmpDetail = 将“/Users/bmohanty6/EmployeeDetails/EmpDetail.txt"加载为(id:int, name:chararray, 性别:charar ..

发布时间：2021-11-12 04:14:27 apache-pig inner-join 其他开发

计算猪查询中的百分比

我有一个包含两列的表格(col1:string, col2:boolean) 假设 col1 = "aaa" 对于 col1 = "aaa"，有很多 True/False 值col2 我想计算 col1 (aaa) 的 True 值的百分比输入: aaa T啊啊啊啊啊啊啊啊bbtbbt抄送抄送输出 COL1 TOTAL_ROWS_IN_INPUT_TABLE PERCENTA ..

发布时间：2021-11-12 04:14:25 apache-pig 其他开发

在猪图中查找变量键

我正在尝试使用 pig 将文本分解为小写单词，然后在地图中查找每个单词.这是我在 map.txt 中的示例地图(只有 1 行长): [this#1.9,is#2.5my#3.3,vocabulary#4.1] 我是这样加载的: M = LOAD 'mapping.txt' USING PigStorage AS (mp: map[float]); 效果很好.然后我执行以下操作以加载文本并将 ..

发布时间：2021-11-12 04:14:22 map apache-pig 其他开发

Hadoop-3.0.0 与旧版本的 Hive、Pig、Sqoop 和 Spark 的兼容性如何

我们目前在 10 节点集群上使用 hadoop-2.8.0，并计划升级到最新的 hadoop-3.0.0. 我想知道如果我们将 hadoop-3.0.0 与旧版本的 Spark 和其他组件(例如 Hive、Pig 和 Sqoop)一起使用会不会有任何问题. 解决方案最新Hive版本不支持Hadoop3.0，看来以后Hive可能会建立在Spark或其他计算引擎上. ..

发布时间：2021-11-12 04:14:19 hadoop apache-spark hive apache-pig sqoop 其他开发

如何指定“pig-0.13.0-h2.jar"build.gradle 中的依赖?

为了在我的项目中指定一个 Maven 依赖项，我提供了一个 name、一个 group id 和一个 version.这对于我项目中的每个依赖项来说已经足够了，保存一个.Pig 在同一个工件中有多个 jar(不确定我是否有正确的命名法；我对 Maven 还是比较陌生)，但我只需要一个. 具体来说，我需要pig-0.13.0-h2.jar.但是，当我提供依赖项编译“org.apache.p ..

发布时间：2021-11-12 04:14:16 java maven gradle classpath apache-pig Java开发

避免单个行在 Pig 中的 ToDate 中出现异常

我有一个 CSV 文件的输入，我正在尝试用 Pig 处理它.在 csv 中，有一个日期列，其中包含某些行的损坏值.在我将 ToDate() 函数应用于 FOREACH...GENERATE 语句中的日期列之前，请向我建议一种机制来过滤掉那些损坏的行(具有损坏的日期列). 我的数据的示例格式是: A,21,12/1/2010 8:26 B,33,12/1/2010 8:26 C,42 ..

发布时间：2021-11-12 04:14:13 csv datetime apache-pig 其他开发

我有两个输入文件 smt.txt 和 smo.txt.jar 文件读取文本文件并根据 java 文件中描述的某些规则拆分数据.而pig文件通过做mapreduce将这些数据放入输出文件中. 注册'maprfs:///user/username/fl.jar';定义固定加载器 fl();mt = load 'maprfs:///user/username/smt.txt' using FixedL ..

发布时间：2021-11-12 04:14:10 java hadoop mapreduce apache-pig mapr Java开发

PigLatin 中的 STRSPLIT 和 REGEX_EXTRACT_ALL

我有以下文件: 文件----12-3 约翰福音 1215-1 山姆 122 文件以制表符(\t) 分隔.我将行作为 line:chararray 加载，因为我希望数据不会被拆分到各个字段中. 现在，我想将详细信息(12-3 和 5-1)提取并存储为单独的数据. 我正在尝试使用 STRSPLIT 和 REGEX_EXTRACT_ALL，但数据似乎不匹配. splitdata = F ..

发布时间：2021-11-12 04:14:07 hadoop apache-pig 其他开发

如何在 PIG 中匹配“,"?

下面的 pig 脚本给出了文件中各种字符的数量.它适用于除 ',' 之外的所有字符. 我的代码: A = 加载 'a.txt';B = foreach A generate flatten(TOKENIZE((chararray)$0)) as word;C = 按单词匹配过滤 B '(.+)';D = foreach C 生成 flatten(TOKENIZE(REPLACE(word, ..

发布时间：2021-11-12 04:14:04 apache-pig 其他开发

PIG:如何删除列名中的“::"

我有一个像下面这样的猪关系: FINAL= {input_md5::type: chararray,input_md5::name: chararray,input_md5::id: long,input_md5::age: chararray,test_1:: type: chararray,test_2::name:chararray} 我正在尝试将 input_md5 关系的所有 ..

发布时间：2021-11-12 04:14:01 hadoop apache-pig 其他开发

使用 Pig 通过 Java 运行字符串

我有一个 UDF jar，它通过 Pig 接收一个字符串作为输入.这个 java 文件通过运行像这个命令这样的“硬编码"字符串可以很好地工作 B = foreach f generate URL_UDF.mathUDF('stack.overflow'); 会给我我期望的输出我的问题是我试图从文本文件中获取信息并使用我的 UDF.我加载了一个文件并希望在我加载到 UDF 的文件中传递数 ..

发布时间：2021-11-12 04:13:58 java apache-pig Java开发

猪如何过滤不同的夫妇(对)

我是 Pig 的新手.我有一个 Pig 脚本，它在两个元素之间生成制表符分隔对.每行一对，例如: 约翰·保罗汤姆尼克马克比尔汤姆尼克保罗约翰我需要过滤掉重复的组合.如果我使用 DISTINCT，我会过滤掉两个“Tom Nik"条目.结果是: 约翰·保罗汤姆尼克马克比尔保罗约翰这种方法的问题是我留下了“John Paul"和“Paul John"，就我的目的而言，它们应该被视为相同(相同 ..

发布时间：2021-11-12 04:13:55 hadoop apache-pig 其他开发

在 Pig 中合并两行

我想为以下查询编写一个猪脚本. 输入是: ABC,DEF,,,,GHI,JKL移动网络运营商，PQR，，,,STU,VWX 输出应该是: ABC,DEF,GHI,JKLMNO、PQR、STU、VWX 有人可以帮我吗? 解决方案使用原生猪很难解决这个问题.一种选择是下载 datafu-1.2.0.jar 库并尝试以下方法. input.txt ABC,DEF,,,,G ..

发布时间：2021-11-12 04:13:52 apache-pig 其他开发

是否可以将参数的值传递给 UDF 构造函数?

我编写了一个带有构造函数参数的 UDF. 我已经成功初始化并在 grunt 中使用它作为咕噜声>注册 mylib.jar咕噜声>定义函数 com.company.pig.udf.MyFunction('param-value'); 但我无法使用 Pig 参数对其进行初始化咕噜声>定义解密 com.company.pig.udf.MyFunction($secret); 或咕噜 ..

发布时间：2021-11-12 04:13:49 apache-pig 其他开发

在猪中编码

使用 Pig Latin 加载包含某些特定字符(例如，À、° 和其他字符)的数据并将数据存储在 .txt 文件中，可以看到 txt 文件中的这些符号显示为 ï¿½ 和ï 字符.这是因为 UTF-8 替换字符.我想问一下是否有可能以某种方式避免它，也许使用一些猪命令，在结果中(在 txt 文件中)例如 À 而不是 ï¿½? 解决方案在 Pig 中，我们内置了动态调用程序，允许 Pig 程序 ..

发布时间：2021-11-12 04:13:46 encoding utf-8 apache-pig 其他开发

使用 Apache PIG 读取多行 JSON

我有一个 JSON 文件，想使用 Apache Pig 读取. 我尝试使用常规的 JSONLOADER，但看起来 JSONLOADER 仅适用于单行 JSON.然后我尝试了 Elephant-Bird.但我仍然无法正确看到结果.任何人都可以提出解决方案吗? 输入: {"员工":[{"firstName":"John", "lastName":"Doe"},{"firstName":" ..

发布时间：2021-11-12 04:13:43 hadoop apache-pig 其他开发

如何根据标签对用户进行聚类

我想根据用户观看的节目的类别或标签对他们进行聚类.执行此操作的最简单/最佳算法是什么? 假设我有大约 20,000 个标签和数百万个监视事件可以用作信号，是否有我可以使用 Pig/hadoop/mortar 或在 neo4j 上实现的算法? 就数据而言，我有用户、他们看过的节目以及节目的标签(通常每个节目大约有 10 个标签). 我希望在最后有 k 个集群(可能是一打?)或广泛的 ..

发布时间：2021-11-12 04:13:40 machine-learning neo4j apache-pig classification hierarchical-clustering AI人工智能

如何使用通配符投影别名?

一旦我做了一个join A by id, B by id，我就会得到一个带有字段的别名A::f..., B::f...有没有办法只将它投射到 A 字段上? C = 按 id 加入 A，按 id 加入 B；D = 通过 B::n ..

发布时间：2021-11-12 04:13:37 apache-pig 其他开发

从 Pig 的输出中删除括号和逗号

目前我的输出如下: ((130,1))((131,1))((132,1))((133,1))((137,1))((138,2))((139,1))((140,1))((142,2))((143,1)) 我想拥有它: 130 1131 1132 1 我的代码如下: A = LOAD 'user-links-small.txt' AS (user_a: int, user_b: int);B ..

发布时间：2021-11-12 04:13:34 hadoop apache-pig 其他开发

apache-pig相关内容