apache-pig相关内容

猪的 bincod 评估

我正在尝试用一些预先计算的值替换缺失的值. 所以我在这里发布了问题并遵循了建议,这是代码片段 input = LOAD 'data.txt' USING PigStorage(',') AS(id1:double , id21:double );gin = foreach 输入生成id1 是 NULL 吗?2 : id1,id2 是 NULL 吗?4 : id2; 但我收到错误不匹配的输 ..
发布时间:2021-11-12 04:16:37 其他开发

PIG REGEX_EXTRACT ALL 函数 ->没有结果

我已经遇到了几个小时的问题.我有一个 .csv 文件,里面有 JSON 字符串.该 .csv 中的每一列都包含一个包含多个 JSON 对象的字符串.我将几列导入 PigStorage.工作至今.然后我尝试提取具有以下形式的 JSON 对象: [{"tmestmp":"2014-05-14T07:01:00","Value":0,"Quality":1},{"tmestmp":"2014-05 ..
发布时间:2021-11-12 04:16:34 其他开发

如何在来自列的 Pig 中解码 JSON?

有许多示例说明如何使用 JsonLoader() 从文件中加载带有架构的 JSON 数据,而不是从任何类型的其他输出中加载. 解决方案 您正在寻找 Elephant Bird 中提供的 JsonStringToMap UDF:https://github.com/kevinweil/elephant-bird/search?q=JsonStringToMap&ref=cmdform ..
发布时间:2021-11-12 04:16:28 其他开发

在猪中访问像数组这样的元素

我有以下形式的数据:id,val1,val2 示例 1,0.2,0.11,0.1,0.71,0.2,0.32,0.7,0.92,0.2,0.32,0.4,0.5 所以首先我想按 val1 按降序对每个 id 进行排序..所以像 1,0.2,0.11,0.2,0.31,0.1,0.72,0.7,0.92,0.4,0.52,0.2,0.3 然后为每个id选择第二个元素id,val2组合例 ..
发布时间:2021-11-12 04:16:25 其他开发

使用 Apache Pig 如何根据标题行从 CSV 中选择和存储列

我有很多 CSV 文件,都带有标题行.这些文件看起来都相似: 姓名、性别、偏好....彼得,米,肥皂,...保罗,米,凝胶,...玛丽, f, 肥皂, ...... 但是列位置和确切的标题名称可能会有所不同,例如.另一个文件可能如下所示: “偏好",“姓名",“性别",....肥皂,彼得,米,...凝胶,保罗,米,...肥皂, 玛丽, f, ...... 我只想输出/存储标题包含单词“na ..
发布时间:2021-11-12 04:16:19 其他开发

使用 Piggybank 中的 CSVLoader 时出错

我正在尝试使用 Piggybank 的 CSVLoader.下面是我的代码的前两行: 注册 'piggybank.jar' ;定义 CSVLoader org.apache.pig.piggybank.storage.CSVLoader(); 它抛出以下错误: 2013-10-24 14:26:51,427 [main] INFOorg.apache.pig.backend.hadoop ..
发布时间:2021-11-12 04:16:16 其他开发

Pig 使用自定义行/记录分隔符存储文件

我有一个 ctrlB 作为记录分隔符的文件.我能够通过在 pig 存储中覆盖 LoaderInputFormat 类和 getInputFormat() 方法来读取 pig 中的文件.但是我无法使用 ctrlB 作为记录分隔符存储文件. 解决方案 读取ctrl+b分隔的记录 SET textinputformat.record.delimiter '\n'x= LOAD 'xyz' US ..
发布时间:2021-11-12 04:16:11 其他开发

Hive:如何计算时差

我的要求很简单,如何计算hive中两列之间的时间差 示例 时间_开始:10:15:00 时间_结束:11:45:00 我需要做 (Time_End-Time_Start) =1:30:00 注意这两列都是字符串数据类型,请帮助获得所需的结果.. 解决方案 语言手册 包含所有可用日期时间函数的描述.秒差可以这样计算:hour(time_end) * 3600 + ..
发布时间:2021-11-12 04:16:08 Java开发

包里面的RANK?

假设我有 set_of_values : a, k一、一是乙、乙经过乙、丙 如果我使用 a = RANK set_of_values; 我明白了: 1, a, k2, a, l凌晨3点4, b, x5, b, y6, b, z 我想实现的是RANK,但是在组内. 第一: a = group set_of_values by first_value;(a,{(a,k),(a,l),( ..
发布时间:2021-11-12 04:16:05 其他开发

Pig 将架构更改为所需类型

我是 Pig 的新用户. 我有一个要修改的现有架构.我的源数据如下,有6列: 名称类型日期区域操作值-----------------------------------------------------约翰 ab 20130106 D X 20约翰 ab 20130106 dc 19jphn ab 20130106 D T 8jphn ab 20130106 E C 854jphn a ..
发布时间:2021-11-12 04:16:02 其他开发

如何使用 Hive/Pig/MapReduce 展平递归层次结构

我以表格格式存储了不平衡的树数据,例如: 父、子一、二公元前光盘c,ff,g 树的深度未知. 如何将这个层次结构展平,其中每一行都包含从叶节点到根节点的完整路径,如下所示: 叶节点、根节点、中间节点d,a,d:c:bf,a,e:b 是否有使用 hive、pig 或 mapreduce 解决上述问题的建议?提前致谢. 解决方案 我尝试用pig解决,示例代码如下: 加入功能 ..
发布时间:2021-11-12 04:15:56 其他开发

从包中选择随机元组

是否可以(有效地)从猪的袋子中选择一个随机元组?我可以只取一个包的第一个结果(因为它是无序的),但就我而言,我需要一个适当的随机选择.一种(不是有效的)解决方案是计算包中元组的数量,在该范围内取一个随机数,遍历包,并在迭代次数与我的随机数匹配时停止.有谁知道更快/更好的方法来做到这一点? 解决方案 你可以在嵌套的 FOREACH 语句中使用 RANDOM()、ORDER 和 LIMIT 来 ..
发布时间:2021-11-12 04:15:48 其他开发

使用 -cp 选项执行时无法加载类

Java 在使用 -cp 选项执行时无法找到类文件,如下所示 javac -cp ~/softwares/pig-0.12.0/pig-0.12.0.jar PR.java 编译成功.但是,当我运行上面生成的类时,出现错误 java -cp ~/softwares/pig-0.12.0/pig-0.12.0.jar PR错误:无法找到或加载主类 PR 如果我删除 -cp 我会得到低于预期的 ..
发布时间:2021-11-12 04:15:45 Java开发

猪脚本中的加载操作是顺序还是并行?

我在猪脚本中有 2 个加载语句,如下所示: a=load 'file1.dat' 使用 HCatLoader(); b=load 'file2.dat' 使用 HcatLoader(); 在这些之后,我分别对 a 和 b 进行了一些转换.如果我们以批处理模式运行这个 pig 脚本,两个文件的加载和转换是顺序发生还是并行发生?我在想 pig 优化了这个脚本并并行运行两个负载.但不是 ..
发布时间:2021-11-12 04:15:39 其他开发

猪脚本中的加载操作是顺序还是并行?

我在猪脚本中有 2 个加载语句,如下所示: a=load 'file1.dat' 使用 HCatLoader(); b=load 'file2.dat' 使用 HcatLoader(); 在这些之后,我分别对 a 和 b 进行了一些转换.如果我们以批处理模式运行这个 pig 脚本,两个文件的加载和转换是顺序发生还是并行发生?我在想 pig 优化了这个脚本并并行运行两个负载.但不是 ..
发布时间:2021-11-12 04:15:35 其他开发