apache-pig相关内容

迭代连接集后出现 PIG 错误 1066.

试图加入一个在月中有天数的集合和年月键上的数据集.在我加入并尝试对集合执行 FOREACH 后,我得到一个错误:1066 ...后端错误:标量在输出中有多于一行. 这是一个有同样问题的缩写集: $ hadoop fs -cat DIM/*2011、01、312011、02、282011、03、312011、04、302011、05、312011、06、302011、07、312011、08 ..
发布时间:2021-11-12 04:15:30 其他开发

gzip 数据的压缩/解压缩在 Hadoop/PIG 中是否透明?

我在某处读到 Hadoop 内置了对压缩和解压缩的支持,但我想这是关于映射器输出(通过设置一些属性)? 我想知道是否有任何特定的 PIG 加载/存储函数可以用于读取压缩数据或输出压缩数据? 解决方案 PigStorage 通过检查文件名来处理压缩输入: *.bz2/*.bz - org.apache.pig.bzip2r.Bzip2TextInputFormat 其他一切都使 ..
发布时间:2021-11-12 04:15:27 其他开发

Pig 将架构更改为所需类型

我是 Pig 的新用户. 我有一个要修改的现有架构.我的源数据如下,有6列: 名称类型日期区域操作值-----------------------------------------------------约翰 ab 20130106 D X 20约翰 ab 20130106 dc 19jphn ab 20130106 D T 8jphn ab 20130106 E C 854jphn a ..
发布时间:2021-11-12 04:15:24 其他开发

猪中的多存储

我已经在 grunt shell 中运行了下面的 pig 脚本 注册D:\Pig\contrib\piggybank\java\piggybank.jar;a = load '/part' using PigStorage(',') as (uuid:chararray,timestamp:chararray,Name:chararray,EmailID:chararray,CompanyNam ..
发布时间:2021-11-12 04:15:21 其他开发

使用 Piggybank 中的 CSVLoader 时出错

我正在尝试使用 Piggybank 的 CSVLoader.下面是我的代码的前两行: 注册 'piggybank.jar' ;定义 CSVLoader org.apache.pig.piggybank.storage.CSVLoader(); 它抛出以下错误: 2013-10-24 14:26:51,427 [main] INFOorg.apache.pig.backend.hadoop ..
发布时间:2021-11-12 04:15:18 其他开发

使用 Apache Pig 如何根据标题行从 CSV 中选择和存储列

我有很多 CSV 文件,都带有标题行.这些文件看起来都相似: 姓名、性别、偏好....彼得,米,肥皂,...保罗,米,凝胶,...玛丽, f, 肥皂, ...... 但是列位置和确切的标题名称可能会有所不同,例如.另一个文件可能如下所示: “偏好",“姓名",“性别",....肥皂,彼得,米,...凝胶,保罗,米,...肥皂, 玛丽, f, ...... 我只想输出/存储标题包含单词“na ..
发布时间:2021-11-12 04:15:15 其他开发

使用 -cp 选项执行时无法加载类

Java 在使用 -cp 选项执行时无法找到类文件,如下所示 javac -cp ~/softwares/pig-0.12.0/pig-0.12.0.jar PR.java 编译成功.但是,当我运行上面生成的类时,出现错误 java -cp ~/softwares/pig-0.12.0/pig-0.12.0.jar PR错误:无法找到或加载主类 PR 如果我删除 -cp 我会得到低于预期的 ..
发布时间:2021-11-12 04:15:12 Java开发

Pig 使用自定义行/记录分隔符存储文件

我有一个 ctrlB 作为记录分隔符的文件.我能够通过在 pig 存储中覆盖 LoaderInputFormat 类和 getInputFormat() 方法来读取 pig 中的文件.但是我无法使用 ctrlB 作为记录分隔符存储文件. 解决方案 读取ctrl+b分隔的记录 SET textinputformat.record.delimiter '\n'x= LOAD 'xyz' US ..
发布时间:2021-11-12 04:15:09 其他开发

PIG REGEX_EXTRACT ALL 函数 ->没有结果

我已经遇到了几个小时的问题.我有一个 .csv 文件,里面有 JSON 字符串.该 .csv 中的每一列都包含一个包含多个 JSON 对象的字符串.我将几列导入 PigStorage.工作至今.然后我尝试提取具有以下形式的 JSON 对象: [{"tmestmp":"2014-05-14T07:01:00","Value":0,"Quality":1},{"tmestmp":"2014-05 ..
发布时间:2021-11-12 04:15:06 其他开发

如何在来自列的 Pig 中解码 JSON?

有许多示例说明如何使用 JsonLoader() 从文件中加载带有架构的 JSON 数据,而不是从任何类型的其他输出中加载. 解决方案 您正在寻找 Elephant Bird 中提供的 JsonStringToMap UDF:https://github.com/kevinweil/elephant-bird/search?q=JsonStringToMap&ref=cmdform ..
发布时间:2021-11-12 04:15:00 其他开发

如何使用 Hive/Pig/MapReduce 展平递归层次结构

我以表格格式存储了不平衡的树数据,例如: 父、子一、二公元前光盘c,ff,g 树的深度未知. 如何将这个层次结构展平,其中每一行都包含从叶节点到根节点的完整路径,如下所示: 叶节点、根节点、中间节点d,a,d:c:bf,a,e:b 是否有使用 hive、pig 或 mapreduce 解决上述问题的建议?提前致谢. 解决方案 我尝试用pig解决,示例代码如下: 加入功能 ..
发布时间:2021-11-12 04:14:57 其他开发

Pig 中的 Python UDF

我在这里看过文档,但我承认我觉得它比较缺乏.我想知道是否有人可以给我收集有关将 Python UDF 合并到 Pig 中的示例.特别是 在 Pig 0.10 之前,布尔类型不存在,但 FILTER 操作需要将结果解析为布尔值.我是否永远诅咒返回 1 或 0 并使用 FILTER alias BY py_udf.f(field) >0 如果我没有最新版本? Algebraic、Accumul ..
发布时间:2021-11-12 04:14:51 Python

如何在 PIG 中获取当前时间戳

我有一个关于我正在编写的 PIG 脚本的查询. 如何在 PIG 脚本中获取当前的 Unix 时间戳?为此我需要任何 UDF 吗..或者 PIG 可以为我提供当前的时间戳吗? 请多多指教.谢谢 解决方案 我指出两个解决方案 第一个: 使用 CurrentTime(),将其转换为 ToUnixTime() 以获取时间戳. 例如:X = 加载“xx"........X1 ..
发布时间:2021-11-12 04:14:45 Java开发

声明一个逗号分隔的字符串常量

目标:声明一个逗号分隔的字符串常量 test.csv==========一种乙Cd电子F 猪脚本: %declare ACTIVE_VALUES 'a', 'b','c' ;-- 像这样使用 ""(双引号)甚至使用转义字符 (\) 声明常量会导致如下所示的 WARN 消息-- WARN org.apache.pig.tools.parameters.PreprocessorContext ..
发布时间:2021-11-12 04:14:42 其他开发

Datastax Cassandra PIG 仅运行一张 MAP

我正在使用带有两个节点的 Datastax Cassandra 3.1.4.我正在使用 CqlStorage() 运行 Pig,表中有 1200 万行,但我发现只有一个 map 运行一个简单的 pig 命令. 我尝试在我的猪关系中更改 split_size 但没有奏效. 这是我的示例查询. x = load'cql://Mykeyspace/MyCF?split_size=1000' ..
发布时间:2021-11-12 04:14:39 其他开发

转义Apache猪数据中的特殊字符

我正在使用 Apache Pig 处理一些数据. 我的数据集有一些包含特殊字符的字符串,即 (#,{}[]). 这个编程猪书说你无法转义这些字符. 那么如何在不删除特殊字符的情况下处理我的数据? 我想更换它们,但想避免这种情况. 谢谢 解决方案 最简单的方法是, input = LOAD 'inputLocation' USING TextLoader() as ..
发布时间:2021-11-12 04:14:36 其他开发

Pig pass 关系作为 UDF 的参数

我需要将关系传递给 PIG 中的 UDF 文章 = load x using ...;groupedArticles = udfs.MyUDF(文章); 这样的事情可能吗?有什么解决方法吗? 谢谢 解决方案 我猜你的意思是将关系的所有字段传递给 UDF?传递关系没有意义.在任何情况下,这都取决于您的 load 语句的外观.如果您将每个条目作为元组加载 load x using ..
发布时间:2021-11-12 04:14:33 Java开发