apache-pig 第6页 - IT屋-程序员软件开发技术分享社区

迭代连接集后出现 PIG 错误 1066.

试图加入一个在月中有天数的集合和年月键上的数据集.在我加入并尝试对集合执行 FOREACH 后，我得到一个错误:1066 ...后端错误:标量在输出中有多于一行. 这是一个有同样问题的缩写集: $ hadoop fs -cat DIM/*2011、01、312011、02、282011、03、312011、04、302011、05、312011、06、302011、07、312011、08 ..

发布时间：2021-11-12 04:15:30 apache-pig 其他开发

gzip 数据的压缩/解压缩在 Hadoop/PIG 中是否透明?

我在某处读到 Hadoop 内置了对压缩和解压缩的支持，但我想这是关于映射器输出(通过设置一些属性)? 我想知道是否有任何特定的 PIG 加载/存储函数可以用于读取压缩数据或输出压缩数据? 解决方案 PigStorage 通过检查文件名来处理压缩输入: *.bz2/*.bz - org.apache.pig.bzip2r.Bzip2TextInputFormat 其他一切都使 ..

发布时间：2021-11-12 04:15:27 hadoop apache-pig 其他开发

Pig 将架构更改为所需类型

我是 Pig 的新用户. 我有一个要修改的现有架构.我的源数据如下，有6列: 名称类型日期区域操作值-----------------------------------------------------约翰 ab 20130106 D X 20约翰 ab 20130106 dc 19jphn ab 20130106 D T 8jphn ab 20130106 E C 854jphn a ..

发布时间：2021-11-12 04:15:24 hadoop apache-pig 其他开发

我已经在 grunt shell 中运行了下面的 pig 脚本注册D:\Pig\contrib\piggybank\java\piggybank.jar；a = load '/part' using PigStorage(',') as (uuid:chararray,timestamp:chararray,Name:chararray,EmailID:chararray,CompanyNam ..

发布时间：2021-11-12 04:15:21 hadoop apache-pig 其他开发

使用 Piggybank 中的 CSVLoader 时出错

我正在尝试使用 Piggybank 的 CSVLoader.下面是我的代码的前两行: 注册 'piggybank.jar' ;定义 CSVLoader org.apache.pig.piggybank.storage.CSVLoader(); 它抛出以下错误: 2013-10-24 14:26:51,427 [main] INFOorg.apache.pig.backend.hadoop ..

发布时间：2021-11-12 04:15:18 apache-pig 其他开发

使用 Apache Pig 如何根据标题行从 CSV 中选择和存储列

我有很多 CSV 文件，都带有标题行.这些文件看起来都相似: 姓名、性别、偏好....彼得，米，肥皂，...保罗，米，凝胶，...玛丽, f, 肥皂, ...... 但是列位置和确切的标题名称可能会有所不同，例如.另一个文件可能如下所示: “偏好"，“姓名"，“性别"，....肥皂，彼得，米，...凝胶，保罗，米，...肥皂, 玛丽, f, ...... 我只想输出/存储标题包含单词“na ..

发布时间：2021-11-12 04:15:15 performance header apache-pig 其他开发

使用 -cp 选项执行时无法加载类

Java 在使用 -cp 选项执行时无法找到类文件，如下所示 javac -cp ~/softwares/pig-0.12.0/pig-0.12.0.jar PR.java 编译成功.但是，当我运行上面生成的类时，出现错误 java -cp ~/softwares/pig-0.12.0/pig-0.12.0.jar PR错误:无法找到或加载主类 PR 如果我删除 -cp 我会得到低于预期的 ..

发布时间：2021-11-12 04:15:12 java jar classpath apache-pig Java开发

Pig 使用自定义行/记录分隔符存储文件

我有一个 ctrlB 作为记录分隔符的文件.我能够通过在 pig 存储中覆盖 LoaderInputFormat 类和 getInputFormat() 方法来读取 pig 中的文件.但是我无法使用 ctrlB 作为记录分隔符存储文件. 解决方案读取ctrl+b分隔的记录 SET textinputformat.record.delimiter '\n'x= LOAD 'xyz' US ..

发布时间：2021-11-12 04:15:09 hadoop mapreduce apache-pig 其他开发

PIG REGEX_EXTRACT ALL 函数 ->没有结果

我已经遇到了几个小时的问题.我有一个 .csv 文件，里面有 JSON 字符串.该 .csv 中的每一列都包含一个包含多个 JSON 对象的字符串.我将几列导入 PigStorage.工作至今.然后我尝试提取具有以下形式的 JSON 对象: [{"tmestmp":"2014-05-14T07:01:00","Value":0,"Quality":1},{"tmestmp":"2014-05 ..

发布时间：2021-11-12 04:15:06 apache-pig 其他开发

Apache Pig:java.lang.OutOfMemoryError:请求的数组大小超过 VM 限制

我正在运行 Pig 15 并尝试在此处对数据进行分组.我遇到了请求的数组大小超过 VM 限制错误.文件大小非常小，每个映射器只需 10 个 2.5G 即可运行，不会出现内存错误. 下面显示的是我正在做的部分: sample_set = LOAD 's3n:////000*-part.gz' USING PigStorage(',') AS (col1:chararray,col2:ch ..

发布时间：2021-11-12 04:15:03 hadoop apache-pig 其他开发

如何在来自列的 Pig 中解码 JSON?

有许多示例说明如何使用 JsonLoader() 从文件中加载带有架构的 JSON 数据，而不是从任何类型的其他输出中加载. 解决方案您正在寻找 Elephant Bird 中提供的 JsonStringToMap UDF:https://github.com/kevinweil/elephant-bird/search?q=JsonStringToMap&ref=cmdform ..

发布时间：2021-11-12 04:15:00 apache-pig 其他开发

如何使用 Hive/Pig/MapReduce 展平递归层次结构

我以表格格式存储了不平衡的树数据，例如: 父、子一、二公元前光盘c,ff,g 树的深度未知. 如何将这个层次结构展平，其中每一行都包含从叶节点到根节点的完整路径，如下所示: 叶节点、根节点、中间节点d,a,d:c:bf,a,e:b 是否有使用 hive、pig 或 mapreduce 解决上述问题的建议?提前致谢. 解决方案我尝试用pig解决，示例代码如下: 加入功能 ..

发布时间：2021-11-12 04:14:57 hadoop mapreduce hive apache-pig 其他开发

如何在 apache pig 下从一个包中找到所有可能的排列

我正在尝试使用 apache pig 找到所有可能的组合，我能够生成排列，但我想消除我编写此代码的值的复制: A = LOAD 'data' AS f1:chararray;转储 A;('一种')('乙')('C')B = FOREACH A GENERATE $0 AS v1;C = FOREACH A GENERATE $0 AS v2;D = 交叉 B、C；我得到的结果是: 转储 ..

发布时间：2021-11-12 04:14:53 hadoop apache-pig combinations permutation 其他开发

Pig 中的 Python UDF

我在这里看过文档，但我承认我觉得它比较缺乏.我想知道是否有人可以给我收集有关将 Python UDF 合并到 Pig 中的示例.特别是在 Pig 0.10 之前，布尔类型不存在，但 FILTER 操作需要将结果解析为布尔值.我是否永远诅咒返回 1 或 0 并使用 FILTER alias BY py_udf.f(field) >0 如果我没有最新版本? Algebraic、Accumul ..

发布时间：2021-11-12 04:14:51 python hadoop mapreduce apache-pig Python

Apache Pig:来自网络日志的额外查询参数

我正在分析 AWS CloudFront 访问日志. 我有加载文件行的代码 raw_logs2 =LOAD 'file:///home/ec2-user/ENWRZAC68E00M.2011-02-28-18.72jA8eGh'使用 PigStorage('\t')作为 (日期:chararray，时间:chararray，x_edge_location:chararray，sc_byt ..

发布时间：2021-11-12 04:14:48 apache-pig amazon-cloudfront 其他开发

如何在 PIG 中获取当前时间戳

我有一个关于我正在编写的 PIG 脚本的查询. 如何在 PIG 脚本中获取当前的 Unix 时间戳?为此我需要任何 UDF 吗..或者 PIG 可以为我提供当前的时间戳吗? 请多多指教.谢谢解决方案我指出两个解决方案第一个: 使用 CurrentTime()，将其转换为 ToUnixTime() 以获取时间戳. 例如:X = 加载“xx"........X1 ..

发布时间：2021-11-12 04:14:45 java hadoop scripting apache-pig Java开发

声明一个逗号分隔的字符串常量

目标:声明一个逗号分隔的字符串常量 test.csv==========一种乙Cd电子F 猪脚本: %declare ACTIVE_VALUES 'a', 'b','c' ;-- 像这样使用 ""(双引号)甚至使用转义字符 (\) 声明常量会导致如下所示的 WARN 消息-- WARN org.apache.pig.tools.parameters.PreprocessorContext ..

发布时间：2021-11-12 04:14:42 apache-pig constants declare 其他开发

Datastax Cassandra PIG 仅运行一张 MAP

我正在使用带有两个节点的 Datastax Cassandra 3.1.4.我正在使用 CqlStorage() 运行 Pig，表中有 1200 万行，但我发现只有一个 map 运行一个简单的 pig 命令. 我尝试在我的猪关系中更改 split_size 但没有奏效. 这是我的示例查询. x = load'cql://Mykeyspace/MyCF?split_size=1000' ..

发布时间：2021-11-12 04:14:39 cassandra hive apache-pig cql datastax 其他开发

转义Apache猪数据中的特殊字符

我正在使用 Apache Pig 处理一些数据. 我的数据集有一些包含特殊字符的字符串，即 (#,{}[]). 这个编程猪书说你无法转义这些字符. 那么如何在不删除特殊字符的情况下处理我的数据? 我想更换它们，但想避免这种情况. 谢谢解决方案最简单的方法是， input = LOAD 'inputLocation' USING TextLoader() as ..

发布时间：2021-11-12 04:14:36 apache-pig 其他开发

Pig pass 关系作为 UDF 的参数

我需要将关系传递给 PIG 中的 UDF 文章 = load x using ...;groupedArticles = udfs.MyUDF(文章); 这样的事情可能吗?有什么解决方法吗? 谢谢解决方案我猜你的意思是将关系的所有字段传递给 UDF?传递关系没有意义.在任何情况下，这都取决于您的 load 语句的外观.如果您将每个条目作为元组加载 load x using ..

发布时间：2021-11-12 04:14:33 java hadoop apache-pig Java开发

apache-pig相关内容