apache-pig相关内容
试图加入一个在月中有天数的集合和年月键上的数据集.在我加入并尝试对集合执行 FOREACH 后,我得到一个错误:1066 ...后端错误:标量在输出中有多于一行. 这是一个有同样问题的缩写集: $ hadoop fs -cat DIM/*2011、01、312011、02、282011、03、312011、04、302011、05、312011、06、302011、07、312011、08
..
我在某处读到 Hadoop 内置了对压缩和解压缩的支持,但我想这是关于映射器输出(通过设置一些属性)? 我想知道是否有任何特定的 PIG 加载/存储函数可以用于读取压缩数据或输出压缩数据? 解决方案 PigStorage 通过检查文件名来处理压缩输入: *.bz2/*.bz - org.apache.pig.bzip2r.Bzip2TextInputFormat 其他一切都使
..
我是 Pig 的新用户. 我有一个要修改的现有架构.我的源数据如下,有6列: 名称类型日期区域操作值-----------------------------------------------------约翰 ab 20130106 D X 20约翰 ab 20130106 dc 19jphn ab 20130106 D T 8jphn ab 20130106 E C 854jphn a
..
我已经在 grunt shell 中运行了下面的 pig 脚本 注册D:\Pig\contrib\piggybank\java\piggybank.jar;a = load '/part' using PigStorage(',') as (uuid:chararray,timestamp:chararray,Name:chararray,EmailID:chararray,CompanyNam
..
我正在尝试使用 Piggybank 的 CSVLoader.下面是我的代码的前两行: 注册 'piggybank.jar' ;定义 CSVLoader org.apache.pig.piggybank.storage.CSVLoader(); 它抛出以下错误: 2013-10-24 14:26:51,427 [main] INFOorg.apache.pig.backend.hadoop
..
我有很多 CSV 文件,都带有标题行.这些文件看起来都相似: 姓名、性别、偏好....彼得,米,肥皂,...保罗,米,凝胶,...玛丽, f, 肥皂, ...... 但是列位置和确切的标题名称可能会有所不同,例如.另一个文件可能如下所示: “偏好",“姓名",“性别",....肥皂,彼得,米,...凝胶,保罗,米,...肥皂, 玛丽, f, ...... 我只想输出/存储标题包含单词“na
..
Java 在使用 -cp 选项执行时无法找到类文件,如下所示 javac -cp ~/softwares/pig-0.12.0/pig-0.12.0.jar PR.java 编译成功.但是,当我运行上面生成的类时,出现错误 java -cp ~/softwares/pig-0.12.0/pig-0.12.0.jar PR错误:无法找到或加载主类 PR 如果我删除 -cp 我会得到低于预期的
..
我有一个 ctrlB 作为记录分隔符的文件.我能够通过在 pig 存储中覆盖 LoaderInputFormat 类和 getInputFormat() 方法来读取 pig 中的文件.但是我无法使用 ctrlB 作为记录分隔符存储文件. 解决方案 读取ctrl+b分隔的记录 SET textinputformat.record.delimiter '\n'x= LOAD 'xyz' US
..
我已经遇到了几个小时的问题.我有一个 .csv 文件,里面有 JSON 字符串.该 .csv 中的每一列都包含一个包含多个 JSON 对象的字符串.我将几列导入 PigStorage.工作至今.然后我尝试提取具有以下形式的 JSON 对象: [{"tmestmp":"2014-05-14T07:01:00","Value":0,"Quality":1},{"tmestmp":"2014-05
..
我正在运行 Pig 15 并尝试在此处对数据进行分组.我遇到了 请求的数组大小超过 VM 限制 错误.文件大小非常小,每个映射器只需 10 个 2.5G 即可运行,不会出现内存错误. 下面显示的是我正在做的部分: sample_set = LOAD 's3n:////000*-part.gz' USING PigStorage(',') AS (col1:chararray,col2:ch
..
有许多示例说明如何使用 JsonLoader() 从文件中加载带有架构的 JSON 数据,而不是从任何类型的其他输出中加载. 解决方案 您正在寻找 Elephant Bird 中提供的 JsonStringToMap UDF:https://github.com/kevinweil/elephant-bird/search?q=JsonStringToMap&ref=cmdform
..
我以表格格式存储了不平衡的树数据,例如: 父、子一、二公元前光盘c,ff,g 树的深度未知. 如何将这个层次结构展平,其中每一行都包含从叶节点到根节点的完整路径,如下所示: 叶节点、根节点、中间节点d,a,d:c:bf,a,e:b 是否有使用 hive、pig 或 mapreduce 解决上述问题的建议?提前致谢. 解决方案 我尝试用pig解决,示例代码如下: 加入功能
..
我正在尝试使用 apache pig 找到所有可能的组合,我能够生成排列,但我想消除我编写此代码的值的复制: A = LOAD 'data' AS f1:chararray;转储 A;('一种')('乙')('C')B = FOREACH A GENERATE $0 AS v1;C = FOREACH A GENERATE $0 AS v2;D = 交叉 B、C; 我得到的结果是: 转储
..
我在这里看过文档,但我承认我觉得它比较缺乏.我想知道是否有人可以给我收集有关将 Python UDF 合并到 Pig 中的示例.特别是 在 Pig 0.10 之前,布尔类型不存在,但 FILTER 操作需要将结果解析为布尔值.我是否永远诅咒返回 1 或 0 并使用 FILTER alias BY py_udf.f(field) >0 如果我没有最新版本? Algebraic、Accumul
..
我正在分析 AWS CloudFront 访问日志. 我有加载文件行的代码 raw_logs2 =LOAD 'file:///home/ec2-user/ENWRZAC68E00M.2011-02-28-18.72jA8eGh'使用 PigStorage('\t')作为 (日期:chararray,时间:chararray,x_edge_location:chararray,sc_byt
..
我有一个关于我正在编写的 PIG 脚本的查询. 如何在 PIG 脚本中获取当前的 Unix 时间戳?为此我需要任何 UDF 吗..或者 PIG 可以为我提供当前的时间戳吗? 请多多指教.谢谢 解决方案 我指出两个解决方案 第一个: 使用 CurrentTime(),将其转换为 ToUnixTime() 以获取时间戳. 例如:X = 加载“xx"........X1
..
目标:声明一个逗号分隔的字符串常量 test.csv==========一种乙Cd电子F 猪脚本: %declare ACTIVE_VALUES 'a', 'b','c' ;-- 像这样使用 ""(双引号)甚至使用转义字符 (\) 声明常量会导致如下所示的 WARN 消息-- WARN org.apache.pig.tools.parameters.PreprocessorContext
..
我正在使用带有两个节点的 Datastax Cassandra 3.1.4.我正在使用 CqlStorage() 运行 Pig,表中有 1200 万行,但我发现只有一个 map 运行一个简单的 pig 命令. 我尝试在我的猪关系中更改 split_size 但没有奏效. 这是我的示例查询. x = load'cql://Mykeyspace/MyCF?split_size=1000'
..
我正在使用 Apache Pig 处理一些数据. 我的数据集有一些包含特殊字符的字符串,即 (#,{}[]). 这个编程猪书说你无法转义这些字符. 那么如何在不删除特殊字符的情况下处理我的数据? 我想更换它们,但想避免这种情况. 谢谢 解决方案 最简单的方法是, input = LOAD 'inputLocation' USING TextLoader() as
..
我需要将关系传递给 PIG 中的 UDF 文章 = load x using ...;groupedArticles = udfs.MyUDF(文章); 这样的事情可能吗?有什么解决方法吗? 谢谢 解决方案 我猜你的意思是将关系的所有字段传递给 UDF?传递关系没有意义.在任何情况下,这都取决于您的 load 语句的外观.如果您将每个条目作为元组加载 load x using
..