apache-pig相关内容

如何在 Pig 中将许多地图的元组拆分为不同的行

我在 Pig 中有一个如下所示的关系: ([account_id#100,时间戳#1434,编号#900],[account_id#100,时间戳#1434,编号#901],[account_id#100,时间戳#1434,编号#902]) 如您所见,我在一个元组中有三个地图对象.以上所有数据都在关系中的第 0 美元字段内.所以上面的数据与单个字节数组列有关系. 数据加载如下: dat ..
发布时间:2021-11-12 04:13:31 其他开发

猪铸造/数据类型

我正在尝试将关系转储到 AVRO 文件中,但出现一个奇怪的错误: org.apache.pig.data.DataByteArray 不能转换为 java.lang.CharSequence 我不使用DataByteArray(字节数组),见下面的关系描述. sensitiveSet: {rank_ID: long,name: chararray,customerId: long,VIN: ..
发布时间:2021-11-12 04:13:28 Java开发

Apache Pig - 无法读取包

我正在尝试使用 PIG 读取逗号分隔的数据,如下所示: 咕噜声>猫脚本/猪/emp_tuple1.txt1,kirti,250000,{(100),(200)}2,kk,240000,{(100),(300)}3,kumar,200000,{(200),(400)}4,shinde,290000,{(200),(500),(300),(100)}5,shinde k y,260000,{(100 ..
发布时间:2021-11-12 04:13:25 其他开发

如何使用pig从hdfs加载twitter数据?

我只是使用flume流式传输一些twitter数据并将其聚类到HDFS中,现在我尝试将其加载到pig中进行分析.由于默认的JsonLoader函数无法加载数据,所以我在谷歌中搜索了一些可以加载这种类型的库数据.我找到了这个 link 并关注那里说明. 结果如下 REGISTER '/home/hduser/Downloads/json-simple-1.1.1.jar';2016-02-2 ..
发布时间:2021-11-12 04:13:23 其他开发

JAVA 错误 1070 中的 PIG UDF

我在 /home/GED385/pigScripts 中创建了 UDF_UPPER.jar 文件. [GED385@snshadoope1 pigScripts]$ jar tf/home/GED385/pigScripts/UDF_UPPER.jar |grep UPPER上级 但是在执行猪时,我遇到了以下错误. 咕噜声>执行 digital_web_trkg_9.pig2012-11-3 ..
发布时间:2021-11-12 04:13:20 Java开发

猪参考

我正在学习 Hadoop pig,我总是坚持引用元素.请找到下面的例子. groupwordcount: {group: chararray,words: {(bag_of_tokenTuples_from_line::token: chararray)}} 如果我们有嵌套的元组和包,谁能解释一下如何引用元素. 任何有助于更好地理解嵌套引用的链接都会有很大帮助. 解决方案 我们来 ..
发布时间:2021-11-12 04:13:07 其他开发

Apache Pig 处理带有引号的字段的 CSV

如何处理某些字段用引号括起来的 CSV 文件? 例如要处理的行(字段分隔符为',') 我是 column1,我是 column2,“是的,我是 column3" 该示例包含三列.但是下面的例子会说我有四列: A = 使用 PigStorage(',') 加载 '/path/to/file'; 请提供任何建议,资源链接..? 解决方案 尝试加载数据,然后执行 F ..
发布时间:2021-11-12 04:13:01 Java开发

Pig - 如何迭代一袋地图

让我解释一下这个问题.我有这行代码: u = FOREACH people GENERATE FLATTEN($0#'experiences') as j;倾倒你; 产生这个输出: ([id#1,date_begin#12 2012,description#blabla,date_end#04 2013],[id#2,date_begin#02 2011,description#blabla ..
发布时间:2021-11-12 04:12:59 其他开发

如何在 hive 表中加载多行列数据?具有换行符的列

我在 Excel 文件中有一个列(不是最后一列),其中包含跨越几行的数据. 列的某些单元格是空白的,而某些单元格具有单行条目. 当另存为 .CSV 文件或从 excel 中以制表符分隔的 .txt 时,所有多行数据和少量单行条目都用双引号生成,没有任何空白字段用引号引起来.一些单行条目不在引号内. 是否可以将具有相同结构的数据存储在 hive 表中?如果是,如何做到这一点?我知道 ..
发布时间:2021-11-12 04:12:53 其他开发

猪拉丁语 flatten 运算符的模式

我最近在工作中遇到了这个问题,是关于猪的扁平化.我用一个简单的例子来表达 两个文件 ===文件1=== 1_a 2_b 4_d ===file2(制表符分隔)=== 1个 2 b 3 c 猪脚本1: a = load 'file1' as (str:chararray);b = 加载 'file2' as (num:int, ch:chararray);a1 = ..
发布时间:2021-11-12 04:12:50 Java开发

如何在猪拉丁语中组合/连接两个袋子

我有两个数据集: A = {uid, url};B = {uid, url}; 现在我做一个cogroup: C = COGROUP A BY uid, B BY uid; 我想把C改成{group AS uid, DISTINCT A.url+B.url}; 我的问题是如何将两个包 A.url 和 B.url 连接起来? 或者换一种说法,我如何在多列上做DISTINCT? ..
发布时间:2021-11-12 04:12:47 其他开发

在 Pig 中分组后选择字段

我可能遗漏了一些非常微不足道的东西,但我无法让它发挥作用.我有一个“电影"对象,有标题、演员、年份和角色.现在我想要的是带有标题的结果,以及一个包含演员/角色对的嵌套包. 如果我只做按标题分组电影,我最终会得到像 (title, {movie objects}) 这样的结果,这将是完美的,除了标题和年份也出现在电影对象中那里.我只想要演员和角色. 我也试过 foreach movie_ ..
发布时间:2021-11-12 04:12:44 其他开发

我有 50 个字段,在 pig 中是否有任何选项可以在 Apache Pig 中打印前 40 个字段?我需要类似范围 $0-$39 的东西

我有 50 个字段,pig 中是否有任何选项可以打印前 40 个字段?我需要类似范围 $0-$39 的东西.我不想指定每个字段,如 $0、$1、$2 等 当列数较少时,给每一列是可以接受的,但当列数很大时,情况如何? 解决方案 您可以使用 .. 表示法. 前 40 个字段 B = FOREACH A GENERATE $0..$39; 所有字段 B = FOREACH A ..
发布时间:2021-11-12 04:12:41 其他开发

如何在 Scala 中编写 Pig UDF

我正在尝试在 Scala 中编写一个 Pig UDF(使用 Eclipse).我在 java 构建路径中添加了 pig.jar 作为库,这似乎解决了下面的 2 个导入: 导入 org.apache.pig.EvalFunc 导入 org.apache.pig.data.Tuple 但是我收到了 2 个无法解决的错误: org.apache.pig.EvalFunc[T] 没有构 ..
发布时间:2021-11-12 04:12:38 Java开发

Json 解析与 Pig 中的大象鸟

我无法在 Pig 中解析以下数据.这是 Twitter API 在获取某个用户的所有推文后返回的内容. 源数据:(我删除了一些数字,以免无意中侵犯任何人的隐私) [{"created_at":"Sat Nov 01 23:15:45 +0000 2014","id":5286804225,"id_str":"5286864225","text":"@Beace_你的南使我笑她出来的一些东西 ..
发布时间:2021-11-12 04:12:35 其他开发

如何将带有空格的命令行参数传递给 apache pig 脚本?

我想编写一个将过滤条件作为命令行参数的猪脚本.从命令行我想输入如下内容: pig -p "MY_FILTER=field1 == 0 and field2 == 5" myscript.pig 在我的脚本中有一行: my_filtered_data = 通过 $MY_FILTER 过滤 my_data; 当 MY_FILTER 没有空格并且我在我的值周围传递引号时,这会按预期工作;因此,如 ..
发布时间:2021-11-12 04:12:32 其他开发