apache-pig 第8页 - IT屋-程序员软件开发技术分享社区

如何在 Pig 中将许多地图的元组拆分为不同的行

我在 Pig 中有一个如下所示的关系: ([account_id#100,时间戳#1434，编号#900],[account_id#100,时间戳#1434，编号#901],[account_id#100,时间戳#1434，编号#902]) 如您所见，我在一个元组中有三个地图对象.以上所有数据都在关系中的第 0 美元字段内.所以上面的数据与单个字节数组列有关系. 数据加载如下: dat ..

发布时间：2021-11-12 04:13:31 hadoop dictionary tuples apache-pig elephantbird 其他开发

猪铸造/数据类型

我正在尝试将关系转储到 AVRO 文件中，但出现一个奇怪的错误: org.apache.pig.data.DataByteArray 不能转换为 java.lang.CharSequence 我不使用DataByteArray(字节数组)，见下面的关系描述. sensitiveSet: {rank_ID: long,name: chararray,customerId: long,VIN: ..

发布时间：2021-11-12 04:13:28 java hadoop apache-pig cloudera avro Java开发

我正在尝试使用 PIG 读取逗号分隔的数据，如下所示: 咕噜声>猫脚本/猪/emp_tuple1.txt1,kirti,250000,{(100),(200)}2,kk,240000,{(100),(300)}3,kumar,200000,{(200),(400)}4,shinde,290000,{(200),(500),(300),(100)}5,shinde k y,260000,{(100 ..

发布时间：2021-11-12 04:13:25 hadoop apache-pig bag 其他开发

如何使用pig从hdfs加载twitter数据?

我只是使用flume流式传输一些twitter数据并将其聚类到HDFS中，现在我尝试将其加载到pig中进行分析.由于默认的JsonLoader函数无法加载数据，所以我在谷歌中搜索了一些可以加载这种类型的库数据.我找到了这个 link 并关注那里说明. 结果如下 REGISTER '/home/hduser/Downloads/json-simple-1.1.1.jar';2016-02-2 ..

发布时间：2021-11-12 04:13:23 hadoop twitter apache-pig 其他开发

JAVA 错误 1070 中的 PIG UDF

我在 /home/GED385/pigScripts 中创建了 UDF_UPPER.jar 文件. [GED385@snshadoope1 pigScripts]$ jar tf/home/GED385/pigScripts/UDF_UPPER.jar |grep UPPER上级但是在执行猪时，我遇到了以下错误. 咕噜声>执行 digital_web_trkg_9.pig2012-11-3 ..

发布时间：2021-11-12 04:13:20 java mysql apache-pig mysql-error-1071 Java开发

猪 - 将数据从行转换为列，同时为特定行中不存在的字段插入占位符

假设我在 HDFS 上有以下平面文件(我们称之为 key_value): 1,1,Name,Jack1,1,职称,初级会计师1,1,部门,财务1,1,主管,约翰2,1,职称,副总裁2,1,姓名,罗恩2,1,部门,计费这是我正在寻找的输出: (1,1,Department,Finance,Name,Jack,Supervisor,John,Title,初级会计师)(2,1,Departmen ..

发布时间：2021-11-12 04:13:17 apache-pig placeholder transpose 其他开发

Java 或 Pig 正则表达式从 UserAgent 字符串中去除值

我需要删除用户代理字符串的“括号"部分中的第三个和后续值. 为了得到 Mozilla/4.0(兼容；MSIE 8.0) 来自 Mozilla/4.0(兼容；MSIE 8.0；Windows NT 6.0；Trident/4.0；GTB6；SLCC1；.NET CLR 2.0.50727；媒体中心 PC 5.0；.NET CLR 3.5.30729；WinTSI 06.12. ..

发布时间：2021-11-12 04:13:10 java regex sed hadoop apache-pig Java开发

猪参考

我正在学习 Hadoop pig，我总是坚持引用元素.请找到下面的例子. groupwordcount: {group: chararray,words: {(bag_of_tokenTuples_from_line::token: chararray)}} 如果我们有嵌套的元组和包，谁能解释一下如何引用元素. 任何有助于更好地理解嵌套引用的链接都会有很大帮助. 解决方案我们来 ..

发布时间：2021-11-12 04:13:07 hadoop apache-pig 其他开发

Pig ERROR 2998:未处理的内部错误.静态(错误名称:com/company/Static)

我有一个 Pig 脚本，它返回一个常量字符串值.当我尝试使用以下命令运行脚本时，出现 Pig ERROR 2998: pig -Dpig.additional.jars=Static.jar -f script.pig -l/dev/null -x local script.pig loaded = LOAD 'data/' USING com.twitter.elephantbird. ..

发布时间：2021-11-12 04:13:04 java hadoop apache-pig Java开发

Apache Pig 处理带有引号的字段的 CSV

如何处理某些字段用引号括起来的 CSV 文件? 例如要处理的行(字段分隔符为',') 我是 column1，我是 column2，“是的，我是 column3" 该示例包含三列.但是下面的例子会说我有四列: A = 使用 PigStorage(',') 加载 '/path/to/file'; 请提供任何建议，资源链接..? 解决方案尝试加载数据，然后执行 F ..

发布时间：2021-11-12 04:13:01 java csv apache-pig Java开发

Pig - 如何迭代一袋地图

让我解释一下这个问题.我有这行代码: u = FOREACH people GENERATE FLATTEN($0#'experiences') as j;倾倒你；产生这个输出: ([id#1,date_begin#12 2012,description#blabla,date_end#04 2013],[id#2,date_begin#02 2011,description#blabla ..

发布时间：2021-11-12 04:12:59 hadoop bigdata apache-pig 其他开发

如何在 Pig 中过滤 Cassandra TimeUUID/UUID

这是我的 Cassandra 架构，使用 Datastax Enterprise 创建 KEYSPACE 应用程序WITH replication = {'class': 'SimpleStrategy', 'replication_factor': 1};使用应用程序；创建表事件(桶文本，id timeuuid,app_id uuid,事件文本，PRIMARY KEY(存储桶，ID)); 我 ..

发布时间：2021-11-12 04:12:56 cassandra apache-pig datastax-enterprise 其他开发

如何在 hive 表中加载多行列数据?具有换行符的列

我在 Excel 文件中有一个列(不是最后一列)，其中包含跨越几行的数据. 列的某些单元格是空白的，而某些单元格具有单行条目. 当另存为 .CSV 文件或从 excel 中以制表符分隔的 .txt 时，所有多行数据和少量单行条目都用双引号生成，没有任何空白字段用引号引起来.一些单行条目不在引号内. 是否可以将具有相同结构的数据存储在 hive 表中?如果是，如何做到这一点?我知道 ..

发布时间：2021-11-12 04:12:53 hadoop hive apache-pig bigdata 其他开发

猪拉丁语 flatten 运算符的模式

我最近在工作中遇到了这个问题，是关于猪的扁平化.我用一个简单的例子来表达两个文件 ===文件1=== 1_a 2_b 4_d ===file2(制表符分隔)=== 1个 2 b 3 c 猪脚本1: a = load 'file1' as (str:chararray);b = 加载 'file2' as (num:int, ch:chararray);a1 = ..

发布时间：2021-11-12 04:12:50 java apache-pig Java开发

如何在猪拉丁语中组合/连接两个袋子

我有两个数据集: A = {uid, url};B = {uid, url}; 现在我做一个cogroup: C = COGROUP A BY uid, B BY uid; 我想把C改成{group AS uid, DISTINCT A.url+B.url}; 我的问题是如何将两个包 A.url 和 B.url 连接起来? 或者换一种说法，我如何在多列上做DISTINCT? ..

发布时间：2021-11-12 04:12:47 apache-pig 其他开发

在 Pig 中分组后选择字段

我可能遗漏了一些非常微不足道的东西，但我无法让它发挥作用.我有一个“电影"对象，有标题、演员、年份和角色.现在我想要的是带有标题的结果，以及一个包含演员/角色对的嵌套包. 如果我只做按标题分组电影，我最终会得到像 (title, {movie objects}) 这样的结果，这将是完美的，除了标题和年份也出现在电影对象中那里.我只想要演员和角色. 我也试过 foreach movie_ ..

发布时间：2021-11-12 04:12:44 apache-pig 其他开发

我有 50 个字段，在 pig 中是否有任何选项可以在 Apache Pig 中打印前 40 个字段?我需要类似范围 $0-$39 的东西

我有 50 个字段，pig 中是否有任何选项可以打印前 40 个字段?我需要类似范围 $0-$39 的东西.我不想指定每个字段，如 $0、$1、$2 等当列数较少时，给每一列是可以接受的，但当列数很大时，情况如何? 解决方案您可以使用 .. 表示法. 前 40 个字段 B = FOREACH A GENERATE $0..$39; 所有字段 B = FOREACH A ..

发布时间：2021-11-12 04:12:41 apache-pig 其他开发

如何在 Scala 中编写 Pig UDF

我正在尝试在 Scala 中编写一个 Pig UDF(使用 Eclipse).我在 java 构建路径中添加了 pig.jar 作为库，这似乎解决了下面的 2 个导入: 导入 org.apache.pig.EvalFunc 导入 org.apache.pig.data.Tuple 但是我收到了 2 个无法解决的错误: org.apache.pig.EvalFunc[T] 没有构 ..

发布时间：2021-11-12 04:12:38 java eclipse scala apache-pig Java开发

Json 解析与 Pig 中的大象鸟

我无法在 Pig 中解析以下数据.这是 Twitter API 在获取某个用户的所有推文后返回的内容. 源数据:(我删除了一些数字，以免无意中侵犯任何人的隐私) [{"created_at":"Sat Nov 01 23:15:45 +0000 2014","id":5286804225,"id_str":"5286864225","text":"@Beace_你的南使我笑她出来的一些东西 ..

发布时间：2021-11-12 04:12:35 hadoop apache-pig elephantbird 其他开发

如何将带有空格的命令行参数传递给 apache pig 脚本?

我想编写一个将过滤条件作为命令行参数的猪脚本.从命令行我想输入如下内容: pig -p "MY_FILTER=field1 == 0 and field2 == 5" myscript.pig 在我的脚本中有一行: my_filtered_data = 通过 $MY_FILTER 过滤 my_data; 当 MY_FILTER 没有空格并且我在我的值周围传递引号时，这会按预期工作；因此，如 ..

发布时间：2021-11-12 04:12:32 apache-pig 其他开发

apache-pig相关内容