elephantbird - IT屋-程序员软件开发技术分享社区

使用大象鸟和 hive 读取 protobuf 数据

我有一个类似的问题，比如这个一个以下是我使用的: CDH4.4 (hive 0.10) protobuf-java-.2.4.1.jar elephant-bird-hive-4.6-SNAPSHOT.jar elephant-bird-core-4.6-SNAPSHOT.jar elephant-bird-hadoop-compat-4.6-SNAPSHOT.jar 包 ..

发布时间：2021-12-28 23:59:04 hadoop hive protocol-buffers elephantbird 其他开发

象鸟错误 1070: --- >课没有读

我的问题类似于这个未回答的问题: [https://stackoverflow.com/questions/42140344/elephantbird-dependency-jars][1] 我已经注册了大象鸟运行所必需的所有罐子. REGISTER '/MyJARS/elephant-bird-hadoop-compat-4.1注册'/MyJARS/json-simple-1.1. ..

发布时间：2021-11-12 04:20:06 json hadoop apache-pig elephantbird 其他开发

如何在 Pig Latin 中加载每行带有 JSON 数组的文件

现有脚本创建文本文件，每行包含一组 JSON 对象，例如， [{"foo":1,"bar":2},{"foo":3,"bar":4}][{"foo":5,"bar":6},{"foo":7,"bar":8},{"foo":9,"bar":0}]… 我想在 Pig 中加载这些数据，分解数组并处理每个单独的对象. 我曾在 Twitter 的 Elephant Bird 中查看使用 JsonL ..

发布时间：2021-11-12 04:17:00 hadoop apache-pig elephantbird 其他开发

如何在 Pig 中将许多地图的元组拆分为不同的行

我在 Pig 中有一个如下所示的关系: ([account_id#100,时间戳#1434，编号#900],[account_id#100,时间戳#1434，编号#901],[account_id#100,时间戳#1434，编号#902]) 如您所见，我在一个元组中有三个地图对象.以上所有数据都在关系中的第 0 美元字段内.所以上面的数据与单个字节数组列有关系. 数据加载如下: dat ..

发布时间：2021-11-12 04:13:31 hadoop dictionary tuples apache-pig elephantbird 其他开发

Json 解析与 Pig 中的大象鸟

我无法在 Pig 中解析以下数据.这是 Twitter API 在获取某个用户的所有推文后返回的内容. 源数据:(我删除了一些数字，以免无意中侵犯任何人的隐私) [{"created_at":"Sat Nov 01 23:15:45 +0000 2014","id":5286804225,"id_str":"5286864225","text":"@Beace_你的南使我笑她出来的一些东西 ..

发布时间：2021-11-12 04:12:35 hadoop apache-pig elephantbird 其他开发

我下载了 ElephantBird 源代码并尝试通过运行“mvn package"进行构建，但出现以下错误: [ERROR] 无法执行目标 com.github.igor-petruk.protobuf:protobuf-maven-plugin:0.4:run (default) on projectelephant-bird-core: Unable to find 'protoc' ->[ ..

发布时间：2021-11-12 04:09:47 apache-pig elephantbird 其他开发

Elephant-bird mvn 包错误

我已经在我的系统中安装了 hadoop 2.2.我想用象鸟罐.运行“mvn package"时出现以下错误. 错误: [ERROR] 无法执行目标 org.apache.maven.plugins:maven-compiler-plugin:2.3.2:compile (default-compile) on projectelephant-bird-core: Compilation f ..

发布时间：2021-11-12 04:08:27 java maven hadoop apache-pig elephantbird Java开发

从 HDFS 加载数据不适用于 Elephantbird

我正在尝试使用 pig 中的大象鸟处理数据，但我没有成功加载数据.这是我的猪脚本: 注册'lib/elephant-bird-core-3.0.9.jar';注册“lib/elephant-bird-pig-3.0.9.jar"；注册“lib/google-collections-1.0.jar"；注册“lib/json-simple-1.1.jar"；推特 = 加载 'statuses.log ..

发布时间：2021-11-12 04:06:55 hadoop apache-pig cloudera elephantbird 其他开发

如何在Pig Latin中每行加载带有JSON数组的文件

现有脚本创建的文本文件每行带有JSON对象数组，例如 [{"foo":1,"bar":2},{"foo":3,"bar":4}] [{"foo":5,"bar":6},{"foo":7,"bar":8},{"foo":9,"bar":0}] … 我想将此数据加载到Pig中，分解数组并处理每个对象. 我曾经考虑过在Twitter的大象鸟中使用JsonLoader毫无用处.它并没有抱怨 ..

发布时间：2020-09-03 20:38:44 hadoop apache-pig elephantbird 其他开发

ElephantBird软件包构建失败:

我下载了ElephantBird源文件，并尝试通过运行"mvn软件包"进行构建，但出现以下错误: [ERROR] Failed to execute goal com.github.igor-petruk.protobuf:protobuf-maven-plugin:0.4:run (default) on project elephant-bird-core: Unable to find ..

发布时间：2020-09-03 20:11:34 apache-pig elephantbird 其他开发

Pig:使用实际的key_name和值创建json文件

我有一个使用大象鸟json加载器的猪脚本. data_input = LOAD '$DATA_INPUT' USING com.twitter.elephantbird.pig.load.JsonLoader() AS (json:map []); x = FOREACH data_input GENERATE json#'user__id_str', json#'user__create ..

发布时间：2019-11-26 23:03:22 json apache-pig elephantbird JavaScript

无法查询与elephant-bird配合使用的示例AddressBook protobuf数据

我试图用大象鸟来查询一些protobuf数据的例子。我正在使用AddressBook示例，并将少量伪造的AddressBook序列化为文件，并将它们放在/ user / foo / data / elephant-bird / addressbooks /下的hdfs中。查询返回结果我设置表并查询，如下所示： add jar / home / foo / downloads / ..

发布时间：2018-06-12 14:12:58 hadoop hive protocol-buffers elephantbird 其他开发

ElephantBird ERROR 1070：--->班级没有阅读

我的问题类似于这个未解答的问题： [ https://stackoverflow.com/questions/42140344/elephantbird-dependency-jars] [1] 我已经注册了大象鸟必须运行的所有jar。注册'/MyJARS/elephant-bird-hadoop-compat-4.1 注册'/ MyJARS / json-simple -1 ..

发布时间：2018-05-31 20:27:12 json hadoop apache-pig elephantbird 分布式计算/Hadoop

Json与猪中的大象鸟解析

我无法获得以下数据在Pig中解析。这是Twitter API在收到特定用户的所有推文后返回的内容。源数据:(我删除了一些数字以防止意外侵入任何人的隐私） [{“created_at”：“Sat Nov 01 23:15:45 +0000 2014”，“id”：5286804225，“id_str” ：“5286864225”，“文字”：“@Beace_你的nan让我发笑了一些她出来 ..

发布时间：2018-05-31 19:57:14 hadoop apache-pig elephantbird 分布式计算/Hadoop

大象鸟mvn包错误

我在系统中安装了hadoop 2.2。我想用大象鸟罐。在运行“mvn package”时出现以下错误。错误： [错误]未能执行目标org.apache.maven.plugins：maven-compiler-plugin：2.3.2：编译（默认编译）项目elephant-bird- core：编译失败：编译失败： [错误] /usr/lib/hadoop/elephant_bi ..

发布时间：2018-05-31 19:30:39 java maven hadoop apache-pig elephantbird Java开发

从HDFS加载数据不适用于Elephantbird

我试图在猪身上处理大象鸟的数据，但我没有成功加载数据。这是我的猪脚本： register'lib / elephant-bird-core-3.0.9.jar'; 注册'lib / elephant-bird-pig-3.0.9.jar'; 注册'lib / google-collections-1.0.jar'; 注册'lib / json-simple-1.1.jar'; ..

发布时间：2018-05-31 19:17:57 hadoop apache-pig cloudera elephantbird 分布式计算/Hadoop

使用带有蜂巢的大象鸟来读取protobuf数据

我有类似的问题，例如此一个以下是我用过的： CDH4 .4（hive 0.10） protobuf -java -.2.4.1.jar elephant-bird-hive-4.6-SNAPSHOT.jar / li> elephant-bird-core-4.6-SNAPSHOT.jar elephant-bird-hadoop-compat-4.6-SNAPSHOT.ja ..

发布时间：2018-05-31 18:59:25 hadoop hive protocol-buffers elephantbird 分布式计算/Hadoop

如何将Pig中的许多地图的元组分割成不同的行

（[account_id＃100， timestamp＃ 1434， id＃900]， [account_id＃100， timestamp＃1434， id＃901]， [ account_id＃100， timestamp＃1434， id＃902]）你可以看到，我有一个元组中的三个地图对象。上述所有数据都在关系的$ 0的字段之内。所以上面的数据与单个 ..

发布时间：2017-05-22 00:04:48 hadoop dictionary tuples apache-pig elephantbird 其他开发

elephantbird相关内容