hadoop-plugins相关内容

设置类路径后包 org.apache.hadoop.conf 不存在

我是 hadoop 的初学者,使用 hadoop 的初学者指南作为教程. 我使用的是 mac osx 10.9.2 和 hadoop 版本 1.2.1 当我在终端中调用 echo $PATH 时,我已经设置了所有适当的类路径: 这是我得到的结果: /Library/Frameworks/Python.framework/Versions/2.7/bin:/Users/ola ..
发布时间:2021-11-22 16:40:05 Java Web开发

使用 loadfunc pig UDF 将 protobuf 格式文件加载到 pig 脚本中

我对猪知之甚少.我有 protobuf 格式的数据文件.我需要将此文件加载到猪脚本中.我需要编写一个 LoadFunc UDF 来加载它.说函数是 Protobufloader(). 我的 PIG 脚本是 A = LOAD 'abc_protobuf.dat' USING Protobufloader() as (name, phonenumber, email); 我只想知道如何获取文 ..
发布时间:2021-11-12 04:06:37 其他开发

Eclipse的hadoop插件未显示在ubuntu上

我正在尝试在Ubuntu上设置hadoop以开发项目.我正在使用Ubuntu 12,hadoop 0.18,java6和Eclipse.Ubuntu OS在虚拟机(VMware)上运行. 我按照以下指南安装了hadoop: hadoop/contrib/eclipse-plugin "复制到了"/usr/share/eclipse/plugins ". 这是问题所在:当我以根用户身份启 ..
发布时间:2021-05-03 19:41:01 其他开发

在Apache Drill上制作存储插件到HDFS

我正在尝试为Hadoop(hdfs)和Apache Drill创建存储插件. 其实我很困惑,我不知道将什么设置为hdfs://连接的端口,以及什么设置为位置. 这是我的插件: { "type": "file", "enabled": true, "connection": "hdfs://localhost:54310", "workspaces": { "root": { ..
发布时间:2020-11-22 02:57:58 其他开发

部分聚合与组合器哪个更快?

有关级联/缩放的优化方式的通知地图端评估 他们使用所谓的部分聚合. 实际上是比合并器更好的方法吗?在某些常见的Hadoop任务(例如字数统计)上是否有性能比较? 如果是这样,那么hadoop将来会支持吗? 解决方案 在实践中,部分聚合比使用组合器具有更多的好处. 组合器有用的情况是有限的.此外,组合器还优化了任务所需的吞吐量,而不是减少的数量-这是一个微妙的区别,它会导致明显的性能差 ..
发布时间:2020-11-22 02:15:24 其他开发

在hadoop多节点集群上启动HDFS守护程序时出错

在Hadoop多节点设置时发出问题.我启动Master上的hdfs恶魔(bin/start-dfs.sh) 我确实获得了Master的以下日志 starting namenode, logging to /home/hduser/hadoop/libexec/../logs/hadoop-hduser-namenode-localhost.localdomain.out slave: ..
发布时间:2020-06-17 19:21:57 其他开发

在hadoop中不推荐使用hdfs命令

http://www.codeproject.com/Articles/757934/Apache-Hadoop-for-Windows-Platform https://www.youtube.com/watch?v=VhxWig96dME 。 执行命令c 时: /hadoop-2.3.0/bin/hadoop namenode -format ,我得到了下面给出的错误消息 ** ..
发布时间:2018-05-31 20:26:49 分布式计算/Hadoop

Hadoop DBWritable:无法将记录从Hadoop缩减器插入到MySQL

我已经使用Hadoop映射器来从文件中读取记录,它成功完全从文件中读取记录。但是while java.io.IOException:关键'PRIMARY'的重复条目'505975648' 但是Mysql表仍然是空的。无法将记录写入Hadoop DBWritable reducer的mysql表。 以下是错误日志: 警告:com.mysql.jdbc.exceptions.j ..
发布时间:2018-05-31 20:24:36 分布式计算/Hadoop

如何获得由Hadoop执行的完成作业统计信息?

当我们通过Hadoop运行数据密集型工作时。 Hadoop执行作业。 现在我想要的是工作完成时。它会给我关于 执行工作的统计数字,消耗时间,映射器数量,还原器数量和其他有用信息。 浏览器中显示的信息,如作业跟踪器,作业执行期间的数据节点。 但是,如何在我的应用程序中获得统计数据,并通过Hadoop运行作业,并在作业完成后为我提供结果,如报告。我的应用程序在JAVA中 任何可以帮助 ..
发布时间:2018-05-31 20:18:11 分布式计算/Hadoop

Webhdfs返回错误的datanode地址

curl -i -X PUT“http:// SomeHostname:50070 / webhdfs / v1 / file1?op = CREATE” HTTP / 1.1 307 TEMPORARY_REDIRECT Content-Type:application / octet-stream 位置:http:// sslave0:50075 / webhdfs / v1 / f ..
发布时间:2018-05-31 20:13:26 分布式计算/Hadoop

InvalidRequestException(原因:如果empid包含一个Equal,则不能由多个关系限制)

这是关于我在从Apache Spark查询Cassandra时遇到的一个问题。 Spark的普通查询工作正常,没有任何问题,但是当我用条件这是我得到下面的错误的关键。 最初我尝试查询复合键列系列,它也给出了与下面相同的问题。 “引起:InvalidRequestException :如果包含Equal,empid不能被多个关系限制)“ Column Family: CR ..
发布时间:2018-05-31 19:52:51 分布式计算/Hadoop

Datanode在单机上的Hadoop中失败

我在ubuntu 12.04 LTS上使用以下教程设置和配置sudo节点hadoop环境 http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu -linux-multi-node-cluster /#formatting-the-hdfs-filesystem-via-the-namenode 输入hadoop / b ..
发布时间:2018-05-31 19:31:39 分布式计算/Hadoop

Hadoop webuser:没有这样的用户

在运行hadoop多节点集群时,我在主日志中收到了错误消息,可以建议做些什么..?我需要创建一个新用户还是可以在这里给我现有的机器用户名 2013-07-25 19:41: 11,765 WARN org.apache.hadoop.security.UserGroupInformation:没有组可用 用户webuser 2013-07-25 19:41:11,778 WARN or ..
发布时间:2018-05-31 19:26:38 分布式计算/Hadoop

新用户SSH hadoop

在单节点群集上安装hadoop,任何想法为什么我们需要创建以下内容: 为什么我们需要SSH访问新用户..? 为什么应该能够连接到自己的用户帐户? $ b 为什么我应该为新用户指定一个密码? 当所有节点在同一台机器上时,他们是否明确沟通......?/ b> http://www.michael-noll.com/tutorials/running-hadoop-on-ub ..
发布时间:2018-05-31 19:18:04 分布式计算/Hadoop

使用loadfunc pig UDF将protobuf格式文件加载到猪脚本中

我对猪的知识很少。我有protobuf格式的数据文件。我需要将这个文件加载到猪脚本中。我需要编写一个LoadFunc UDF来加载它。说功能是 Protobufloader()。 我的PIG脚本是 A = LOAD'abc_protobuf。 dat'使用Protobufloader()作为(姓名,电话号码,电子邮件); 我想知道的是如何获取文件输入流。一旦我得到了 ..
发布时间:2018-05-31 19:16:26 分布式计算/Hadoop

是否可以在一个JVM中运行多个映射任务?

我想在Hadoop中为我的地图任务共享大内存静态数据(RAM lucene索引)?有几种map / reduce任务可以共享相同的JVM? 解决方案 作业可以使任务JVM通过指定作业配置mapred.job.reuse.jvm.num.tasks。如果该值为1(缺省值),则不重用JVM(即每个JVM有1个任务)。如果它是-1,则JVM可以运行的任务数量没有限制(同一作业)。也可以使用api ..
发布时间:2018-05-31 18:57:49 分布式计算/Hadoop

从属机器上的DiskErrorException - Hadoop多节点

我正在尝试处理来自hadoop的XML文件,在调用XML文件的字数统计作业时出现以下错误。 13/07/25 12:39:57信息mapred.JobClient:任务ID:attempt_201307251234_0001_m_000008_0,状态:FAILED 太多的读取失败 13/07/25 12:39:58信息mapred.JobClient:地图99%减少0% 13/07 ..
发布时间:2018-05-31 18:55:49 分布式计算/Hadoop

如何访问和操作Hadoop中的pdf文件数据?

我想用hadoop阅读PDF文件,它有可能如何? 我只知道hadoop只能处理txt文件,所以无论如何都要将PDF文件解析为txt文件。 给我一​​些建议。 解决方案 创建一个 SequenceFile 到包含PDF文件。 SequenceFile是一种二进制文件格式。您可以使SequenceFile中的每条记录成为PDF。为此,您可以创建一个从可写入,其中将包含您需要的PDF和任 ..
发布时间:2018-05-31 18:51:16 分布式计算/Hadoop

在Hadoop流中链接多个mapreduce任务

我处于有两个mapreduce作业的场景。我更喜欢python,并计划用它来编写mapreduce脚本,并使用hadoop流式传输。在使用hadoop流式传输的时候,有没有一种方便的方式来链接下面的表单? Map1 - > Reduce1 - > Map2 - > Reduce2 我在java中听到很多方法来完成这个任务,但是我需要一些Hadoop流。 解决方案 这是一篇关于如 ..
发布时间:2018-05-31 18:34:31 分布式计算/Hadoop