hadoop-plugins相关内容
我想在 Hadoop 中为我的地图任务共享大量内存静态数据(RAM lucene 索引)?有没有办法让多个 map/reduce 任务共享同一个 JVM? 解决方案 通过指定作业配置mapred.job.reuse.jvm.num.tasks,作业可以使任务JVM被重用.如果值为 1(默认值),则不重用 JVM(即每个 JVM 1 个任务).如果为 -1,则 JVM 可以运行(同一个作业)
..
我正在尝试从 hadoop 处理 XML 文件,但在对 XML 文件调用字数统计作业时出现以下错误. 13/07/25 12:39:57 信息 mapred.JobClient:任务 ID:尝试_201307251234_0001_m_000008_0,状态:失败获取失败太多13/07/25 12:39:58 INFO mapred.JobClient: 地图 99% 减少 0%13/07/25
..
我处于有两个 mapreduce 作业的场景中.我对 python 更熟悉,并计划使用它来编写 mapreduce 脚本并使用 hadoop 流进行相同的操作.使用 hadoop 流式传输时,是否可以方便地将以下两种作业链接起来? Map1 -> Reduce1 -> Map2 -> Reduce2 我听说过很多在 Java 中实现此目的的方法,但我需要一些用于 Hadoop 流的东西
..
我是 hadoop 的初学者,使用 hadoop 的初学者指南作为教程. 我使用的是 mac osx 10.9.2 和 hadoop 版本 1.2.1 当我在终端中调用 echo $PATH 时,我已经设置了所有适当的类路径: 这是我得到的结果: /Library/Frameworks/Python.framework/Versions/2.7/bin:/Users/ola
..
我对猪知之甚少.我有 protobuf 格式的数据文件.我需要将此文件加载到猪脚本中.我需要编写一个 LoadFunc UDF 来加载它.说函数是 Protobufloader(). 我的 PIG 脚本是 A = LOAD 'abc_protobuf.dat' USING Protobufloader() as (name, phonenumber, email); 我只想知道如何获取文
..
我正在尝试在Ubuntu上设置hadoop以开发项目.我正在使用Ubuntu 12,hadoop 0.18,java6和Eclipse.Ubuntu OS在虚拟机(VMware)上运行. 我按照以下指南安装了hadoop: hadoop/contrib/eclipse-plugin "复制到了"/usr/share/eclipse/plugins ". 这是问题所在:当我以根用户身份启
..
我正在尝试为Hadoop(hdfs)和Apache Drill创建存储插件. 其实我很困惑,我不知道将什么设置为hdfs://连接的端口,以及什么设置为位置. 这是我的插件: { "type": "file", "enabled": true, "connection": "hdfs://localhost:54310", "workspaces": { "root": {
..
有关级联/缩放的优化方式的通知地图端评估 他们使用所谓的部分聚合. 实际上是比合并器更好的方法吗?在某些常见的Hadoop任务(例如字数统计)上是否有性能比较? 如果是这样,那么hadoop将来会支持吗? 解决方案 在实践中,部分聚合比使用组合器具有更多的好处. 组合器有用的情况是有限的.此外,组合器还优化了任务所需的吞吐量,而不是减少的数量-这是一个微妙的区别,它会导致明显的性能差
..
在Hadoop多节点设置时发出问题.我启动Master上的hdfs恶魔(bin/start-dfs.sh) 我确实获得了Master的以下日志 starting namenode, logging to /home/hduser/hadoop/libexec/../logs/hadoop-hduser-namenode-localhost.localdomain.out slave:
..
我已经使用Hadoop映射器来从文件中读取记录,它成功完全从文件中读取记录。但是while java.io.IOException:关键'PRIMARY'的重复条目'505975648' 但是Mysql表仍然是空的。无法将记录写入Hadoop DBWritable reducer的mysql表。 以下是错误日志: 警告:com.mysql.jdbc.exceptions.j
..
当我们通过Hadoop运行数据密集型工作时。 Hadoop执行作业。 现在我想要的是工作完成时。它会给我关于 执行工作的统计数字,消耗时间,映射器数量,还原器数量和其他有用信息。 浏览器中显示的信息,如作业跟踪器,作业执行期间的数据节点。 但是,如何在我的应用程序中获得统计数据,并通过Hadoop运行作业,并在作业完成后为我提供结果,如报告。我的应用程序在JAVA中 任何可以帮助
..
curl -i -X PUT“http:// SomeHostname:50070 / webhdfs / v1 / file1?op = CREATE” HTTP / 1.1 307 TEMPORARY_REDIRECT Content-Type:application / octet-stream 位置:http:// sslave0:50075 / webhdfs / v1 / f
..
我在ubuntu 12.04 LTS上使用以下教程设置和配置sudo节点hadoop环境 http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu -linux-multi-node-cluster /#formatting-the-hdfs-filesystem-via-the-namenode 输入hadoop / b
..
我使用的是mac osx 10.9.2和hadoop 1.2.1版本 当我在终端中调用echo $ PATH时,我设置了所有适当的类路径: 这里是结果我得到: /Library/Frameworks/Python.framework/Versions/2.7/bin:/Users/oladotunopasina/hadoop-1.2。 1 / Hadoop的核 - 1.2.1.j
..
在运行hadoop多节点集群时,我在主日志中收到了错误消息,可以建议做些什么..?我需要创建一个新用户还是可以在这里给我现有的机器用户名 2013-07-25 19:41: 11,765 WARN org.apache.hadoop.security.UserGroupInformation:没有组可用 用户webuser 2013-07-25 19:41:11,778 WARN or
..
在单节点群集上安装hadoop,任何想法为什么我们需要创建以下内容: 为什么我们需要SSH访问新用户..? 为什么应该能够连接到自己的用户帐户? $ b 为什么我应该为新用户指定一个密码? 当所有节点在同一台机器上时,他们是否明确沟通......?/ b> http://www.michael-noll.com/tutorials/running-hadoop-on-ub
..
我对猪的知识很少。我有protobuf格式的数据文件。我需要将这个文件加载到猪脚本中。我需要编写一个LoadFunc UDF来加载它。说功能是 Protobufloader()。 我的PIG脚本是 A = LOAD'abc_protobuf。 dat'使用Protobufloader()作为(姓名,电话号码,电子邮件); 我想知道的是如何获取文件输入流。一旦我得到了
..
我想在Hadoop中为我的地图任务共享大内存静态数据(RAM lucene索引)?有几种map / reduce任务可以共享相同的JVM? 解决方案 作业可以使任务JVM通过指定作业配置mapred.job.reuse.jvm.num.tasks。如果该值为1(缺省值),则不重用JVM(即每个JVM有1个任务)。如果它是-1,则JVM可以运行的任务数量没有限制(同一作业)。也可以使用api
..
我正在尝试处理来自hadoop的XML文件,在调用XML文件的字数统计作业时出现以下错误。 13/07/25 12:39:57信息mapred.JobClient:任务ID:attempt_201307251234_0001_m_000008_0,状态:FAILED 太多的读取失败 13/07/25 12:39:58信息mapred.JobClient:地图99%减少0% 13/07
..
我想用hadoop阅读PDF文件,它有可能如何? 我只知道hadoop只能处理txt文件,所以无论如何都要将PDF文件解析为txt文件。 给我一些建议。 解决方案 创建一个 SequenceFile 到包含PDF文件。 SequenceFile是一种二进制文件格式。您可以使SequenceFile中的每条记录成为PDF。为此,您可以创建一个从可写入,其中将包含您需要的PDF和任
..