hadoop相关内容
我正在尝试找出 Map 任务的输出在被 Reduce 任务使用之前保存到磁盘的位置. 注意: - 使用的版本是带有新 API 的 Hadoop 0.20.204 例如覆盖Map类中的map方法时: public void map(LongWritable key, Text value, Context context) throws IOException, Interrupted
..
我有两个独立的 java 类来执行两个不同的 mapreduce 作业.我可以独立运行它们.他们操作的输入文件对于这两个作业是相同的.所以我的问题是是否可以在一个java类中定义两个映射器和两个reducer,比如 mapper1.classmapper2.classreducer1.classreducer2.class 然后喜欢 job.setMapperClass(mapper1.cl
..
我已经设置了 Hadoop 2.3.0 的 2 节点集群.它工作正常,我可以成功运行分布式shell-2.2.0.jar 示例.但是当我尝试运行任何 mapreduce 作业时,我得到了错误.我已经根据 (http://www.alexjf.net/blog/distributed-systems/hadoop-yarn-installation-definitive-guide)但我收到以下错误
..
我正在从事一项处理嵌套目录结构的工作,其中包含多个级别的文件: 一个/├── 三/│ └── 四/│ ├── baz.txt│ ├── bleh.txt│ └── foo.txt└── 二/├── bar.txt└── gaa.txt 当我添加 one/ 作为输入路径时,不会处理任何文件,因为在根级别没有立即可用的文件. 我阅读了有关 job.addInputPathRecursivel
..
我有一个 haddop 工作,它的输出应该被写入 HBase.我真的不需要reducer,我想插入的行类型在Mapper中确定. 如何使用 TableOutputFormat 来实现这一点?从我看到的所有示例中,我假设 reducer 是创建 Put 的那个,而 TableMapper 只是用于从 HBase 表中读取. 在我的情况下,输入是 HDFS,输出是放到特定表中,我在 Tab
..
在使用 Hadoop API - DFSCleint.getFileChecksum() 复制到 HDFS 后,我正在尝试检查文件的一致性. 我得到上述代码的以下输出: 空HDFS:空本地:空 谁能指出错误或错误?这是代码: import java.io.IOException;导入 org.apache.hadoop.conf.Configuration;导入 org.apache.
..
我的程序遵循迭代 map/reduce 方法.如果满足某些条件,它需要停止.无论如何我可以设置一个可以分布在所有 map/reduce 任务中的全局变量,并检查全局变量是否达到完成条件. 类似的东西. While(Condition != true){配置 conf = getConf();Job job = new Job(conf, "Dijkstra Graph Search");j
..
我收到以下错误: 任务尝试_201304161625_0028_m_000000_0 600 秒未能报告状态.杀戮! 我的地图工作.这个问题类似于 这个,这个,和 这个.但是,我不想在 hadoop 杀死不报告进度的任务之前增加默认时间,即, 配置 conf=new Configuration();长毫秒 = 1000*60*60;conf.setLong("mapred.task.time
..
我已在 hive 的内部表中成功创建并添加了动态分区.即通过使用以下步骤: 1-创建源表 2-从本地加载数据到源表 3- 创建另一个带有分区的表 - partition_table 4- 将数据从源表插入到该表中,从而动态创建所有分区 我的问题是,如何在外部表中执行此操作?我读了很多关于此的文章,但我很困惑,我是否必须指定已经存在的分区的路径才能为外部表创建分区??
..
在 Eclipse 中开发 Java Map Reduce 作业有哪些选择?我的最终目标是在我的 amazon Hadoop 集群上运行我开发的 map/reduce 逻辑,但我想先在本地机器上测试逻辑并在其中放置断点,然后再将其部署到更大的集群. 我看到有一个适用于 Eclipse 的 Hadoop 插件,它看起来很旧(如果我错了,请纠正我),一家名为 Karmasphere 的公司为 e
..
我需要将我的 Map Reduce jar 文件拆分为两个作业,以便获得两个不同的输出文件,一个来自两个作业的每个 reducer. 我的意思是第一个作业必须生成一个输出文件,该文件将作为链中第二个作业的输入. 我在 hadoop 0.20 版(目前我使用的是 0.18)中读到了一些关于 ChainMapper 和 ChainReducer 的内容:这些可能对我的需求有好处? 谁
..
在 MapReduce 框架中,mapper 生成的每个 key 都使用一个 reducer. 所以你会认为在 Hadoop MapReduce 中指定 Reducer 的数量没有任何意义,因为它依赖于程序.但是,Hadoop 允许您指定要使用的 reducer 的数量(-D mapred.reduce.tasks=# of reducers). 这是什么意思?减速器数量的参数值是否指
..
我有一个处理图像的 matlab 代码.我想创建一个使用该代码的 Hadoop 映射器.我遇到了以下解决方案,但不确定哪个最好(因为我很难在 hadoop 中的每个从节点上安装 matlab 编译器运行时): 在 C++ 中手动将该 matlab 代码转换为 OpenCV,并从映射器调用其 exe/dll(并为其提供适当的参数).不确定,因为集群在每个节点上都安装了 Linux 而不是 Wi
..
我认为我总体上对 MapReduce 编程模型有相当了解,但即使在阅读了原始论文和其他一些资料之后,我也不清楚许多细节,尤其是关于中间结果的划分. 我将快速总结一下到目前为止我对 MapReduce 的理解:我们有一个可能非常大的输入数据集,它被 MR-Framework 自动分成 M 个不同的部分.对于每一部分,框架都会安排一个地图任务,该任务由我的集群中的一个可用处理器/机器执行.M 个
..
我的程序看起来像 public class TopKRecord extends Configured implements Tool {公共静态类 MapClass 扩展 Mapper{公共无效映射(文本键,文本值,上下文上下文)抛出 IOException,InterruptedException {//你的地图代码在这里String[] 字段 =
..
我正在使用新的 Hadoop API 并寻找一种将一些参数(少量字符串)传递给映射器的方法. 我该怎么做? 此解决方案适用于旧 API: JobConf 工作 = (JobConf)getConf();job.set("NumberOfDocuments", args[0]); 这里,“NumberOfDocuments"是参数的名称,它的值是从命令行参数“args[0]"中读取的.设
..
我了解了 MRv1 的工作原理.现在我正在尝试了解 MRv2.. YARN 中的 Application Manager 和 Application Master 有什么区别? 解决方案 Application Master 和 Application Manager 这两个术语经常互换使用.实际上,Application Master 是请求、启动和监控应用程序特定资源的主要容器,而 A
..
有人可以概述各种可用的 Hadoop 发行版之间的各种差异吗: Cloudera - http://www.cloudera.com/hadoop 雅虎 - http://developer.yahoo.net/blogs/hadoop/ 使用 Apache Hadoop 发行版作为基准. 是否有充分的理由在标准 Apache Hadoop 发行版上使用这些发行版之一?
..
我被困了几天,因为我想根据我在 hive 上的查询创建一个自定义 map reduce 程序,谷歌搜索后发现的例子不多,我仍然对规则感到困惑. 创建我的自定义mapreduce程序的规则是什么,mapper和reducer类呢? 谁能提供任何解决方案? 我想用Java开发这个程序,但我还是卡住了,然后在collector中格式化输出时,如何在mapper和reducer类中格式化
..
Hadoop 是否根据程序中设置的映射器数量来拆分数据?也就是说,有一个大小为 500MB 的数据集,如果 mapper 的数量是 200 个(假设 Hadoop 集群允许同时有 200 个 mapper),每个 mapper 是否给了 2.5 MB 的数据? 此外,所有映射器是同时运行还是其中一些可能会串行运行? 解决方案 我刚刚根据您的问题运行了一个示例 MR 程序,这是我的发现
..