hadoop相关内容

Hadoop MapReduce:可以在一个 hadoop 作业类中定义两个映射器和化简器吗?

我有两个独立的 java 类来执行两个不同的 mapreduce 作业.我可以独立运行它们.他们操作的输入文件对于这两个作业是相同的.所以我的问题是是否可以在一个java类中定义两个映射器和两个reducer,比如 mapper1.classmapper2.classreducer1.classreducer2.class 然后喜欢 job.setMapperClass(mapper1.cl ..
发布时间:2022-01-14 08:04:28 其他开发

Hadoop MapReduce 提供嵌套目录作为作业输入

我正在从事一项处理嵌套目录结构的工作,其中包含多个级别的文件: 一个/├── 三/│ └── 四/│ ├── baz.txt│ ├── bleh.txt│ └── foo.txt└── 二/├── bar.txt└── gaa.txt 当我添加 one/ 作为输入路径时,不会处理任何文件,因为在根级别没有立即可用的文件. 我阅读了有关 job.addInputPathRecursivel ..
发布时间:2022-01-14 08:03:54 其他开发

Hadoop - 直接从 Mapper 写入 HBase

我有一个 haddop 工作,它的输出应该被写入 HBase.我真的不需要reducer,我想插入的行类型在Mapper中确定. 如何使用 TableOutputFormat 来实现这一点?从我看到的所有示例中,我假设 reducer 是创建 Put 的那个,而 TableMapper 只是用于从 HBase 表中读取. 在我的情况下,输入是 HDFS,输出是放到特定表中,我在 Tab ..
发布时间:2022-01-14 08:03:49 Java开发

HDFS 文件校验和

在使用 Hadoop API - DFSCleint.getFileChecksum() 复制到 HDFS 后,我正在尝试检查文件的一致性. 我得到上述代码的以下输出: 空HDFS:空本地:空 谁能指出错误或错误?这是代码: import java.io.IOException;导入 org.apache.hadoop.conf.Configuration;导入 org.apache. ..
发布时间:2022-01-14 08:03:40 Java开发

hadoop 中的全局变量

我的程序遵循迭代 map/reduce 方法.如果满足某些条件,它需要停止.无论如何我可以设置一个可以分布在所有 map/reduce 任务中的全局变量,并检查全局变量是否达到完成条件. 类似的东西. While(Condition != true){配置 conf = getConf();Job job = new Job(conf, "Dijkstra Graph Search");j ..
发布时间:2022-01-14 08:03:27 其他开发

600 秒内无法报告状态.杀戮!在 hadoop 中报告进度

我收到以下错误: 任务尝试_201304161625_0028_m_000000_0 600 秒未能报告状态.杀戮! 我的地图工作.这个问题类似于 这个,这个,和 这个.但是,我不想在 hadoop 杀死不报告进度的任务之前增加默认时间,即, 配置 conf=new Configuration();长毫秒 = 1000*60*60;conf.setLong("mapred.task.time ..
发布时间:2022-01-14 08:03:18 Java开发

在 hive 的外部表中创建分区

我已在 hive 的内部表中成功创建并添加了动态分区.即通过使用以下步骤: 1-创建源表 2-从本地加载数据到源表 3- 创建另一个带有分区的表 - partition_table 4- 将数据从源表插入到该表中,从而动态创建所有分区 我的问题是,如何在外部表中执行此操作?我读了很多关于此的文章,但我很困惑,我是否必须指定已经存在的分区的路径才能为外部表创建分区?? ..
发布时间:2022-01-14 08:03:11 其他开发

使用 Eclipse 开发、测试和调试 Hadoop map/reduce 作业

在 Eclipse 中开发 Java Map Reduce 作业有哪些选择?我的最终目标是在我的 amazon Hadoop 集群上运行我开发的 map/reduce 逻辑,但我想先在本地机器上测试逻辑并在其中放置断点,然后再将其部署到更大的集群. 我看到有一个适用于 Eclipse 的 Hadoop 插件,它看起来很旧(如果我错了,请纠正我),一家名为 Karmasphere 的公司为 e ..
发布时间:2022-01-14 08:03:03 Java开发

Map Reduce:ChainMapper 和 ChainReducer

我需要将我的 Map Reduce jar 文件拆分为两个作业,以便获得两个不同的输出文件,一个来自两个作业的每个 reducer. 我的意思是第一个作业必须生成一个输出文件,该文件将作为链中第二个作业的输入. 我在 hadoop 0.20 版(目前我使用的是 0.18)中读到了一些关于 ChainMapper 和 ChainReducer 的内容:这些可能对我的需求有好处? 谁 ..
发布时间:2022-01-14 08:02:56 其他开发

Hadoop MapReduce:关于 reducer 数量的说明

在 MapReduce 框架中,mapper 生成的每个 key 都使用一个 reducer. 所以你会认为在 Hadoop MapReduce 中指定 Reducer 的数量没有任何意义,因为它依赖于程序.但是,Hadoop 允许您指定要使用的 reducer 的数量(-D mapred.reduce.tasks=# of reducers). 这是什么意思?减速器数量的参数值是否指 ..
发布时间:2022-01-14 08:02:46 其他开发

如何在映射器(Hadoop)中使用 MATLAB 代码?

我有一个处理图像的 matlab 代码.我想创建一个使用该代码的 Hadoop 映射器.我遇到了以下解决方案,但不确定哪个最好(因为我很难在 hadoop 中的每个从节点上安装 matlab 编译器运行时): 在 C++ 中手动将该 matlab 代码转换为 OpenCV,并从映射器调用其 exe/dll(并为其提供适当的参数).不确定,因为集群在每个节点上都安装了 Linux 而不是 Wi ..
发布时间:2022-01-14 08:02:26 Java开发

MapReduce 中的分区究竟是如何工作的?

我认为我总体上对 MapReduce 编程模型有相当了解,但即使在阅读了原始论文和其他一些资料之后,我也不清楚许多细节,尤其是关于中间结果的划分. 我将快速总结一下到目前为止我对 MapReduce 的理解:我们有一个可能非常大的输入数据集,它被 MR-Framework 自动分成 M 个不同的部分.对于每一部分,框架都会安排一个地图任务,该任务由我的集群中的一个可用处理器/机器执行.M 个 ..
发布时间:2022-01-14 08:02:20 其他开发

将参数传递给 Hadoop 映射器

我正在使用新的 Hadoop API 并寻找一种将一些参数(少量字符串)传递给映射器的方法. 我该怎么做? 此解决方案适用于旧 API: JobConf 工作 = (JobConf)getConf();job.set("NumberOfDocuments", args[0]); 这里,“NumberOfDocuments"是参数的名称,它的值是从命令行参数“args[0]"中读取的.设 ..
发布时间:2022-01-14 08:01:58 其他开发

Hadoop 分布差异

有人可以概述各种可用的 Hadoop 发行版之间的各种差异吗: Cloudera - http://www.cloudera.com/hadoop 雅虎 - http://developer.yahoo.net/blogs/hadoop/ 使用 Apache Hadoop 发行版作为基准. 是否有充分的理由在标准 Apache Hadoop 发行版上使用这些发行版之一? ..
发布时间:2022-01-14 08:01:32 Java开发

Hive 上的自定义 Map Reduce 程序,规则是什么?输入输出如何?

我被困了几天,因为我想根据我在 hive 上的查询创建一个自定义 map reduce 程序,谷歌搜索后发现的例子不多,我仍然对规则感到困惑. 创建我的自定义mapreduce程序的规则是什么,mapper和reducer类呢? 谁能提供任何解决方案? 我想用Java开发这个程序,但我还是卡住了,然后在collector中格式化输出时,如何在mapper和reducer类中格式化 ..
发布时间:2022-01-14 08:01:25 其他开发

Hadoop中数据是如何拆分的

Hadoop 是否根据程序中设置的映射器数量来拆分数据?也就是说,有一个大小为 500MB 的数据集,如果 mapper 的数量是 200 个(假设 Hadoop 集群允许同时有 200 个 mapper),每个 mapper 是否给了 2.5 MB 的数据? 此外,所有映射器是同时运行还是其中一些可能会串行运行? 解决方案 我刚刚根据您的问题运行了一个示例 MR 程序,这是我的发现 ..
发布时间:2022-01-14 08:01:07 其他开发