hadoop 第6页 - IT屋-程序员软件开发技术分享社区

在 Hadoop 中，框架将 Map 任务的输出保存在普通 Map-Reduce 应用程序中的什么位置?

我正在尝试找出 Map 任务的输出在被 Reduce 任务使用之前保存到磁盘的位置. 注意: - 使用的版本是带有新 API 的 Hadoop 0.20.204 例如覆盖Map类中的map方法时: public void map(LongWritable key, Text value, Context context) throws IOException, Interrupted ..

发布时间：2022-01-14 08:04:50 java hadoop mapreduce cluster-computing cloudera Java开发

Hadoop MapReduce:可以在一个 hadoop 作业类中定义两个映射器和化简器吗?

我有两个独立的 java 类来执行两个不同的 mapreduce 作业.我可以独立运行它们.他们操作的输入文件对于这两个作业是相同的.所以我的问题是是否可以在一个java类中定义两个映射器和两个reducer，比如 mapper1.classmapper2.classreducer1.classreducer2.class 然后喜欢 job.setMapperClass(mapper1.cl ..

发布时间：2022-01-14 08:04:28 hadoop mapreduce 其他开发

Yarn MapReduce 作业问题 - Hadoop 2.3.0 中的 AM 容器启动错误

我已经设置了 Hadoop 2.3.0 的 2 节点集群.它工作正常，我可以成功运行分布式shell-2.2.0.jar 示例.但是当我尝试运行任何 mapreduce 作业时，我得到了错误.我已经根据 (http://www.alexjf.net/blog/distributed-systems/hadoop-yarn-installation-definitive-guide)但我收到以下错误 ..

发布时间：2022-01-14 08:04:01 java hadoop mapreduce hadoop-yarn Java开发

Hadoop MapReduce 提供嵌套目录作为作业输入

我正在从事一项处理嵌套目录结构的工作，其中包含多个级别的文件: 一个/├── 三/│ └── 四/│ ├── baz.txt│ ├── bleh.txt│ └── foo.txt└── 二/├── bar.txt└── gaa.txt 当我添加 one/ 作为输入路径时，不会处理任何文件，因为在根级别没有立即可用的文件. 我阅读了有关 job.addInputPathRecursivel ..

发布时间：2022-01-14 08:03:54 hadoop nested mapreduce directory-walk 其他开发

Hadoop - 直接从 Mapper 写入 HBase

我有一个 haddop 工作，它的输出应该被写入 HBase.我真的不需要reducer，我想插入的行类型在Mapper中确定. 如何使用 TableOutputFormat 来实现这一点?从我看到的所有示例中，我假设 reducer 是创建 Put 的那个，而 TableMapper 只是用于从 HBase 表中读取. 在我的情况下，输入是 HDFS，输出是放到特定表中，我在 Tab ..

发布时间：2022-01-14 08:03:49 java hadoop mapreduce hbase Java开发

HDFS 文件校验和

在使用 Hadoop API - DFSCleint.getFileChecksum() 复制到 HDFS 后，我正在尝试检查文件的一致性. 我得到上述代码的以下输出: 空HDFS:空本地:空谁能指出错误或错误?这是代码: import java.io.IOException;导入 org.apache.hadoop.conf.Configuration；导入 org.apache. ..

发布时间：2022-01-14 08:03:40 java hadoop mapreduce hdfs checksum Java开发

hadoop 中的全局变量

我的程序遵循迭代 map/reduce 方法.如果满足某些条件，它需要停止.无论如何我可以设置一个可以分布在所有 map/reduce 任务中的全局变量，并检查全局变量是否达到完成条件. 类似的东西. While(Condition != true){配置 conf = getConf();Job job = new Job(conf, "Dijkstra Graph Search");j ..

发布时间：2022-01-14 08:03:27 hadoop mapreduce 其他开发

600 秒内无法报告状态.杀戮！在 hadoop 中报告进度

我收到以下错误: 任务尝试_201304161625_0028_m_000000_0 600 秒未能报告状态.杀戮！我的地图工作.这个问题类似于这个，这个，和这个.但是，我不想在 hadoop 杀死不报告进度的任务之前增加默认时间，即，配置 conf=new Configuration();长毫秒 = 1000*60*60;conf.setLong("mapred.task.time ..

发布时间：2022-01-14 08:03:18 java hadoop mapreduce Java开发

在 hive 的外部表中创建分区

我已在 hive 的内部表中成功创建并添加了动态分区.即通过使用以下步骤: 1-创建源表 2-从本地加载数据到源表 3- 创建另一个带有分区的表 - partition_table 4- 将数据从源表插入到该表中，从而动态创建所有分区我的问题是，如何在外部表中执行此操作?我读了很多关于此的文章，但我很困惑，我是否必须指定已经存在的分区的路径才能为外部表创建分区?? ..

发布时间：2022-01-14 08:03:11 hadoop hive mapreduce hbase 其他开发

使用 Eclipse 开发、测试和调试 Hadoop map/reduce 作业

在 Eclipse 中开发 Java Map Reduce 作业有哪些选择?我的最终目标是在我的 amazon Hadoop 集群上运行我开发的 map/reduce 逻辑，但我想先在本地机器上测试逻辑并在其中放置断点，然后再将其部署到更大的集群. 我看到有一个适用于 Eclipse 的 Hadoop 插件，它看起来很旧(如果我错了，请纠正我)，一家名为 Karmasphere 的公司为 e ..

发布时间：2022-01-14 08:03:03 eclipse debugging maven hadoop mapreduce Java开发

Map Reduce:ChainMapper 和 ChainReducer

我需要将我的 Map Reduce jar 文件拆分为两个作业，以便获得两个不同的输出文件，一个来自两个作业的每个 reducer. 我的意思是第一个作业必须生成一个输出文件，该文件将作为链中第二个作业的输入. 我在 hadoop 0.20 版(目前我使用的是 0.18)中读到了一些关于 ChainMapper 和 ChainReducer 的内容:这些可能对我的需求有好处? 谁 ..

发布时间：2022-01-14 08:02:56 hadoop mapreduce 其他开发

Hadoop MapReduce:关于 reducer 数量的说明

在 MapReduce 框架中，mapper 生成的每个 key 都使用一个 reducer. 所以你会认为在 Hadoop MapReduce 中指定 Reducer 的数量没有任何意义，因为它依赖于程序.但是，Hadoop 允许您指定要使用的 reducer 的数量(-D mapred.reduce.tasks=# of reducers). 这是什么意思?减速器数量的参数值是否指 ..

发布时间：2022-01-14 08:02:46 hadoop mapreduce reducers 其他开发

如何在映射器(Hadoop)中使用 MATLAB 代码?

我有一个处理图像的 matlab 代码.我想创建一个使用该代码的 Hadoop 映射器.我遇到了以下解决方案，但不确定哪个最好(因为我很难在 hadoop 中的每个从节点上安装 matlab 编译器运行时): 在 C++ 中手动将该 matlab 代码转换为 OpenCV，并从映射器调用其 exe/dll(并为其提供适当的参数).不确定，因为集群在每个节点上都安装了 Linux 而不是 Wi ..

发布时间：2022-01-14 08:02:26 java matlab hadoop mapreduce Java开发

MapReduce 中的分区究竟是如何工作的?

我认为我总体上对 MapReduce 编程模型有相当了解，但即使在阅读了原始论文和其他一些资料之后，我也不清楚许多细节，尤其是关于中间结果的划分. 我将快速总结一下到目前为止我对 MapReduce 的理解:我们有一个可能非常大的输入数据集，它被 MR-Framework 自动分成 M 个不同的部分.对于每一部分，框架都会安排一个地图任务，该任务由我的集群中的一个可用处理器/机器执行.M 个 ..

发布时间：2022-01-14 08:02:20 hadoop mapreduce 其他开发

Hadoop:java.lang.ClassCastException:org.apache.hadoop.io.LongWritable 不能转换为 org.apache.hadoop.io.Text

我的程序看起来像 public class TopKRecord extends Configured implements Tool {公共静态类 MapClass 扩展 Mapper{公共无效映射(文本键，文本值，上下文上下文)抛出 IOException，InterruptedException {//你的地图代码在这里String[] 字段 = ..

发布时间：2022-01-14 08:02:11 java hadoop mapreduce Java开发

将参数传递给 Hadoop 映射器

我正在使用新的 Hadoop API 并寻找一种将一些参数(少量字符串)传递给映射器的方法. 我该怎么做? 此解决方案适用于旧 API: JobConf 工作 = (JobConf)getConf();job.set("NumberOfDocuments", args[0]); 这里，“NumberOfDocuments"是参数的名称，它的值是从命令行参数“args[0]"中读取的.设 ..

发布时间：2022-01-14 08:01:58 hadoop mapreduce 其他开发

YARN 中的 Application Manager 和 Application Master 之间的区别?

我了解了 MRv1 的工作原理.现在我正在尝试了解 MRv2.. YARN 中的 Application Manager 和 Application Master 有什么区别? 解决方案 Application Master 和 Application Manager 这两个术语经常互换使用.实际上，Application Master 是请求、启动和监控应用程序特定资源的主要容器，而 A ..

发布时间：2022-01-14 08:01:51 hadoop mapreduce hadoop-yarn 其他开发

Hadoop 分布差异

有人可以概述各种可用的 Hadoop 发行版之间的各种差异吗: Cloudera - http://www.cloudera.com/hadoop 雅虎 - http://developer.yahoo.net/blogs/hadoop/ 使用 Apache Hadoop 发行版作为基准. 是否有充分的理由在标准 Apache Hadoop 发行版上使用这些发行版之一? ..

发布时间：2022-01-14 08:01:32 java hadoop mapreduce Java开发

Hive 上的自定义 Map Reduce 程序，规则是什么?输入输出如何?

我被困了几天，因为我想根据我在 hive 上的查询创建一个自定义 map reduce 程序，谷歌搜索后发现的例子不多，我仍然对规则感到困惑. 创建我的自定义mapreduce程序的规则是什么，mapper和reducer类呢? 谁能提供任何解决方案? 我想用Java开发这个程序，但我还是卡住了，然后在collector中格式化输出时，如何在mapper和reducer类中格式化 ..

发布时间：2022-01-14 08:01:25 hadoop mapreduce hive 其他开发

Hadoop中数据是如何拆分的

Hadoop 是否根据程序中设置的映射器数量来拆分数据?也就是说，有一个大小为 500MB 的数据集，如果 mapper 的数量是 200 个(假设 Hadoop 集群允许同时有 200 个 mapper)，每个 mapper 是否给了 2.5 MB 的数据? 此外，所有映射器是同时运行还是其中一些可能会串行运行? 解决方案我刚刚根据您的问题运行了一个示例 MR 程序，这是我的发现 ..

发布时间：2022-01-14 08:01:07 hadoop mapreduce hadoop-partitioning 其他开发

hadoop相关内容