hadoop 第7页 - IT屋-程序员软件开发技术分享社区

Hadoop MapReduce vs MPI(vs Spark vs Mahout vs Mesos) - 何时使用一个而不是另一个?

我是并行计算的新手，刚开始在 Amazon AWS 上试用 MPI 和 Hadoop+MapReduce.但我对何时使用其中一种感到困惑. 例如，我看到的一个常见的经验法则可以总结为... 大数据、非迭代、容错 => MapReduce 速度、小数据、迭代、非 Mapper-Reducer 类型 => MPI 但是，我也看到了 MapReduce 在 MPI (MR-MPI) ..

发布时间：2022-01-14 08:00:26 hadoop parallel-processing mapreduce mpi 其他开发

MapReduce 替代方案

是否有 MapReduce(Google、Hadoop)的替代范例?有没有其他合理的方式来拆分 &合并大问题? 解决方案肯定的.例如，查看批量同步并行.Map/Reduce 实际上是一种非常有限的减少问题的方法，但是这种限制使它可以在 Hadoop 等框架中进行管理.问题是，将您的问题压入 Map/Reduce 设置是否更容易，或者是否更容易创建特定于域的并行化方案并且必须自己处理所有 ..

发布时间：2022-01-14 00:00:15 algorithm hadoop mapreduce 其他开发

如何修复“任务尝试_201104251139_0295_r_000006_0 未能报告状态 600 秒."

我编写了一个 mapreduce 作业来从数据集中提取一些信息.数据集是用户对电影的评分.用户数量约为 25 万，电影数量约为 30 万.map的输出是*>和*>.在 reducer 中，我将处理这些对. 但是当我运行作业时，映射器按预期完成，但减速器总是抱怨任务尝试_* 在 600 秒内未能报告状态. 我知道这是由于更新状态失败，所以我在我的代码中添加了对 co ..

发布时间：2022-01-14 00:00:07 hadoop mapreduce 其他开发

“超级模式"的目的是什么?在hadoop中?

..

发布时间：2022-01-13 23:59:50 hadoop mapreduce 其他开发

我想使用 MapReduce 方法分析连续的数据流(通过 HTTP 访问)，因此我一直在研究 Apache Hadoop.不幸的是，Hadoop 似乎希望以固定大小的输入文件开始作业，而不是能够在新数据到达时将其交给消费者.真的是这样吗，还是我错过了什么?是否有不同的 MapReduce 工具可以处理从打开的套接字读取的数据?可伸缩性是这里的一个问题，所以我宁愿让 MapReducer 处理混乱的 ..

发布时间：2022-01-13 23:59:41 hadoop mapreduce 其他开发

在 Hadoop 中使用 NullWritable 的优势

对 null 键/值使用 NullWritable 比使用 null 文本(即 new Text(null)).我从《Hadoop:权威指南》一书中看到以下内容. NullWritable 是 Writable 的一种特殊类型，因为它具有零长度序列化.无字节被写入流或从流中读取.它用作占位符；例如，在MapReduce，一个键或者一个值在不需要的时候可以声明为NullWritable使用那个 ..

发布时间：2022-01-13 23:59:34 java hadoop mapreduce Java开发

OLAP 可以在 BigTable 中做吗?

过去我曾经使用在 MySQL 上运行的 OLAP 多维数据集构建 WebAnalytics.现在，我使用的 OLAP 多维数据集只是一个大表(好吧，它的存储比那更智能)，其中每一行基本上是一个测量值或一组测量值的聚合.每个度量都有一堆维度(即哪个页面名称、用户代理、ip 等)和一堆值(即有多少浏览量、多少访问者等). 您在这样的表上运行的查询通常采用以下形式(元 SQL): SELECT ..

发布时间：2022-01-13 23:59:25 hadoop olap mapreduce hbase hive 其他开发

在 Eclipse 中为 2.4.1 hadoop 映射 Reduce 客户端 jar

当我在 shell 的 hadoop 文件夹中运行我的 hadoop mapreduce word count jar 时，它运行正常并且输出正确生成，由于我在 hadoop 2.4.1 的情况下使用 yarn，所以当我从 eclipse 运行 MapReduce 示例程序时，MAP 过程完成并且在减少过程中失败. 很明显问题出在 jar 配置上. 请找到罐子，我已添加... ..

发布时间：2022-01-13 23:58:55 java eclipse hadoop mapreduce Java开发

作业在 Cloudera 5.1 下的 LocalJobRunner 中持续运行

需要一些快速帮助.我们的作业在 MapR 下运行良好，但是当我们在 Cloudera 5.1 上启动相同的作业时，它一直在本地模式下运行. 我确定这是某种配置问题.它是哪个配置设置? 14/08/22 12:16:58 INFO mapreduce.Job: map 0% reduce 0%14/08/22 12:17:03 信息 mapred.LocalJobRunner: map >地 ..

发布时间：2022-01-13 23:58:44 hadoop mapreduce cloudera cloudera-cdh 其他开发

在 hbase mapreduce 中传递 Delete 或 Put 错误

在 hbase 上运行 mapreduce 时出现以下错误: java.io.IOException: 传递 Delete 或 Put在 org.apache.hadoop.hbase.mapreduce.TableOutputFormat$TableRecordWriter.write(TableOutputFormat.java:125)在 org.apache.hadoop.hbase.m ..

发布时间：2022-01-13 23:58:29 java hadoop mapreduce hbase Java开发

如何为 Opencl 应用程序使用 hadoop MapReuce 框架?

我正在使用 opencl 开发一个应用程序，其基本目标是在 GPU 平台上实现数据挖掘算法.我想使用 Hadoop 分布式文件系统并想在多个节点上执行应用程序.我正在使用 MapReduce 框架，我将基本算法分为两部分，即“Map"和“Reduce". 我以前从未在 hadoop 中工作过，所以我有一些问题: 我是否使用 Java 编写应用程序只是为了使用 Hadoop 和 Mape ..

发布时间：2022-01-13 23:58:21 hadoop mapreduce opencl gpu hadoop-partitioning 其他开发

等效于 mongo 的 out:reduce 选项在 hadoop

我正在重写一个 MongoDB map reduce 作业以使用 Hadoop(使用 mongo-hadoop 连接器)，但是当我将两个数据集映射到同一个集合时，它会覆盖值而不是使用它们 { reduce : "collectionName" } - 如果结果集中和旧集合中的给定键存在文档，则将对这两个值执行归约操作(使用指定的归约函数)，并且结果将被写入输出集合.如果提供了 finaliz ..

发布时间：2022-01-13 23:58:02 java mongodb hadoop mapreduce Java开发

Hadoop - 了解处理步骤所需的帮助

我有压缩文件，它包含 8 个大小为 5-10kb 的 xml 文件.我将这些数据用于测试目的.我编写了一个仅地图程序来解压缩压缩文件.我在 MR2 中编写程序并在伪分布式模式下使用 Hadoop 2.7.1.我使用 sbin/start-dfs.sh 命令启动集群.我能够在几秒钟内看到文件系统中的解压缩输出，但处理将持续 5-6 分钟.不知道为什么? MR 程序将文件解压到这个阶段，我可以查 ..

发布时间：2022-01-13 23:57:55 hadoop mapreduce 其他开发

如何在 hadoop 中序列化对象(在 HDFS 中)

我有一个 HashMap .我想将我的 HashMap 对象(hmap)序列化到 HDFS 位置，然后在 Mapper 和 Reducers 将其反序列化以使用它. 为了在 HDFS 上序列化我的 HashMap 对象，我使用了如下的普通 java 对象序列化代码，但出现错误(权限被拒绝) 试试{FileOutputStream fileOut =new FileOu ..

发布时间：2022-01-13 23:57:47 java hadoop serialization mapreduce bigdata Java开发

在 hadoop 上解析 Stackoverflow 的 posts.xml

我正在关注这篇文章由 Anoop Madhusudanan 在 codeproject 上构建，而不是在集群上而是在我的系统上构建推荐引擎. 问题是当我尝试解析结构如下的posts.xml时: ..

发布时间：2022-01-13 23:57:39 java xml hadoop mapreduce Java开发

Java MapReduce 按日期计数

我是 Hadoop 的新手，我正在尝试做一个 MapReduce 程序，以按日期(按月分组)计算 lecters 的最大前两次出现.所以我的输入是这样的: 2017-06-01 , A, B, A, C, B, E, F2017-06-02 , Q, B, Q, F, K, E, F2017-06-03 , A, B, A, R, T, E, E2017-07-01 , A, B, A, C, ..

发布时间：2022-01-13 23:57:28 java hadoop mapreduce word-count Java开发

MapReduce 按值降序排序

我正在尝试用伪代码编写一个 MapReduce 任务，该任务返回按降序排序的项目.例如:对于 wordcount 任务，而不是获取: 苹果 1香蕉 3芒果 2 我希望输出是: 香蕉 3芒果 2苹果 1 关于如何做的任何想法?我知道如何按升序(替换映射器作业中的键和值)而不是降序. 解决方案这里可以借助下面的reducer代码实现降序排序. 假设您已经编写了映射器和驱动程序代 ..

发布时间：2022-01-13 23:57:21 sorting hadoop mapreduce pseudocode 其他开发

自定义 Mapper 和 Reducer 与 HiveQL

问题陈述:- 我需要比较两个表 Table1 和 Table2 并且它们都存储相同的东西.所以我需要比较 Table2 和 Table1 因为 Table1 是需要进行比较的主表.因此，在比较之后，我需要报告 Table2 存在某种差异.这两张表有很多数据，大约 TB 的数据.所以目前我已经编写了 HiveQL 来进行比较并取回数据. 所以我的问题是在 PERFORMANCE 方面哪个 ..

发布时间：2022-01-13 23:57:11 performance hadoop mapreduce hive hiveql 其他开发

在 SQLClient 中访问 Hive 表，但不能从 Putty 访问

我是 Hive、MapReduce 和 Hadoop 的新手.我正在使用 Putty 连接到 hive 表并访问表中的记录.所以我所做的是 - 我打开 Putty 并在主机名中输入 - vip.name.com，然后单击 Open.然后我输入了我的用户名和密码，然后输入了几个命令来访问 Hive sql.以下是我所做的列表 $ bashbash-3.00$ 蜂巢Hive 历史文件=/tmp/rk ..

发布时间：2022-01-13 23:57:01 sql hadoop mapreduce hive putty 其他开发

减速机多路输出

我正在开发简单的 map reduce 程序.我想在reducer 之后为键中的每个不同单词创建不同的文件.例如，在执行 Mapreduce 之后，我有类似优先级 1 x 2 优先级 1 和 2 优先级 1 z 2 优先级 2 x 2 优先级2 y 2 现在我想要减少阶段后的不同文件，说 Priority1 和 Priority2 根据优先级具有所有这些值 ..

发布时间：2022-01-13 23:56:44 hadoop mapreduce 其他开发

hadoop相关内容