hadoop相关内容

Hadoop MapReduce vs MPI(vs Spark vs Mahout vs Mesos) - 何时使用一个而不是另一个?

我是并行计算的新手,刚开始在 Amazon AWS 上试用 MPI 和 Hadoop+MapReduce.但我对何时使用其中一种感到困惑. 例如,我看到的一个常见的经验法则可以总结为... 大数据、非迭代、容错 => MapReduce 速度、小数据、迭代、非 Mapper-Reducer 类型 => MPI 但是,我也看到了 MapReduce 在 MPI (MR-MPI) ..
发布时间:2022-01-14 08:00:26 其他开发

MapReduce 替代方案

是否有 MapReduce(Google、Hadoop)的替代范例?有没有其他合理的方式来拆分 &合并大问题? 解决方案 肯定的.例如,查看 批量同步并行.Map/Reduce 实际上是一种非常有限的减少问题的方法,但是这种限制使它可以在 Hadoop 等框架中进行管理.问题是,将您的问题压入 Map/Reduce 设置是否更容易,或者是否更容易创建特定于域的并行化方案并且必须自己处理所有 ..
发布时间:2022-01-14 00:00:15 其他开发

如何修复“任务尝试_201104251139_0295_r_000006_0 未能报告状态 600 秒."

我编写了一个 mapreduce 作业来从数据集中提取一些信息.数据集是用户对电影的评分.用户数量约为 25 万,电影数量约为 30 万.map的输出是*>和*>.在 reducer 中,我将处理这些对. 但是当我运行作业时,映射器按预期完成,但减速器总是抱怨 任务尝试_* 在 600 秒内未能报告状态. 我知道这是由于更新状态失败,所以我在我的代码中添加了对 co ..
发布时间:2022-01-14 00:00:07 其他开发

流数据和 Hadoop?(不是 Hadoop 流)

我想使用 MapReduce 方法分析连续的数据流(通过 HTTP 访问),因此我一直在研究 Apache Hadoop.不幸的是,Hadoop 似乎希望以固定大小的输入文件开始作业,而不是能够在新数据到达时将其交给消费者.真的是这样吗,还是我错过了什么?是否有不同的 MapReduce 工具可以处理从打开的套接字读取的数据?可伸缩性是这里的一个问题,所以我宁愿让 MapReducer 处理混乱的 ..
发布时间:2022-01-13 23:59:41 其他开发

在 Hadoop 中使用 NullWritable 的优势

对 null 键/值使用 NullWritable 比使用 null 文本(即 new Text(null)).我从《Hadoop:权威指南》一书中看到以下内容. NullWritable 是 Writable 的一种特殊类型,因为它具有零长度序列化.无字节被写入流或从流中读取.它用作占位符;例如,在MapReduce,一个键或者一个值在不需要的时候可以声明为NullWritable使用那个 ..
发布时间:2022-01-13 23:59:34 Java开发

OLAP 可以在 BigTable 中做吗?

过去我曾经使用在 MySQL 上运行的 OLAP 多维数据集构建 WebAnalytics.现在,我使用的 OLAP 多维数据集只是一个大表(好吧,它的存储比那更智能),其中每一行基本上是一个测量值或一组测量值的聚合.每个度量都有一堆维度(即哪个页面名称、用户代理、ip 等)和一堆值(即有多少浏览量、多少访问者等). 您在这样的表上运行的查询通常采用以下形式(元 SQL): SELECT ..
发布时间:2022-01-13 23:59:25 其他开发

在 Eclipse 中为 2.4.1 hadoop 映射 Reduce 客户端 jar

当我在 shell 的 hadoop 文件夹中运行我的 hadoop mapreduce word count jar 时,它运行正常并且输出正确生成, 由于我在 hadoop 2.4.1 的情况下使用 yarn,所以当我从 eclipse 运行 MapReduce 示例程序 时,MAP 过程完成并且在减少过程中失败. 很明显问题出在 jar 配置上. 请找到罐子,我已添加... ..
发布时间:2022-01-13 23:58:55 Java开发

如何为 Opencl 应用程序使用 hadoop MapReuce 框架?

我正在使用 opencl 开发一个应用程序,其基本目标是在 GPU 平台上实现数据挖掘算法.我想使用 Hadoop 分布式文件系统并想在多个节点上执行应用程序.我正在使用 MapReduce 框架,我将基本算法分为两部分,即“Map"和“Reduce". 我以前从未在 hadoop 中工作过,所以我有一些问题: 我是否使用 Java 编写应用程序只是为了使用 Hadoop 和 Mape ..
发布时间:2022-01-13 23:58:21 其他开发

等效于 mongo 的 out:reduce 选项在 hadoop

我正在重写一个 MongoDB map reduce 作业以使用 Hadoop(使用 mongo-hadoop 连接器),但是当我将两个数据集映射到同一个集合时,它会覆盖值而不是使用它们 { reduce : "collectionName" } - 如果结果集中和旧集合中的给定键存在文档,则将对这两个值执行归约操作(使用指定的归约函数),并且结果将被写入输出集合.如果提供了 finaliz ..
发布时间:2022-01-13 23:58:02 Java开发

Hadoop - 了解处理步骤所需的帮助

我有压缩文件,它包含 8 个大小为 5-10kb 的 xml 文件.我将这些数据用于测试目的.我编写了一个仅地图程序来解压缩压缩文件.我在 MR2 中编写程序并在伪分布式模式下使用 Hadoop 2.7.1.我使用 sbin/start-dfs.sh 命令启动集群.我能够在几秒钟内看到文件系统中的解压缩输出,但处理将持续 5-6 分钟.不知道为什么? MR 程序将文件解压到这个阶段,我可以查 ..
发布时间:2022-01-13 23:57:55 其他开发

Java MapReduce 按日期计数

我是 Hadoop 的新手,我正在尝试做一个 MapReduce 程序,以按日期(按月分组)计算 lecters 的最大前两次出现.所以我的输入是这样的: 2017-06-01 , A, B, A, C, B, E, F2017-06-02 , Q, B, Q, F, K, E, F2017-06-03 , A, B, A, R, T, E, E2017-07-01 , A, B, A, C, ..
发布时间:2022-01-13 23:57:28 Java开发

MapReduce 按值降序排序

我正在尝试用伪代码编写一个 MapReduce 任务,该任务返回按降序排序的项目.例如:对于 wordcount 任务,而不是获取: 苹果 1香蕉 3芒果 2 我希望输出是: 香蕉 3芒果 2苹果 1 关于如何做的任何想法?我知道如何按升序(替换映射器作业中的键和值)而不是降序. 解决方案 这里可以借助下面的reducer代码实现降序排序. 假设您已经编写了映射器和驱动程序代 ..
发布时间:2022-01-13 23:57:21 其他开发

自定义 Mapper 和 Reducer 与 HiveQL

问题陈述:- 我需要比较两个表 Table1 和 Table2 并且它们都存储相同的东西.所以我需要比较 Table2 和 Table1 因为 Table1 是需要进行比较的主表.因此,在比较之后,我需要报告 Table2 存在某种差异.这两张表有很多数据,大约 TB 的数据.所以目前我已经编写了 HiveQL 来进行比较并取回数据. 所以我的问题是在 PERFORMANCE 方面哪个 ..
发布时间:2022-01-13 23:57:11 其他开发

在 SQLClient 中访问 Hive 表,但不能从 Putty 访问

我是 Hive、MapReduce 和 Hadoop 的新手.我正在使用 Putty 连接到 hive 表并访问表中的记录.所以我所做的是 - 我打开 Putty 并在主机名中输入 - vip.name.com,然后单击 Open.然后我输入了我的用户名和密码,然后输入了几个命令来访问 Hive sql.以下是我所做的列表 $ bashbash-3.00$ 蜂巢Hive 历史文件=/tmp/rk ..
发布时间:2022-01-13 23:57:01 其他开发

减速机多路输出

我正在开发简单的 map reduce 程序.我想在reducer 之后为键中的每个不同单词创建不同的文件.例如,在执行 Mapreduce 之后,我有类似 优先级 1 x 2 优先级 1 和 2 优先级 1 z 2 优先级 2 x​​ 2 优先级2 y 2 现在我想要减少阶段后的不同文件,说 Priority1 和 Priority2 根据优先级具有所有这些值 ..
发布时间:2022-01-13 23:56:44 其他开发