mapreduce相关内容

将参数传递给 Hadoop 映射器

我正在使用新的 Hadoop API 并寻找一种将一些参数(少量字符串)传递给映射器的方法. 我该怎么做? 此解决方案适用于旧 API: JobConf 工作 = (JobConf)getConf();job.set("NumberOfDocuments", args[0]); 这里,“NumberOfDocuments"是参数的名称,它的值是从命令行参数“args[0]"中读取的.设 ..
发布时间:2022-01-14 08:01:58 其他开发

Hadoop 分布差异

有人可以概述各种可用的 Hadoop 发行版之间的各种差异吗: Cloudera - http://www.cloudera.com/hadoop 雅虎 - http://developer.yahoo.net/blogs/hadoop/ 使用 Apache Hadoop 发行版作为基准. 是否有充分的理由在标准 Apache Hadoop 发行版上使用这些发行版之一? ..
发布时间:2022-01-14 08:01:32 Java开发

Hive 上的自定义 Map Reduce 程序,规则是什么?输入输出如何?

我被困了几天,因为我想根据我在 hive 上的查询创建一个自定义 map reduce 程序,谷歌搜索后发现的例子不多,我仍然对规则感到困惑. 创建我的自定义mapreduce程序的规则是什么,mapper和reducer类呢? 谁能提供任何解决方案? 我想用Java开发这个程序,但我还是卡住了,然后在collector中格式化输出时,如何在mapper和reducer类中格式化 ..
发布时间:2022-01-14 08:01:25 其他开发

使用 MapReduce 实现 PageRank

我正在努力解决使用 MapReduce 实现 PageRank 的理论问题. 我有以下三个节点的简单场景:A B C. 邻接矩阵在这里: A { B, C }乙{甲} 例如,B 的 PageRank 等于: (1-d)/N + d ( PR(A)/C(A) )N = 到 B 的传入链接数PR(A) = 传入链接 A 的 PageRankC(A) = 来自页面 A 的传出链接数 ..
发布时间:2022-01-14 08:01:15 其他开发

Hadoop中数据是如何拆分的

Hadoop 是否根据程序中设置的映射器数量来拆分数据?也就是说,有一个大小为 500MB 的数据集,如果 mapper 的数量是 200 个(假设 Hadoop 集群允许同时有 200 个 mapper),每个 mapper 是否给了 2.5 MB 的数据? 此外,所有映射器是同时运行还是其中一些可能会串行运行? 解决方案 我刚刚根据您的问题运行了一个示例 MR 程序,这是我的发现 ..
发布时间:2022-01-14 08:01:07 其他开发

Hadoop MapReduce vs MPI(vs Spark vs Mahout vs Mesos) - 何时使用一个而不是另一个?

我是并行计算的新手,刚开始在 Amazon AWS 上试用 MPI 和 Hadoop+MapReduce.但我对何时使用其中一种感到困惑. 例如,我看到的一个常见的经验法则可以总结为... 大数据、非迭代、容错 => MapReduce 速度、小数据、迭代、非 Mapper-Reducer 类型 => MPI 但是,我也看到了 MapReduce 在 MPI (MR-MPI) ..
发布时间:2022-01-14 08:00:26 其他开发

MapReduce 替代方案

是否有 MapReduce(Google、Hadoop)的替代范例?有没有其他合理的方式来拆分 &合并大问题? 解决方案 肯定的.例如,查看 批量同步并行.Map/Reduce 实际上是一种非常有限的减少问题的方法,但是这种限制使它可以在 Hadoop 等框架中进行管理.问题是,将您的问题压入 Map/Reduce 设置是否更容易,或者是否更容易创建特定于域的并行化方案并且必须自己处理所有 ..
发布时间:2022-01-14 00:00:15 其他开发

如何修复“任务尝试_201104251139_0295_r_000006_0 未能报告状态 600 秒."

我编写了一个 mapreduce 作业来从数据集中提取一些信息.数据集是用户对电影的评分.用户数量约为 25 万,电影数量约为 30 万.map的输出是*>和*>.在 reducer 中,我将处理这些对. 但是当我运行作业时,映射器按预期完成,但减速器总是抱怨 任务尝试_* 在 600 秒内未能报告状态. 我知道这是由于更新状态失败,所以我在我的代码中添加了对 co ..
发布时间:2022-01-14 00:00:07 其他开发

Mongo Map Reduce 第一次

第一次在这里使用 Map/Reduce 用户,并使用 MongoDB.我有很多页面访问数据,我想通过使用 Map/Reduce 来了解这些数据.下面基本上是我想做的,但作为一个 Map/Reduce 的初学者,我认为这超出了我的知识范围! 浏览过去 30 天内访问过的所有页面,其中 external = true. 然后对于每个页面,查找所有访问次数 按推荐位置对所有访问进行分组 对于 ..
发布时间:2022-01-13 23:59:58 PHP

流数据和 Hadoop?(不是 Hadoop 流)

我想使用 MapReduce 方法分析连续的数据流(通过 HTTP 访问),因此我一直在研究 Apache Hadoop.不幸的是,Hadoop 似乎希望以固定大小的输入文件开始作业,而不是能够在新数据到达时将其交给消费者.真的是这样吗,还是我错过了什么?是否有不同的 MapReduce 工具可以处理从打开的套接字读取的数据?可伸缩性是这里的一个问题,所以我宁愿让 MapReducer 处理混乱的 ..
发布时间:2022-01-13 23:59:41 其他开发

在 Hadoop 中使用 NullWritable 的优势

对 null 键/值使用 NullWritable 比使用 null 文本(即 new Text(null)).我从《Hadoop:权威指南》一书中看到以下内容. NullWritable 是 Writable 的一种特殊类型,因为它具有零长度序列化.无字节被写入流或从流中读取.它用作占位符;例如,在MapReduce,一个键或者一个值在不需要的时候可以声明为NullWritable使用那个 ..
发布时间:2022-01-13 23:59:34 Java开发

OLAP 可以在 BigTable 中做吗?

过去我曾经使用在 MySQL 上运行的 OLAP 多维数据集构建 WebAnalytics.现在,我使用的 OLAP 多维数据集只是一个大表(好吧,它的存储比那更智能),其中每一行基本上是一个测量值或一组测量值的聚合.每个度量都有一堆维度(即哪个页面名称、用户代理、ip 等)和一堆值(即有多少浏览量、多少访问者等). 您在这样的表上运行的查询通常采用以下形式(元 SQL): SELECT ..
发布时间:2022-01-13 23:59:25 其他开发

Apache Spark 中何时发生改组?

我正在优化 Spark 中的参数,并且想知道 Spark 是如何对数据进行混洗的. 确切地说,我有一个简单的字数统计程序,想知道 spark.shuffle.file.buffer.kb 是如何影响运行时间的.现在,当我将此参数设置得非常高时,我只会看到速度变慢(我猜这会阻止每个任务的缓冲区同时适应内存). 有人能解释一下 Spark 是如何进行缩减的吗?例如,数据在 RDD 中被读取 ..
发布时间:2022-01-13 23:59:16 其他开发

200 亿行/月 - Hbase/Hive/Greenplum/什么?

我想利用您的智慧为数据仓库系统挑选合适的解决方案.这里有一些细节可以更好地理解问题: 数据以星型结构组织,具有一个 BIG 事实和约 15 个维度. 每月 20B 个事实行 10 个维度,百行(有点层次) 5 维数千行 2 维,约 200K 行 2 个大尺寸,50M-100M 行 针对该数据库运行两个典型查询 dimq 中的顶级成员: select top X dim ..
发布时间:2022-01-13 23:59:10 其他开发

好的 MapReduce 示例

除了“如何使用 MapReduce 计算长文本中的单词"任务之外,我想不出任何好的示例.我发现这并不是让其他人了解此工具的强大功能的最佳示例. 我不是在寻找代码片段,实际上只是“文本"示例. 解决方案 Map reduce 是一个为高效处理海量数据而开发的框架.例如,如果我们在数据集中有 100 万条记录,并且它以关系表示形式存储 - 派生值并对这些值执行任何类型的转换都是非常昂贵的 ..
发布时间:2022-01-13 23:59:03 其他开发

在 Eclipse 中为 2.4.1 hadoop 映射 Reduce 客户端 jar

当我在 shell 的 hadoop 文件夹中运行我的 hadoop mapreduce word count jar 时,它运行正常并且输出正确生成, 由于我在 hadoop 2.4.1 的情况下使用 yarn,所以当我从 eclipse 运行 MapReduce 示例程序 时,MAP 过程完成并且在减少过程中失败. 很明显问题出在 jar 配置上. 请找到罐子,我已添加... ..
发布时间:2022-01-13 23:58:55 Java开发