mapreduce相关内容

mapreduce 难以理解

我已经看到下面的链接,它是使用 python 开始 mapreduce 的链接 http://code.google.com/p/appengine-mapreduce/wiki/GettingStartedInPython 但我仍然无法理解它是如何工作的.我正在执行下面的代码,但无法理解到底发生了什么? ma​​preduce.yaml mapreduce:- 名称:Test ..
发布时间:2022-01-13 23:52:08 Python

map-reduce 是否可以有多个输出文件?

在我的输入文件中,我有一列作为国家/地区.现在,我的任务是将特定国家的记录放入以该国家命名的单独文件中.这可以在 Map-reduce 中做到吗?!请分享您对此的想法. 解决方案 是的,在 hadoop 中你可以使用 MultipleOutputFormat 使用它的 generateFileNameForKeyValue 方法. 使用您的国家名称作为键和记录作为值,这应该完全符合您 ..
发布时间:2022-01-13 23:52:02 其他开发

是否可以限制 MapReduce 作业访问远程数据?

我们有想要与 HDFS 集成的特定算法.该算法要求我们在本地访问数据(该工作将专门在 Mapper 中完成).但是,我们确实希望在分发文件(提供可靠性和条带化)方面利用 HDFS.计算完成后,我们将使用 Reducer 简单地发回答案,而不是执行任何额外的工作.避免使用网络是一个明确的目标.是否有允许我们限制网络数据访问的配置设置,以便在启动 MapReduce 作业时它只会访问它的本地 Data ..
发布时间:2022-01-13 23:51:47 Java开发

洗牌阶段实际上做了什么?

洗牌阶段实际上做了什么? 可能性 - A 由于 shuffle 是将 mapper o/p 带到 reducer o/p 的过程,它只是根据 partitioner 中编写的代码将特定键从 mapper 带到特定的 reducer 例如.mapper 1 的 o/p 是 {a,1} {b,1} mapper 2的o/p是{a,1} {b,1} 在我的分区器中,我已经写 ..
发布时间:2022-01-13 23:51:32 其他开发

使用正则表达式从 MongoDB 中提取子字符串列表

我需要提取与正则表达式匹配的字符串的一部分并将其返回. 我有一组文件,例如: {"_id" :12121, "fileName" : "apple.doc"},{“_id":12125,“文件名":“rap.txt"},{“_id":12126,“文件名":“tap.pdf"},{“_id":12126,“文件名":“cricket.txt"}, 我需要提取所有文件扩展名并返回{".do ..
发布时间:2022-01-13 23:51:18 其他开发

CouchDB:根据时间戳返回最新类型的文档

我的系统接受来自各种不同来源的状态更新,每个状态更新都会创建一个具有以下结构的新文档: {“类型":“状态更新","source_id": "truck1231",“时间戳":13023123123,“位置":“博伊西,ID"} 数据纯粹是示例,但可以理解. 现在,这些文档每隔一小时左右生成一次.一小时后,我们可能会插入: {“类型":“状态更新","source_id": "truc ..
发布时间:2022-01-13 23:51:07 其他开发

Mongo 用户定义函数和 Map Reduce

在 mongo 中有没有办法创建用户定义的 Javascript 函数.我在客户端有几个 Map/Reduce 函数,我想在其他 MR 函数中使用它们. 例如,几个 MR 函数计算各种平均值.我希望能够像这样使用它们: 函数reduce(k,v){if (val > myDatabaseAverage())//..做一点事} 解决方案 使用 db.system.js.save( { ..
发布时间:2022-01-13 23:50:59 其他开发

在 Java 类型的 Hadoop MapReduce 中具有可写包装类的原因是什么?

在我看来,可以编写 org.apache.hadoop.io.serializer.Serialization 来直接序列化 java 类型,其格式与包装类将类型序列化成的格式相同.这样,Mappers 和 Reducers 就不必处理包装类. 解决方案 没有什么可以阻止您更改序列化以使用不同的机制,例如 java Serializable 接口或诸如节俭、协议缓冲区等之类的东西. ..
发布时间:2022-01-13 23:50:52 其他开发

为 Hadoop MapReduce 中的单个地图提供多个非文本文件

我目前正在编写分布式应用程序,它在 Hadoop MapReduce 的帮助下解析 Pdf 文件.MapReduce 作业的输入是数千个 Pdf 文件(大部分范围从 100KB 到 ~2MB),输出是一组已解析的文本文件. 出于测试目的,最初我使用了 Tom White 的 Hadoop 中提供的 WholeFileInputFormat.Definitive Guide 书,提供单个文件到 ..
发布时间:2022-01-13 23:50:42 其他开发

如何通过单个请求仅从 CouchDB 获取某些文档的某些字段?

创建一个视图,该视图仅返回文档中值的子集,每个值的键和值都包含在 json 字符串中.就像如果一个给定的视图返回一个如下所示的文档,是否可以为一个请求获取一些字段信息?谢谢{“总行数":10,“偏移":3,“行":[{"id":"doc1",“关键":“abc123",“价值": {"_id":"aaaa","_rev":"bbb","field1":"abc","field2":"bcd","f ..
发布时间:2022-01-13 23:50:24 其他开发

为什么我的修改后的(现实世界的 haskell)Mapreduce 实现因“打开的文件太多"而失败?

我正在实现一个 haskell 程序,它将文件的每一行与文件中的每一行进行比较.为简单起见,我们假设一行表示的数据结构只是一个 Int,而我的算法是平方距离.我将按如下方式实现: --我的操作距离 :: Int ->诠释->诠释距离 a b = (a-b)*(a-b)combineDistances :: [Int] ->诠释组合距离 = 总和--将我的操作简单地应用于文件sumOfDistan ..
发布时间:2022-01-13 23:50:15 其他开发

使用 map reduce 遍历带有 bfs 的图的有效方法是什么?

这是一个招聘人员问我的面试问题,问题基本上是计算所有节点到每个节点的最短路径,我的解决方案如下 启动所有可能的边(没有反向 A - B 与 B-A 相同) 每个节点将在下面表示 (src, cost, current_list, dest) ,src 和 dest 基本上是我们之前启动的所有可能的边 地图: 对于你遍历的每条边,你复制你的元组并添加当前遍历节点到成本和当前列表. ..

如何减少python中的元组列表

我有一个数组,我想计算数组中每个项目的出现次数. 我已经设法使用 map 函数来生成一个元组列表. def 映射器(a):返回 (a, 1)r = list(map(lambda a: mapper(a), arr));//输出示例://(11817685, 1), (2014036792, 1), (2014047115, 1), (11817685, 1) 我希望 reduce 函数 ..
发布时间:2022-01-13 23:49:49 Python

如何(在 Hadoop 中)将数据放入正确类型的 map 和 reduce 函数中?

我有点难以理解 Hadoop 中的数据,如何将数据放入地图和缩减功能.我知道我们可以定义输入格式和输出格式,然后定义输入和输出的键类型.但是举个例子,如果我们想要一个对象作为输入类型,Hadoop 在内部是如何做到的呢? 谢谢... 解决方案 您可以使用 Hadoop InputFormat 和 OutputFormat 接口来创建您的自定义格式..一个示例可以将 MapReduce ..
发布时间:2022-01-13 23:49:40 Java开发

Hadoop 选项没有任何效果(mapreduce.input.lineinputformat.linespermap、mapred.max.map.failures.percent)

我正在尝试实现一个 MapReduce 作业,其中每个映射器将占用 150 行文本文件,并且所有映射器将同时运行;此外,无论有多少地图任务失败,它都不应该失败. 下面是配置部分: JobConf conf = new JobConf(Main.class);conf.setJobName("我的 mapreduce");conf.set("mapreduce.input.lineinpu ..
发布时间:2022-01-13 23:49:23 Java开发