mapreduce 第8页 - IT屋-程序员软件开发技术分享社区

从机上的 DiskErrorException - Hadoop 多节点

我正在尝试从 hadoop 处理 XML 文件，但在对 XML 文件调用字数统计作业时出现以下错误. 13/07/25 12:39:57 信息 mapred.JobClient:任务 ID:尝试_201307251234_0001_m_000008_0，状态:失败获取失败太多13/07/25 12:39:58 INFO mapred.JobClient: 地图 99% 减少 0%13/07/25 ..

发布时间：2022-01-13 23:52:18 hadoop mapreduce hadoop-streaming hadoop-plugins hadoop-partitioning 其他开发

mapreduce 难以理解

我已经看到下面的链接，它是使用 python 开始 mapreduce 的链接 http://code.google.com/p/appengine-mapreduce/wiki/GettingStartedInPython 但我仍然无法理解它是如何工作的.我正在执行下面的代码，但无法理解到底发生了什么? mapreduce.yaml mapreduce:- 名称:Test ..

发布时间：2022-01-13 23:52:08 python google-app-engine mapreduce Python

map-reduce 是否可以有多个输出文件?

在我的输入文件中，我有一列作为国家/地区.现在，我的任务是将特定国家的记录放入以该国家命名的单独文件中.这可以在 Map-reduce 中做到吗?！请分享您对此的想法. 解决方案是的，在 hadoop 中你可以使用 MultipleOutputFormat 使用它的 generateFileNameForKeyValue 方法. 使用您的国家名称作为键和记录作为值，这应该完全符合您 ..

发布时间：2022-01-13 23:52:02 hadoop mapreduce 其他开发

为什么 YARN 上有 mapreduce.jobtracker.address 配置?

YARN 是第二代 Hadoop，不再使用 jobtracker 守护进程，而是用资源管理器代替它.但是为什么在 mapred-site.xml hadoop 2 上有一个 mapreduce.jobtracker.address 属性呢? 解决方案你是对的.在 YARN 中，jobtracker 不再存在.因此，作为客户端配置的一部分，您不必指定属性 mapreduce.jobtrac ..

发布时间：2022-01-13 23:51:55 xml hadoop mapreduce jobs hadoop-yarn 其他开发

是否可以限制 MapReduce 作业访问远程数据?

我们有想要与 HDFS 集成的特定算法.该算法要求我们在本地访问数据(该工作将专门在 Mapper 中完成).但是，我们确实希望在分发文件(提供可靠性和条带化)方面利用 HDFS.计算完成后，我们将使用 Reducer 简单地发回答案，而不是执行任何额外的工作.避免使用网络是一个明确的目标.是否有允许我们限制网络数据访问的配置设置，以便在启动 MapReduce 作业时它只会访问它的本地 Data ..

发布时间：2022-01-13 23:51:47 java hadoop mapreduce hdfs distributed-computing Java开发

Hive 分组中的减速器数量和计数(不同)

有人告诉我 count(distinct ) 可能会导致数据倾斜，因为只使用了一个 reducer. 我使用一个包含 50 亿条数据和 2 个查询的表进行了测试，查询 A: 从 tableA 中选择 count(distinct columnA) 查询 B: 选择 count(columnA) from(从 tableA 中按 columnA 分组选择 columnA) 实际 ..

发布时间：2022-01-13 23:51:42 hadoop hive mapreduce hiveql hive-configuration 其他开发

洗牌阶段实际上做了什么?

洗牌阶段实际上做了什么? 可能性 - A 由于 shuffle 是将 mapper o/p 带到 reducer o/p 的过程，它只是根据 partitioner 中编写的代码将特定键从 mapper 带到特定的 reducer 例如.mapper 1 的 o/p 是 {a,1} {b,1} mapper 2的o/p是{a,1} {b,1} 在我的分区器中，我已经写 ..

发布时间：2022-01-13 23:51:32 hadoop mapreduce shuffle mapper reducers 其他开发

使用正则表达式从 MongoDB 中提取子字符串列表

我需要提取与正则表达式匹配的字符串的一部分并将其返回. 我有一组文件，例如: {"_id" :12121, "fileName" : "apple.doc"},{“_id":12125，“文件名":“rap.txt"}，{“_id":12126，“文件名":“tap.pdf"}，{“_id":12126，“文件名":“cricket.txt"}，我需要提取所有文件扩展名并返回{".do ..

发布时间：2022-01-13 23:51:18 regex mongodb mapreduce aggregation-framework 其他开发

CouchDB:根据时间戳返回最新类型的文档

我的系统接受来自各种不同来源的状态更新，每个状态更新都会创建一个具有以下结构的新文档: {“类型":“状态更新"，"source_id": "truck1231",“时间戳":13023123123，“位置":“博伊西，ID"} 数据纯粹是示例，但可以理解. 现在，这些文档每隔一小时左右生成一次.一小时后，我们可能会插入: {“类型":“状态更新"，"source_id": "truc ..

发布时间：2022-01-13 23:51:07 couchdb mapreduce couchapp 其他开发

Mongo 用户定义函数和 Map Reduce

在 mongo 中有没有办法创建用户定义的 Javascript 函数.我在客户端有几个 Map/Reduce 函数，我想在其他 MR 函数中使用它们. 例如，几个 MR 函数计算各种平均值.我希望能够像这样使用它们: 函数reduce(k,v){if (val > myDatabaseAverage())//..做一点事} 解决方案使用 db.system.js.save( { ..

发布时间：2022-01-13 23:50:59 mongodb mapreduce user-defined-functions 其他开发

在 Java 类型的 Hadoop MapReduce 中具有可写包装类的原因是什么?

在我看来，可以编写 org.apache.hadoop.io.serializer.Serialization 来直接序列化 java 类型，其格式与包装类将类型序列化成的格式相同.这样，Mappers 和 Reducers 就不必处理包装类. 解决方案没有什么可以阻止您更改序列化以使用不同的机制，例如 java Serializable 接口或诸如节俭、协议缓冲区等之类的东西. ..

发布时间：2022-01-13 23:50:52 serialization hadoop mapreduce writable 其他开发

为 Hadoop MapReduce 中的单个地图提供多个非文本文件

我目前正在编写分布式应用程序，它在 Hadoop MapReduce 的帮助下解析 Pdf 文件.MapReduce 作业的输入是数千个 Pdf 文件(大部分范围从 100KB 到 ~2MB)，输出是一组已解析的文本文件. 出于测试目的，最初我使用了 Tom White 的 Hadoop 中提供的 WholeFileInputFormat.Definitive Guide 书，提供单个文件到 ..

发布时间：2022-01-13 23:50:42 hadoop mapreduce 其他开发

如何通过单个请求仅从 CouchDB 获取某些文档的某些字段?

创建一个视图，该视图仅返回文档中值的子集，每个值的键和值都包含在 json 字符串中.就像如果一个给定的视图返回一个如下所示的文档，是否可以为一个请求获取一些字段信息?谢谢{“总行数":10，“偏移":3，“行":[{"id":"doc1",“关键":“abc123"，“价值": {"_id":"aaaa","_rev":"bbb","field1":"abc","field2":"bcd","f ..

发布时间：2022-01-13 23:50:24 mapreduce couchdb couchdb-futon 其他开发

为什么我的修改后的(现实世界的 haskell)Mapreduce 实现因“打开的文件太多"而失败?

我正在实现一个 haskell 程序，它将文件的每一行与文件中的每一行进行比较.为简单起见，我们假设一行表示的数据结构只是一个 Int，而我的算法是平方距离.我将按如下方式实现: --我的操作距离 :: Int ->诠释->诠释距离 a b = (a-b)*(a-b)combineDistances :: [Int] ->诠释组合距离 = 总和--将我的操作简单地应用于文件sumOfDistan ..

发布时间：2022-01-13 23:50:15 mapreduce haskell 其他开发

使用 map reduce 遍历带有 bfs 的图的有效方法是什么?

这是一个招聘人员问我的面试问题，问题基本上是计算所有节点到每个节点的最短路径，我的解决方案如下启动所有可能的边(没有反向 A - B 与 B-A 相同) 每个节点将在下面表示 (src, cost, current_list, dest) ，src 和 dest 基本上是我们之前启动的所有可能的边地图: 对于你遍历的每条边，你复制你的元组并添加当前遍历节点到成本和当前列表. ..

发布时间：2022-01-13 23:50:05 algorithm graph mapreduce graph-algorithm breadth-first-search 其他开发

如何减少python中的元组列表

我有一个数组，我想计算数组中每个项目的出现次数. 我已经设法使用 map 函数来生成一个元组列表. def 映射器(a):返回 (a, 1)r = list(map(lambda a: mapper(a), arr));//输出示例://(11817685, 1), (2014036792, 1), (2014047115, 1), (11817685, 1) 我希望 reduce 函数 ..

发布时间：2022-01-13 23:49:49 python python-2.7 mapreduce Python

如何(在 Hadoop 中)将数据放入正确类型的 map 和 reduce 函数中?

我有点难以理解 Hadoop 中的数据，如何将数据放入地图和缩减功能.我知道我们可以定义输入格式和输出格式，然后定义输入和输出的键类型.但是举个例子，如果我们想要一个对象作为输入类型，Hadoop 在内部是如何做到的呢? 谢谢... 解决方案您可以使用 Hadoop InputFormat 和 OutputFormat 接口来创建您的自定义格式..一个示例可以将 MapReduce ..

发布时间：2022-01-13 23:49:40 java hadoop mapreduce Java开发

如何对自定义 RecordReader 和 InputFormat 类进行单元测试?

我开发了一个 map-reduce 程序.我编写了自定义 RecordReader 和 InputFormat 类. 我正在使用 MR Unit 和 Mockito 对 mapper 和 reducer 进行单元测试. 我想知道如何对自定义 RecordReader 和 InputFormat 类进行单元测试?测试这些类的首选方法是什么? 解决方案感谢user7610 ..

发布时间：2022-01-13 23:49:32 java unit-testing hadoop mapreduce Java开发

Hadoop 选项没有任何效果(mapreduce.input.lineinputformat.linespermap、mapred.max.map.failures.percent)

我正在尝试实现一个 MapReduce 作业，其中每个映射器将占用 150 行文本文件，并且所有映射器将同时运行；此外，无论有多少地图任务失败，它都不应该失败. 下面是配置部分: JobConf conf = new JobConf(Main.class);conf.setJobName("我的 mapreduce");conf.set("mapreduce.input.lineinpu ..

发布时间：2022-01-13 23:49:23 java hadoop mapreduce Java开发

如何在 Reducer 输出中对逗号分隔的键进行排序?

我正在使用 MapReduce 运行 RFM 分析程序.OutputKeyClass 是 Text.class，我从 Reducer 发出逗号分隔的 R(Recency)、F(频率)、M(Monetory)作为键，其中 R=BigInteger、F=Binteger、M=BigDecimal，并且值也是 Text代表 Customer_ID.我知道 Hadoop 根据键对输出进行排序，但我的最终结 ..

发布时间：2022-01-13 23:49:13 sorting hadoop mapreduce key 其他开发

mapreduce相关内容