mapreduce相关内容
我正在尝试从 hadoop 处理 XML 文件,但在对 XML 文件调用字数统计作业时出现以下错误. 13/07/25 12:39:57 信息 mapred.JobClient:任务 ID:尝试_201307251234_0001_m_000008_0,状态:失败获取失败太多13/07/25 12:39:58 INFO mapred.JobClient: 地图 99% 减少 0%13/07/25
..
我已经看到下面的链接,它是使用 python 开始 mapreduce 的链接 http://code.google.com/p/appengine-mapreduce/wiki/GettingStartedInPython 但我仍然无法理解它是如何工作的.我正在执行下面的代码,但无法理解到底发生了什么? mapreduce.yaml mapreduce:- 名称:Test
..
在我的输入文件中,我有一列作为国家/地区.现在,我的任务是将特定国家的记录放入以该国家命名的单独文件中.这可以在 Map-reduce 中做到吗?!请分享您对此的想法. 解决方案 是的,在 hadoop 中你可以使用 MultipleOutputFormat 使用它的 generateFileNameForKeyValue 方法. 使用您的国家名称作为键和记录作为值,这应该完全符合您
..
YARN 是第二代 Hadoop,不再使用 jobtracker 守护进程,而是用资源管理器代替它.但是为什么在 mapred-site.xml hadoop 2 上有一个 mapreduce.jobtracker.address 属性呢? 解决方案 你是对的.在 YARN 中,jobtracker 不再存在.因此,作为客户端配置的一部分,您不必指定属性 mapreduce.jobtrac
..
我们有想要与 HDFS 集成的特定算法.该算法要求我们在本地访问数据(该工作将专门在 Mapper 中完成).但是,我们确实希望在分发文件(提供可靠性和条带化)方面利用 HDFS.计算完成后,我们将使用 Reducer 简单地发回答案,而不是执行任何额外的工作.避免使用网络是一个明确的目标.是否有允许我们限制网络数据访问的配置设置,以便在启动 MapReduce 作业时它只会访问它的本地 Data
..
有人告诉我 count(distinct ) 可能会导致数据倾斜,因为只使用了一个 reducer. 我使用一个包含 50 亿条数据和 2 个查询的表进行了测试, 查询 A: 从 tableA 中选择 count(distinct columnA) 查询 B: 选择 count(columnA) from(从 tableA 中按 columnA 分组选择 columnA) 实际
..
洗牌阶段实际上做了什么? 可能性 - A 由于 shuffle 是将 mapper o/p 带到 reducer o/p 的过程,它只是根据 partitioner 中编写的代码将特定键从 mapper 带到特定的 reducer 例如.mapper 1 的 o/p 是 {a,1} {b,1} mapper 2的o/p是{a,1} {b,1} 在我的分区器中,我已经写
..
我需要提取与正则表达式匹配的字符串的一部分并将其返回. 我有一组文件,例如: {"_id" :12121, "fileName" : "apple.doc"},{“_id":12125,“文件名":“rap.txt"},{“_id":12126,“文件名":“tap.pdf"},{“_id":12126,“文件名":“cricket.txt"}, 我需要提取所有文件扩展名并返回{".do
..
我的系统接受来自各种不同来源的状态更新,每个状态更新都会创建一个具有以下结构的新文档: {“类型":“状态更新","source_id": "truck1231",“时间戳":13023123123,“位置":“博伊西,ID"} 数据纯粹是示例,但可以理解. 现在,这些文档每隔一小时左右生成一次.一小时后,我们可能会插入: {“类型":“状态更新","source_id": "truc
..
在 mongo 中有没有办法创建用户定义的 Javascript 函数.我在客户端有几个 Map/Reduce 函数,我想在其他 MR 函数中使用它们. 例如,几个 MR 函数计算各种平均值.我希望能够像这样使用它们: 函数reduce(k,v){if (val > myDatabaseAverage())//..做一点事} 解决方案 使用 db.system.js.save( {
..
在我看来,可以编写 org.apache.hadoop.io.serializer.Serialization 来直接序列化 java 类型,其格式与包装类将类型序列化成的格式相同.这样,Mappers 和 Reducers 就不必处理包装类. 解决方案 没有什么可以阻止您更改序列化以使用不同的机制,例如 java Serializable 接口或诸如节俭、协议缓冲区等之类的东西.
..
我目前正在编写分布式应用程序,它在 Hadoop MapReduce 的帮助下解析 Pdf 文件.MapReduce 作业的输入是数千个 Pdf 文件(大部分范围从 100KB 到 ~2MB),输出是一组已解析的文本文件. 出于测试目的,最初我使用了 Tom White 的 Hadoop 中提供的 WholeFileInputFormat.Definitive Guide 书,提供单个文件到
..
创建一个视图,该视图仅返回文档中值的子集,每个值的键和值都包含在 json 字符串中.就像如果一个给定的视图返回一个如下所示的文档,是否可以为一个请求获取一些字段信息?谢谢{“总行数":10,“偏移":3,“行":[{"id":"doc1",“关键":“abc123",“价值": {"_id":"aaaa","_rev":"bbb","field1":"abc","field2":"bcd","f
..
我正在实现一个 haskell 程序,它将文件的每一行与文件中的每一行进行比较.为简单起见,我们假设一行表示的数据结构只是一个 Int,而我的算法是平方距离.我将按如下方式实现: --我的操作距离 :: Int ->诠释->诠释距离 a b = (a-b)*(a-b)combineDistances :: [Int] ->诠释组合距离 = 总和--将我的操作简单地应用于文件sumOfDistan
..
这是一个招聘人员问我的面试问题,问题基本上是计算所有节点到每个节点的最短路径,我的解决方案如下 启动所有可能的边(没有反向 A - B 与 B-A 相同) 每个节点将在下面表示 (src, cost, current_list, dest) ,src 和 dest 基本上是我们之前启动的所有可能的边 地图: 对于你遍历的每条边,你复制你的元组并添加当前遍历节点到成本和当前列表.
..
我有一个数组,我想计算数组中每个项目的出现次数. 我已经设法使用 map 函数来生成一个元组列表. def 映射器(a):返回 (a, 1)r = list(map(lambda a: mapper(a), arr));//输出示例://(11817685, 1), (2014036792, 1), (2014047115, 1), (11817685, 1) 我希望 reduce 函数
..
我有点难以理解 Hadoop 中的数据,如何将数据放入地图和缩减功能.我知道我们可以定义输入格式和输出格式,然后定义输入和输出的键类型.但是举个例子,如果我们想要一个对象作为输入类型,Hadoop 在内部是如何做到的呢? 谢谢... 解决方案 您可以使用 Hadoop InputFormat 和 OutputFormat 接口来创建您的自定义格式..一个示例可以将 MapReduce
..
我开发了一个 map-reduce 程序.我编写了自定义 RecordReader 和 InputFormat 类. 我正在使用 MR Unit 和 Mockito 对 mapper 和 reducer 进行单元测试. 我想知道如何对自定义 RecordReader 和 InputFormat 类进行单元测试?测试这些类的首选方法是什么? 解决方案 感谢user7610
..
我正在尝试实现一个 MapReduce 作业,其中每个映射器将占用 150 行文本文件,并且所有映射器将同时运行;此外,无论有多少地图任务失败,它都不应该失败. 下面是配置部分: JobConf conf = new JobConf(Main.class);conf.setJobName("我的 mapreduce");conf.set("mapreduce.input.lineinpu
..
我正在使用 MapReduce 运行 RFM 分析程序.OutputKeyClass 是 Text.class,我从 Reducer 发出逗号分隔的 R(Recency)、F(频率)、M(Monetory)作为键,其中 R=BigInteger、F=Binteger、M=BigDecimal,并且值也是 Text代表 Customer_ID.我知道 Hadoop 根据键对输出进行排序,但我的最终结
..