hadoop相关内容
我是并行计算的新手,刚开始在 Amazon AWS 上试用 MPI 和 Hadoop+MapReduce.但我对何时使用其中一种感到困惑. 例如,我看到的一个常见的经验法则可以总结为... 大数据、非迭代、容错 => MapReduce 速度、小数据、迭代、非 Mapper-Reducer 类型 => MPI 但是,我也看到了 MapReduce 在 MPI (MR-MPI)
..
是否有 MapReduce(Google、Hadoop)的替代范例?有没有其他合理的方式来拆分 &合并大问题? 解决方案 肯定的.例如,查看 批量同步并行.Map/Reduce 实际上是一种非常有限的减少问题的方法,但是这种限制使它可以在 Hadoop 等框架中进行管理.问题是,将您的问题压入 Map/Reduce 设置是否更容易,或者是否更容易创建特定于域的并行化方案并且必须自己处理所有
..
我编写了一个 mapreduce 作业来从数据集中提取一些信息.数据集是用户对电影的评分.用户数量约为 25 万,电影数量约为 30 万.map的输出是*>和*>.在 reducer 中,我将处理这些对. 但是当我运行作业时,映射器按预期完成,但减速器总是抱怨 任务尝试_* 在 600 秒内未能报告状态. 我知道这是由于更新状态失败,所以我在我的代码中添加了对 co
..
..
我想使用 MapReduce 方法分析连续的数据流(通过 HTTP 访问),因此我一直在研究 Apache Hadoop.不幸的是,Hadoop 似乎希望以固定大小的输入文件开始作业,而不是能够在新数据到达时将其交给消费者.真的是这样吗,还是我错过了什么?是否有不同的 MapReduce 工具可以处理从打开的套接字读取的数据?可伸缩性是这里的一个问题,所以我宁愿让 MapReducer 处理混乱的
..
对 null 键/值使用 NullWritable 比使用 null 文本(即 new Text(null)).我从《Hadoop:权威指南》一书中看到以下内容. NullWritable 是 Writable 的一种特殊类型,因为它具有零长度序列化.无字节被写入流或从流中读取.它用作占位符;例如,在MapReduce,一个键或者一个值在不需要的时候可以声明为NullWritable使用那个
..
过去我曾经使用在 MySQL 上运行的 OLAP 多维数据集构建 WebAnalytics.现在,我使用的 OLAP 多维数据集只是一个大表(好吧,它的存储比那更智能),其中每一行基本上是一个测量值或一组测量值的聚合.每个度量都有一堆维度(即哪个页面名称、用户代理、ip 等)和一堆值(即有多少浏览量、多少访问者等). 您在这样的表上运行的查询通常采用以下形式(元 SQL): SELECT
..
当我在 shell 的 hadoop 文件夹中运行我的 hadoop mapreduce word count jar 时,它运行正常并且输出正确生成, 由于我在 hadoop 2.4.1 的情况下使用 yarn,所以当我从 eclipse 运行 MapReduce 示例程序 时,MAP 过程完成并且在减少过程中失败. 很明显问题出在 jar 配置上. 请找到罐子,我已添加...
..
需要一些快速帮助.我们的作业在 MapR 下运行良好,但是当我们在 Cloudera 5.1 上启动相同的作业时,它一直在本地模式下运行. 我确定这是某种配置问题.它是哪个配置设置? 14/08/22 12:16:58 INFO mapreduce.Job: map 0% reduce 0%14/08/22 12:17:03 信息 mapred.LocalJobRunner: map >地
..
在 hbase 上运行 mapreduce 时出现以下错误: java.io.IOException: 传递 Delete 或 Put在 org.apache.hadoop.hbase.mapreduce.TableOutputFormat$TableRecordWriter.write(TableOutputFormat.java:125)在 org.apache.hadoop.hbase.m
..
我正在使用 opencl 开发一个应用程序,其基本目标是在 GPU 平台上实现数据挖掘算法.我想使用 Hadoop 分布式文件系统并想在多个节点上执行应用程序.我正在使用 MapReduce 框架,我将基本算法分为两部分,即“Map"和“Reduce". 我以前从未在 hadoop 中工作过,所以我有一些问题: 我是否使用 Java 编写应用程序只是为了使用 Hadoop 和 Mape
..
我正在重写一个 MongoDB map reduce 作业以使用 Hadoop(使用 mongo-hadoop 连接器),但是当我将两个数据集映射到同一个集合时,它会覆盖值而不是使用它们 { reduce : "collectionName" } - 如果结果集中和旧集合中的给定键存在文档,则将对这两个值执行归约操作(使用指定的归约函数),并且结果将被写入输出集合.如果提供了 finaliz
..
我有压缩文件,它包含 8 个大小为 5-10kb 的 xml 文件.我将这些数据用于测试目的.我编写了一个仅地图程序来解压缩压缩文件.我在 MR2 中编写程序并在伪分布式模式下使用 Hadoop 2.7.1.我使用 sbin/start-dfs.sh 命令启动集群.我能够在几秒钟内看到文件系统中的解压缩输出,但处理将持续 5-6 分钟.不知道为什么? MR 程序将文件解压到这个阶段,我可以查
..
我有一个 HashMap .我想将我的 HashMap 对象(hmap)序列化到 HDFS 位置,然后在 Mapper 和 Reducers 将其反序列化以使用它. 为了在 HDFS 上序列化我的 HashMap 对象,我使用了如下的普通 java 对象序列化代码,但出现错误(权限被拒绝) 试试{FileOutputStream fileOut =new FileOu
..
我正在关注这篇文章由 Anoop Madhusudanan 在 codeproject 上构建,而不是在集群上而是在我的系统上构建推荐引擎. 问题是当我尝试解析结构如下的posts.xml时:
..
我是 Hadoop 的新手,我正在尝试做一个 MapReduce 程序,以按日期(按月分组)计算 lecters 的最大前两次出现.所以我的输入是这样的: 2017-06-01 , A, B, A, C, B, E, F2017-06-02 , Q, B, Q, F, K, E, F2017-06-03 , A, B, A, R, T, E, E2017-07-01 , A, B, A, C,
..
我正在尝试用伪代码编写一个 MapReduce 任务,该任务返回按降序排序的项目.例如:对于 wordcount 任务,而不是获取: 苹果 1香蕉 3芒果 2 我希望输出是: 香蕉 3芒果 2苹果 1 关于如何做的任何想法?我知道如何按升序(替换映射器作业中的键和值)而不是降序. 解决方案 这里可以借助下面的reducer代码实现降序排序. 假设您已经编写了映射器和驱动程序代
..
问题陈述:- 我需要比较两个表 Table1 和 Table2 并且它们都存储相同的东西.所以我需要比较 Table2 和 Table1 因为 Table1 是需要进行比较的主表.因此,在比较之后,我需要报告 Table2 存在某种差异.这两张表有很多数据,大约 TB 的数据.所以目前我已经编写了 HiveQL 来进行比较并取回数据. 所以我的问题是在 PERFORMANCE 方面哪个
..
我是 Hive、MapReduce 和 Hadoop 的新手.我正在使用 Putty 连接到 hive 表并访问表中的记录.所以我所做的是 - 我打开 Putty 并在主机名中输入 - vip.name.com,然后单击 Open.然后我输入了我的用户名和密码,然后输入了几个命令来访问 Hive sql.以下是我所做的列表 $ bashbash-3.00$ 蜂巢Hive 历史文件=/tmp/rk
..
我正在开发简单的 map reduce 程序.我想在reducer 之后为键中的每个不同单词创建不同的文件.例如,在执行 Mapreduce 之后,我有类似 优先级 1 x 2 优先级 1 和 2 优先级 1 z 2 优先级 2 x 2 优先级2 y 2 现在我想要减少阶段后的不同文件,说 Priority1 和 Priority2 根据优先级具有所有这些值
..