hadoop相关内容
我是开发 map-reduce 功能的新手.考虑我有包含四列数据的 csv 文件. 例如: 101,87,65,67102,43,45,40103,23,56,34104,65,55,40105,87,96,40 现在,我要提取物说 40 10240 10440 105 因为那些行在第四列中包含 40. map reduce函数怎么写? 解决方案 基本 WordCoun
..
我有一个 Hadoop 程序,它有一个循环.在循环的每次迭代中,都会创建一个作业.如何在代码中找到工作 ID? 解决方案 当你提交你的 Job 实例时,你可以使用 getJobID 方法获取关于 job id 的信息: 配置 config = new Configuration();工作工作 = 新工作(配置);//配置你的工作工作.提交();//此时您的作业已提交但尚未完成,应该有您的
..
我有一个外部程序,它将文件作为输入并给出输出文件 //例如输入文件:IN_FILE输出文件:OUT_FILE//运行外部程序./vx ${OUT_FILE} 我想要 HDFS 中的输入和输出文件 我有 8 个节点的集群.我有 8 个输入文件,每个文件有 1 行 //1 输入文件:1.txt1:0,0,0//2输入文件:2.txt2:0,0,128//3 输入文件:3.txt3:0,12
..
我正在对 Hadoop 框架进行一些研究.我想问一下框架中可以使用的属性..例如 io.sort.mb io.sort.record.percent 等 是否有任何参考可以让我了解这个框架的整个属性列表?非常希望有人可以帮助我. 另外,我想问一下,io.sort.mb 和 mapreduce.task.io.sort.mb 有什么区别吗?或者他们是一样的? 解决方案 以下
..
如果我在 hive 中有一个使用 JOIN 的查询,让我们说两个表 上的 LEFT OUTER JOIN 或 INNER JOIN>ON 任何列,那么我如何知道它在后端 MapReduce 中转换为哪种类型的 JOIN(即 Map-side JOIN 或 Reduce-side JOIN)? 谢谢. 解决方案 使用 explain select ... 并检查计划.它解释了 map
..
我在从远程系统提交 mapreduce 作业时遇到异常 13/10/28 18:49:52 错误 security.UserGroupInformation: PriviledgedActionException as:root cause:org.apache.hadoop.mapred.InvalidInputException: 输入路径不存在: file:/F:/Workspaces
..
我已经意识到,当使用 Python 代码运行 Hadoop 时,映射器或化简器(不确定是哪个)在 reducer.py 打印输出之前对我的输出进行排序.目前它似乎是按字母数字排序的.我想知道是否有办法完全禁用它.我想根据 mapper.py 的打印顺序输出程序.我在 Java 中找到了答案,但在 Python 中没有找到答案.我需要修改 mapper.py 还是命令行参数? 解决方案
..
我在 mapred-site.xml 中将 mapred.tasktracker.reduce.tasks.maximum 设置为 10,并且我还在我的 jobConf.setNumReduceTasks(5)工作. 如果我在 Shell 中运行作业,一切正常. 但是当我通过 eclipse 运行相同的作业时,只启动了一个 reducer. 我尝试在 Eclipse 中编辑 Ma
..
在 Hadoop 中,我们可以在 map/reduce 任务中增加计数器,如下所示: ...context.getCounter(MyCountersEnum.SomeCounter).increment(1);... 你可以在日志中找到它们的值. 作业完成后如何从代码中访问它们? 什么是读取计数器值的 Hadoop API? 解决方案 我刚刚找到了答案 这里. 您需
..
我正在使用 eclipse 导出 map-reduce 程序的 jar 文件.当我使用命令运行 jar 时 hadoop jar hadoop-prog.jar WordCount/home/temp/input/home/temp/output 它总是显示错误: 线程“main"java.lang.ClassNotFoundException 中的异常:WordCount在 java.
..
我正在尝试在 hadoop 2.2.0 上运行我的 PDFWordCount map-reduce 程序,但出现此错误: 13/12/25 23:37:26 信息 mapreduce.Job:任务 ID:尝试_1388041362368_0003_m_000009_2,状态:失败错误:java.lang.RuntimeException:java.lang.ClassNotFoundExcept
..
我尝试在 map 方法中抛出 IOExceptions,但 MR 作业没有停止.在抛出大量 IOException 后,该作业将停止.有没有办法通过抛出异常或一些简单的调用来停止整个工作?谢谢. 解决方案 这不是 Hadoop 的理想用例,也不是一个好的实践,但您可以直接从代码内部杀死您的工作.因此,当您达到希望停止工作的条件时,记录必要的并终止您的工作. 这可以使用旧的 mapre
..
有什么方法可以从 Mapper 设置作业配置中的参数,并且可以从 Reducer 访问. 我试过下面的代码 在映射器中:map(..) : context.getConfiguration().set("Sum","100");在 reducer 中: reduce(..) : context.getConfiguration().get("Sum"); 但在 reducer 中
..
我正在运行一个有少量计数器和多输出的 hadoop 作业(来自 oozie). 我收到如下错误:org.apache.hadoop.mapreduce.counters.LimitExceededException:计数器太多:121 max=120 然后我删除了所有具有计数器的代码,并将 mout.setCountersEnabled 设置为 false.并且还在 hadoop 配置
..
这个参数的官方说明如下: 用于执行 MapReduce 作业的运行时框架.可以是本地、经典或纱线之一. 我知道 'yarn' 的值适用于 MRv2,它会将 mapreduce 作业提交给资源管理器.但是本地和经典之间有什么区别?哪个对应MRv1? 非常感谢! 解决方案 你说得对,“yarn"代表MRv2.“经典"适用于 MRv1,“本地"适用于 MR 作业的本地运行.但为什么需要
..
我正在尝试在 Oozie 工作流程中聚合一些数据.但是聚合步骤失败了. 我在日志中发现了两个兴趣点:第一个是似乎反复出现的错误(?): 容器完成后,它会被杀死,但会以非零退出代码 143 退出. 结束: 2015-05-04 15:35:12,013 INFO [49697 上的 IPC 服务器处理程序 7] org.apache.hadoop.mapred.TaskAttem
..
我有 1000 万个小 XML 文件(300KB-500KB).我在 Mapreduce 中使用 Mahaout 的 XML 输入格式来读取数据,并且我正在使用 SAX Parser 进行解析.但是处理速度很慢.使用输入文件的压缩(lzo)是否有助于提高性能?每个文件夹包含 80-90k xml 文件,当我启动该过程时,它会为每个文件运行映射器.有什么方法可以减少映射器的数量? 解决方案
..
我正在尝试从 hadoop 处理 XML 文件,但在对 XML 文件调用字数统计作业时出现以下错误. 13/07/25 12:39:57 信息 mapred.JobClient:任务 ID:尝试_201307251234_0001_m_000008_0,状态:失败获取失败太多13/07/25 12:39:58 INFO mapred.JobClient: 地图 99% 减少 0%13/07/25
..
在我的输入文件中,我有一列作为国家/地区.现在,我的任务是将特定国家的记录放入以该国家命名的单独文件中.这可以在 Map-reduce 中做到吗?!请分享您对此的想法. 解决方案 是的,在 hadoop 中你可以使用 MultipleOutputFormat 使用它的 generateFileNameForKeyValue 方法. 使用您的国家名称作为键和记录作为值,这应该完全符合您
..
YARN 是第二代 Hadoop,不再使用 jobtracker 守护进程,而是用资源管理器代替它.但是为什么在 mapred-site.xml hadoop 2 上有一个 mapreduce.jobtracker.address 属性呢? 解决方案 你是对的.在 YARN 中,jobtracker 不再存在.因此,作为客户端配置的一部分,您不必指定属性 mapreduce.jobtrac
..