我怎样才能得到每个地图的输入数据大小或减少任务? [英] how can I get the input data size of each map or reduce task?

查看:145
本文介绍了我怎样才能得到每个地图的输入数据大小或减少任务?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

FileInputFormat.java 有帮助吗?如何使用它?
它需要一些输入,它们是什么?

整个任务的输入大小只是大小输入文件从hdfs。

eack mapper任务的输入大小根据以下属性计算(64是默认大小):

  mapreduce.input.fileinputformat.split.minsize = 64Mb 

Hadoop将输入拆分为大小拆分大小,等于:

  max(mapred.min.split.size,min(mapred.max.split.size,dfs.block.size))

使用此属性获取输入的大小。


I need to know input data size of each task .Which class in hadoop can help me? is FileInputFormat.java helpful ?how to use it? it needs some input,What are they?

解决方案

The input size of the whole task is just the size of input files from hdfs.

The input size of eack mapper task is calculated according to the following propertiy (64 is the default size) :

mapreduce.input.fileinputformat.split.minsize=64Mb

Hadoop splits the input into pieces of size split size, which is equal to:

max(mapred.min.split.size, min(mapred.max.split.size, dfs.block.size))

Use this property get the size of your input.

这篇关于我怎样才能得到每个地图的输入数据大小或减少任务?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆