什么是hadoop中的序列文件? [英] What is sequence file in hadoop?

查看:215
本文介绍了什么是hadoop中的序列文件?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我是Map-reduce的新手,我想了解什么是序列文件数据输入?我在Hadoop的书中学习过,但很难理解。

首先,我们应该了解SequenceFile会遇到什么问题来解决,然后SequenceFile如何帮助解决问题。

在HDFS中




  • SequenceFile是Hadoop中小文件问题的解决方案之一。
  • 小文件比HDFS块大小(128MB)小很多。

  • HDFS中的每个文件,目录,块都表示为object,并占用150个字节。
  • 1000万个文件,将使用大约3GB的NameNode内存。


  • $ b

    在MapReduce中



    ul>
  • Map任务通常每次处理一个输入块(使用默认的FileInputFormat)。

  • 文件数量越多,Map任务需要的数量就越多,而作业时间可能会更慢。


    小文件场景




    • 这些文件是一个较大的逻辑文件。
    • 这些文件本身很小,例如图像。



    这两种情况需要不同的解决方案。




    • 首先编写一个程序来连接小文件(见Nathan Marz的发布关于称为合并器的工具就是这样)

    • 对于第二个,需要某种容器来以某种方式对这些文件进行分组。



    Hadoop解决方案



    HAR文件
    $ b
查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆