Hadoop流媒体与zip输入文件 [英] Hadoop streaming with zip input files

查看:205
本文介绍了Hadoop流媒体与zip输入文件的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我试图运行一个流式作业,输入文件是csv里面的zip文件。
我尝试使用这个,但是它似乎不适用于CDH4(我得到错误类com.cotdp.hadoop.ZipFileInputFormat而不是org.apache.hadoop.mapred.InputFormat



任何人都知道我可以用于使用zip文件进行流式传输的输入文件读取器?如果可能的话,我正在寻找一个多文件阅读器(可以提供顶层目录)。

我结束了撰写 zipstream



请注意,只有压缩文件中的第一个文件,我可能稍后会添加对多个文件的支持。


I'm trying to run a streaming job where the input files are csv inside zip files. I tried using this, however it doesn't seem for work with CDH4 (I get the error class com.cotdp.hadoop.ZipFileInputFormat not org.apache.hadoop.mapred.InputFormat)

Anyone know of an input file reader I can use for streaming with zip files? If possible, I'm looking for a multi file reader (that can be given the top level directory).

解决方案

I ended up writing zipstream.

Note that is process only the first file in the zip, I'll probably add support for multiple files later.

这篇关于Hadoop流媒体与zip输入文件的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆