Hadoop流媒体与zip输入文件 [英] Hadoop streaming with zip input files
问题描述
我试图运行一个流式作业,输入文件是csv里面的zip文件。
我尝试使用这个,但是它似乎不适用于CDH4(我得到错误类com.cotdp.hadoop.ZipFileInputFormat而不是org.apache.hadoop.mapred.InputFormat
)
任何人都知道我可以用于使用zip文件进行流式传输的输入文件读取器?如果可能的话,我正在寻找一个多文件阅读器(可以提供顶层目录)。
我结束了撰写 zipstream 。请注意,只有压缩文件中的第一个文件,我可能稍后会添加对多个文件的支持。
I'm trying to run a streaming job where the input files are csv inside zip files.
I tried using this, however it doesn't seem for work with CDH4 (I get the error class com.cotdp.hadoop.ZipFileInputFormat not org.apache.hadoop.mapred.InputFormat
)
Anyone know of an input file reader I can use for streaming with zip files? If possible, I'm looking for a multi file reader (that can be given the top level directory).
I ended up writing zipstream.
Note that is process only the first file in the zip, I'll probably add support for multiple files later.
这篇关于Hadoop流媒体与zip输入文件的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!