在hadoop上的一个流式作业中使用多个映射器输入? [英] Using multiple mapper inputs in one streaming job on hadoop?
本文介绍了在hadoop上的一个流式作业中使用多个映射器输入?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
lockquote
MultipleInputs.addInputPath(conf,path,inputFormatClass,mapperClass)
用不同的映射器添加多个输入。
现在我使用python编写在hadoop的流工作,可以做一个类似的工作吗?
hadoop jar hadoop-streaming.jar -input foo.txt -input bar.txt ...
code>
In java I would use:
MultipleInputs.addInputPath(conf, path, inputFormatClass, mapperClass)
to add multiple inputs with a different mapper for each.
Now I am using python to write a streaming job in hadoop, can a similiar job be done?
解决方案
You can use multiple -input options to specify multiple input paths:
hadoop jar hadoop-streaming.jar -input foo.txt -input bar.txt ...
这篇关于在hadoop上的一个流式作业中使用多个映射器输入?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文