首页
分布式计算/Hadoop
将数据配置到Hadoop MR / Pig中的作业

将数据配置到Hadoop MR / Pig中的作业 [英] Piping data into jobs in Hadoop MR/Pig

查看：199 发布时间：2018/5/31 20:28:14 hadoop mapreduce oozie cascading

本文介绍了将数据配置到Hadoop MR / Pig中的作业的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我有三种不同类型的作业在HDFS上的数据上运行。
这三项工作必须在当前情况下单独运行。
现在，我们希望通过将一个作业的OUTPUT数据传输到另一个作业而无需在HDFS中写入数据来改进架构和整体性能，从而一起运行三个作业。

欢迎您提出任何建议。

 
 
  PS：Oozie不适合工作流程。由于可伸缩性问题，也排除了级联框架。 
谢谢 
 
解决方案
 Hadoop在M / R步骤之后固有写入存储（例如HDFS）。如果你想要记忆中的东西，也许你需要看看 Spark 。
 
I have three different type of jobs running on the data in HDFS.
These three jobs have to be run separately in the current scenario.
Now, we want to run the three jobs together by piping the OUTPUT data of one job to the other job without writing the data in HDFS to improve the architecture and overall performance.

Any suggestions are welcome for this scenario.

PS : Oozie is not fitting for the workflow.Cascading framework is also ruled out because of Scalability issues.
Thanks
 解决方案 
Hadoop inherently writes to storage (e.g. HDFS) after M/R steps.  If you want something in memory, maybe you need to look into something like Spark.

                        这篇关于将数据配置到Hadoop MR / Pig中的作业的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！


                    
                        查看全文


        
            



        
        
            相关文章
            
                    
                        
                            Pig:Hadoop 作业失败;
                        
                    
                    
                        
                            Pig:Hadoop作业失败;
                        
                    
                    
                        
                            使用Hadoop配置Pig关系;
                        
                    
                    
                        
                            HADOOP  - 减少阶段在简单的MR作业上挂起;
                        
                    
                    
                        
                            在Windows上运行没有Admin权限的Hadoop MR作业;
                        
                    
                    
                        
                            Hadoop/MR临时目录;
                        
                    
                    
                        
                            如何将hive sql查询作为来自配置单元cli的mr作业提交;
                        
                    
                    
                        
                            在Hadoop / PIG中压缩/解压gzip数据是否透明？;
                        
                    
                    
                        
                            如何计算MR作业中HDFS中的文件数量？;
                        
                    
                    
                        
                            如何根据当前正在运行的作业ID检索hadoop作业配置?;
                        
                    
                    
                        
                            将数据从 Apache Pig 存储到 SequenceFile;
                        
                    
                    
                        
                            将数据从Apache Pig存储到SequenceFile;
                        
                    
                    
                        
                            Pig和Hadoop连接错误;
                        
                    
                    
                        
                            Pig 和 Hadoop 连接错误;
                        
                    
                    
                        
                            Hadoop Pig  - 删除csv标题;
                        
                    
                    
                        
                            Hadoop Pig 有序分析函数;
                        
                    
                    
                        
                            Hadoop Pig UDF调用问题;
                        
                    
                    
                        
                            Hadoop Pig有序分析函数;
                        
                    
                    
                        
                            Hadoop Pig UDF 调用问题;
                        
                    
                    
                        
                            提交Hadoop作业;
                        
                    
                    
                        
                            如何从 hive cli 将 hive sql 查询作为 mr 作业提交;
                        
                    
                    
                        
                            gzip 数据的压缩/解压缩在 Hadoop/PIG 中是否透明?;
                        
                    
                    
                        
                            Hadoop  - 使用PIG加载Hive表;
                        
                    
                    
                        
                            Hadoop Pig - 删除 csv 标头;
                        
                    
                    
                        
                            Hadoop - 使用 PIG 加载 Hive 表;


    
        
            分布式计算/Hadoop最新文章
            
                    
                        
                            SearchPhaseExecutionException [无法执行phase [query]，所有分片失败];
                        
                    
                    
                        
                            如何计算Hive中两个数组的交集和联合？;
                        
                    
                    
                        
                            Elasticsearch：执行精确搜索，其中查询包含特殊字符，如'＃';
                        
                    
                    
                        
                            找不到hadoop安装：必须设置$ HADOOP_HOME或hadoop必须位于路径中;
                        
                    
                    
                        
                            Hive错误：parseexception缺少EOF;
                        
                    
                    
                        
                            如何从HIVE中的日期中减去几个月;
                        
                    
                    
                        
                            在ambari hadoop安装过程中，许可被拒绝（publickey，gssapi-keyex，gssapi-with-mic，密码）;
                        
                    
                    
                        
                            从kibana导出到csv / excel;
                        
                    
                    
                        
                            检索ElasticSearch中所有_id的高效方法;
                        
                    
                    
                        
                            不正确的配置：namenode地址dfs.namenode.rpc-address未配置;
                        
                    
            
        
        
            
                热门教程
            
            
                
                    
                        Java教程
                    
                
                
                    
                        Apache ANT 教程
                    
                
                
                    
                        Kali Linux教程
                    
                
                
                    
                        JavaScript教程
                    
                
                
                    
                        JavaFx教程
                    
                
                
                    
                        MFC 教程
                    
                
                
                    
                        Apache HTTP客户端教程
                    
                
                
                    
                        Microsoft Visio 教程
                    
                
            
        
        
            
                热门工具
            
            
                
                
                    
                        Java 在线工具
                    
                
                
                    
                        C(GCC) 在线工具
                    
                
                
                    
                        PHP 在线工具
                    
                
                
                    
                        C# 在线工具
                    
                
                
                    
                        Python 在线工具
                    
                
                
                    
                        MySQL 在线工具
                    
                
                
                    
                        VB.NET 在线工具
                    
                
                
                    
                        Lua 在线工具
                    
                
                
                    
                        Oracle 在线工具
                    
                
                
                    
                        C++(GCC) 在线工具
                    
                
                
                    
                        Go 在线工具
                    
                
                
                    
                        Fortran 在线工具



    
        
            登录
            关闭
        
        
            
                扫码关注1秒登录
            
            
                
            
            
                
                
            
            
                发送“验证码”获取
                |
                15天全站免登陆
            
            
        
    
    





    
		
			友情链接：
            IT屋
            Chrome插件
            谷歌浏览器插件
        
        
            IT屋
            ©2016-2022 琼ICP备2021000895号-1
            站点地图
            站点标签
            SiteMap
            <免责申明>
            本站内容来源互联网,如果侵犯您的权益请联系我们删除.