首页
Java开发
如何在hadoop中为java使用combineFileInputFormat？

如何在hadoop中为java使用combineFileInputFormat？ [英] How to use combineFileInputFormat for java in hadoop?

查看：166 发布时间：2018/6/1 12:41:29 java hadoop

本文介绍了如何在hadoop中为java使用combineFileInputFormat？的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我正在处理大量小文件，并使用combineFileInputFormat来避免执行大量映射任务。它工作正常，但问题是，我需要有每个文件的ID，这样所有的文件的ID是1.我怎么能保持文件的ID？我必须添加一些代码到我的combineFileInputFormat？ / p>

解决方案

配置当前正在处理的文件的配置属性，所以你应该能够从 map.input.file 属性获取当前文件名：

  @Override 
 protected void map（Longwritable key，Text value，Context context）{
 String filePath = context.getConfiguration（）。get（map.input.file ）; 
 
 
 
 
 
如果你使用旧的API（mapred），属性名称是相同。
 
I am working with large number of small files and have used combineFileInputFormat to avoid having a lot of map tasks. it is working properly but the problem is that i need to have the id of each file, in this way all of file's id is 1. how can i keep the ids of files?do i have to add some code to my combineFileInputFormat?
 解决方案 
The CombineFileRecordReader configures a configuration property for the current file it is processing, so you should be able to obtain the current file name from the map.input.file property:
@Override
protected void map(Longwritable key, Text value, Context context) {
    String filePath = context.getConfiguration().get("map.input.file");
}
If you're using the old API (mapred), the property name is the same.

                        这篇关于如何在hadoop中为java使用combineFileInputFormat？的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！


                    
                        查看全文


        
            



        
        
            相关文章
            
                    
                        
                            CombineFileInputFormat Hadoop 0.20.205 的实现;
                        
                    
                    
                        
                            CombineFileInputFormat Hadoop 0.20.205的实现;
                        
                    
                    
                        
                            Hadoop：对小文件使用CombineFileInputFormat是否可以提高性能？;
                        
                    
                    
                        
                            CombineFileInputFormat始终只启动一个映射Hadoop 1.2.1;
                        
                    
                    
                        
                            hadoop-hadoop中的输入/输出文件存储在哪里，以及如何在hadoop中执行Java文件?;
                        
                    
                    
                        
                            如何在Hadoop中使用CompressionCodec;
                        
                    
                    
                        
                            如何在hadoop中实现排序？;
                        
                    
                    
                        
                            数据如何在Hadoop中拆分;
                        
                    
                    
                        
                            如何在hadoop中查看标准？;
                        
                    
                    
                        
                            如何在使用hadoop时使用记录器api编写java日志文件;
                        
                    
                    
                        
                            如何在java中为Ubuntu 13.04使用PGR FlyCapture;
                        
                    
                    
                        
                            如何在Hadoop中定制Writable类？;
                        
                    
                    
                        
                            如何在Docker Swarm中设置Hadoop？;
                        
                    
                    
                        
                            如何在Hadoop 3.0中做CopyMerge？;
                        
                    
                    
                        
                            如何在hadoop中运行jar文件？;
                        
                    
                    
                        
                            如何在Cloudera hadoop中使用外部罐子？;
                        
                    
                    
                        
                            如何在mapper（Hadoop）中使用MATLAB代码？;
                        
                    
                    
                        
                            JAVA _Home未在Hadoop中设置;
                        
                    
                    
                        
                            Java如何在Intellij中找到spark，Hadoop和AWS jar;
                        
                    
                    
                        
                            如何使用Hadoop Streaming在本地Hadoop集群中运行MRJob?;
                        
                    
                    
                        
                            如何序列化Hadoop中的Java对象？;
                        
                    
                    
                        
                            如何在Java中为char添加整数？;
                        
                    
                    
                        
                            如何在 Java 中为 TensorFlow 创建 TensorProto?;
                        
                    
                    
                        
                            如何在Java中为日期添加天数;
                        
                    
                    
                        
                            如何在Scala 2.9.0中实现Hadoop Mapper？;


    
        
            Java开发最新文章
            
                    
                        
                            Tomcat 404错误：原始服务器没有找到目标资源的当前表示，或者不愿意透露该目录的存在;
                        
                    
                    
                        
                            由于缺少ServletWebServerFactory bean，无法启动ServletWebServerApplicationContext;
                        
                    
                    
                        
                            无法反序列化的java.util.ArrayList实例出来VALUE_STRING的;
                        
                    
                    
                        
                            什么是AssertionError？在这种情况下，我应该从我自己的代码中抛出？;
                        
                    
                    
                        
                            JSON反序列化投掷例外 - 无法反序列化的java.util.ArrayList实例出来START_OBJECT令牌;
                        
                    
                    
                        
                            Maven构建错误 - 无法执行目标org.apache.maven.plugins：Maven的组装插件：2.5.5;
                        
                    
                    
                        
                            正确使用Optional.ifPresent（）;
                        
                    
                    
                        
                            获取异常（org.apache.poi.openxml4j.exception  - 没有内容类型[M1.13]）阅读使用Apache POI XLSX文件时？;
                        
                    
                    
                        
                            SpringBoot  - 制作jar文件 - 在META-INF / spring.factories中找不到自动配置类;
                        
                    
                    
                        
                            HTTP状态404  - 请求的资源（/）不可用;
                        
                    
            
        
        
            
                热门教程
            
            
                
                    
                        Java教程
                    
                
                
                    
                        Apache ANT 教程
                    
                
                
                    
                        Kali Linux教程
                    
                
                
                    
                        JavaScript教程
                    
                
                
                    
                        JavaFx教程
                    
                
                
                    
                        MFC 教程
                    
                
                
                    
                        Apache HTTP客户端教程
                    
                
                
                    
                        Microsoft Visio 教程
                    
                
            
        
        
            
                热门工具
            
            
                
                
                    
                        Java 在线工具
                    
                
                
                    
                        C(GCC) 在线工具
                    
                
                
                    
                        PHP 在线工具
                    
                
                
                    
                        C# 在线工具
                    
                
                
                    
                        Python 在线工具
                    
                
                
                    
                        MySQL 在线工具
                    
                
                
                    
                        VB.NET 在线工具
                    
                
                
                    
                        Lua 在线工具
                    
                
                
                    
                        Oracle 在线工具
                    
                
                
                    
                        C++(GCC) 在线工具
                    
                
                
                    
                        Go 在线工具
                    
                
                
                    
                        Fortran 在线工具



    
        
            登录
            关闭
        
        
            
                扫码关注1秒登录
            
            
                
            
            
                
                
            
            
                发送“验证码”获取
                |
                15天全站免登陆
            
            
        
    
    





    
		
			友情链接：
            IT屋
            Chrome插件
            谷歌浏览器插件
        
        
            IT屋
            ©2016-2022 琼ICP备2021000895号-1
            站点地图
            站点标签
            SiteMap
            <免责申明>
            本站内容来源互联网,如果侵犯您的权益请联系我们删除.