首页
Office
如何从Spark的csv文件中跳过标题？

如何从Spark的csv文件中跳过标题？ [英] How to skip header from csv files in Spark?

查看：320 发布时间：2017/2/24 15:13:22 csv apache-spark

本文介绍了如何从Spark的csv文件中跳过标题？的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

假设我给出三个文件路径，以便spark上下文读取，每个文件在第一行有模式。如何从头中跳过模式行

  val rdd = sc.textFile（file1，file2，file3）
 
 h2_lin>解决方案
如果只有一个标题行，在第一个记录中，则最有效的过滤方式是：
  rdd.mapPartitionsWithIndex {（idx，iter）=> if（idx == 0）iter.drop（1）else iter} 
  
如果当然有许多文件与许多标题行内。 
 
 
 你也可以只写一个过滤器一个可以是标题的行。这很简单，但效率较低。
 
Suppose I give three files paths to spark context to read and each file has schema in first row. how can we skip schema lines from headers 
val rdd=sc.textFile("file1,file2,file3")
now how can we skip header lines from this rdd?
 解决方案 
If there were just one header line, in the first record, then the most efficient way to filter it out is:
rdd.mapPartitionsWithIndex { (idx, iter) => if (idx == 0) iter.drop(1) else iter }
This doesn't help if of course there are many files with many header lines inside. You can union 3 RDDs you make this way, indeed.

You could also just write a filter that matches only a line that could be a header. This is quite simple but less efficient.

                        这篇关于如何从Spark的csv文件中跳过标题？的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！


                    
                        查看全文


        
            



        
        
            相关文章
            
                    
                        
                            如何从Spark中的CSV文件中跳过标题?;
                        
                    
                    
                        
                            如何跳过 Spark 中 CSV 文件的标题?;
                        
                    
                    
                        
                            如何从星火CSV文件中跳过标题？;
                        
                    
                    
                        
                            Camel:如何跳过 CSV 文件中的多个标题行;
                        
                    
                    
                        
                            骆驼:如何跳过CSV文件中的多个标题行;
                        
                    
                    
                        
                            使用 Python 编辑 csv 文件时跳过标题;
                        
                    
                    
                        
                            使用Python编辑csv文件时跳过标题;
                        
                    
                    
                        
                            在Apache Beam中读取CSV文件时跳过标题;
                        
                    
                    
                        
                            Pythonic使用CSV模块跳过标题？;
                        
                    
                    
                        
                            使用单个标题合并 Spark 输出 CSV 文件;
                        
                    
                    
                        
                            在Ruby中读取CSV时，如何跳过标题行？;
                        
                    
                    
                        
                            如何跳过CSV文件的列;
                        
                    
                    
                        
                            从java中的csv文件读取时跳过行;
                        
                    
                    
                        
                            如何使用csv.DictReader跳过前标题行？;
                        
                    
                    
                        
                            如何从CSV文件复制到PostgreSQL表与CSV文件中的标题？;
                        
                    
                    
                        
                            Spark csv to dataframe 跳过第一行;
                        
                    
                    
                        
                            如何在Spark中的RDD中跳过多于一行的标题;
                        
                    
                    
                        
                            删除CSV文件中的标题;
                        
                    
                    
                        
                            如何使用双引号从csv中跳过逗号;
                        
                    
                    
                        
                            如何跳过csv文件中的第一行;
                        
                    
                    
                        
                            Spark CSV到DataFrame跳过第一行;
                        
                    
                    
                        
                            Matlab：从.csv文件只读标题行;
                        
                    
                    
                        
                            使用Apache Commons CSV跳过CSV文件中的空记录;
                        
                    
                    
                        
                            Python CSV阅读器跳过9个标题;
                        
                    
                    
                        
                            如何跳过CSV文件的第一行，使第二行为标题;


    
        
            Office最新文章
            
                    
                        
                            数组作为Excel中的条件COUNTIFS函数，混合AND和OR;
                        
                    
                    
                        
                            文件（文件，“rt”）中的错误：无法打开连接;
                        
                    
                    
                        
                            在matlab中从CSV文件中读取特定列;
                        
                    
                    
                        
                            Excel错误：已删除记录：从/xl/worksheets/sheet10.xml部分排序;
                        
                    
                    
                        
                            excel：无法保存或导出xml数据。此工作簿中的xml映射不可导出;
                        
                    
                    
                        
                            xlsx错误：“已删除的记录：来自/xl/workbook.xml部分的命名范围”当尝试解决错误;
                        
                    
                    
                        
                            Microsoft Excel无法插入新单元格;
                        
                    
                    
                        
                            R：如何解决is.data.frame（x）中的错误：object''找不到？;
                        
                    
                    
                        
                            如何使用命令提示符将JMeter聚合报告结果保存到CSV文件？;
                        
                    
                    
                        
                            如何使用vba将工作表复制到另一个工作簿？;
                        
                    
            
        
        
            
                热门教程
            
            
                
                    
                        Java教程
                    
                
                
                    
                        Apache ANT 教程
                    
                
                
                    
                        Kali Linux教程
                    
                
                
                    
                        JavaScript教程
                    
                
                
                    
                        JavaFx教程
                    
                
                
                    
                        MFC 教程
                    
                
                
                    
                        Apache HTTP客户端教程
                    
                
                
                    
                        Microsoft Visio 教程
                    
                
            
        
        
            
                热门工具
            
            
                
                
                    
                        Java 在线工具
                    
                
                
                    
                        C(GCC) 在线工具
                    
                
                
                    
                        PHP 在线工具
                    
                
                
                    
                        C# 在线工具
                    
                
                
                    
                        Python 在线工具
                    
                
                
                    
                        MySQL 在线工具
                    
                
                
                    
                        VB.NET 在线工具
                    
                
                
                    
                        Lua 在线工具
                    
                
                
                    
                        Oracle 在线工具
                    
                
                
                    
                        C++(GCC) 在线工具
                    
                
                
                    
                        Go 在线工具
                    
                
                
                    
                        Fortran 在线工具



    
        
            登录
            关闭
        
        
            
                扫码关注1秒登录
            
            
                
            
            
                
                
            
            
                发送“验证码”获取
                |
                15天全站免登陆
            
            
        
    
    





    
		
			友情链接：
            IT屋
            Chrome插件
            谷歌浏览器插件
        
        
            IT屋
            ©2016-2022 琼ICP备2021000895号-1
            站点地图
            站点标签
            SiteMap
            <免责申明>
            本站内容来源互联网,如果侵犯您的权益请联系我们删除.