spark-csv相关内容
对于 spark、hive、大数据和 Scala 以及所有的东西来说都是非常新的.我正在尝试编写一个简单的函数,它接受一个 sqlContext,从 s3 加载一个 csv 文件并返回一个 DataFrame.问题是这个特定的 csv 使用 ^A(即 \001)字符作为分隔符,并且数据集很大,所以我不能只对它做一个“s/\001/,/g".此外,这些字段可能包含逗号或其他我可能用作分隔符的字符.
..
我试图使用 spark csv lib 在 hdfs 文件上创建数据帧对象,如图 在本教程中. 但是当我尝试获取 DataFrame 对象的计数时,它显示为 0 这是我的文件, employee.csv: empid,empname1000,汤姆2000,杰瑞 我加载了上面的文件, val empDf = sqlContext.read.format("com.databr
..
我有一个看起来像这样的数据集 LineItem.organizationId|^|LineItem.lineItemId|^|StatementTypeCode|^|LineItemName|^|LocalLanguageLabel|^|FinancialConceptLocal|^|FinancialConceptGlobal|^|IsDimensional|^|InstrumentId|^|
..
以下是我的 csv 文件中的内容: A1,B1,C1A2,B2,C2,D1A3,B3,C3,D2,E1A4,B4,C4,D3A5,B5,C5,,E2 所以,有 5 列,但第一行只有 3 个值. 我使用以下命令阅读它: val csvDF : DataFrame = spark.read.option("header", "false").option("分隔符", ",").optio
..
我有一个看起来像这样的数据集 LineItem.organizationId|^|LineItem.lineItemId|^|StatementTypeCode|^|LineItemName|^|LocalLanguageLabel|^|FinancialConceptLocal|^|FinancialConceptGlobal|^|IsDimensional|^|InstrumentId|^|
..
我试图使用 spark csv lib 在 hdfs 文件上创建数据帧对象,如图 在本教程中. 但是当我尝试获取 DataFrame 对象的计数时,它显示为 0 这是我的文件, employee.csv: empid,empname1000,汤姆2000,杰瑞 我加载了上面的文件, val empDf = sqlContext.read.format("com.databr
..
我尝试在 spark 1.4.1 中的 spark-shell 中使用 spark -csv 包处理 CSV 文件. scala>导入 org.apache.spark.sql.hive.HiveContext导入 org.apache.spark.sql.hive.HiveContext标度>导入 org.apache.spark.sql.hive.orc._导入 org.apache.spa
..
我尝试在 spark 1.4.1 中的 spark-shell 中使用 spark -csv 包处理 CSV 文件. scala>导入 org.apache.spark.sql.hive.HiveContext导入 org.apache.spark.sql.hive.HiveContext标度>导入 org.apache.spark.sql.hive.orc._导入 org.apache.spa
..
在我的 Spark 作业 (spark 2.4.1) 中,我正在 S3 上读取 CSV 文件.这些文件包含日语字符.此外,它们可以包含 ^M 字符 (u000D),因此我需要将它们解析为多行. 首先我使用以下代码读取 CSV 文件: 隐式类 DataFrameReadImplicits (dataFrameReader: DataFrameReader) {def readTeradat
..
我有一个数据框,我想在其上添加标题和第一列手动.这是数据框: import org.apache.spark.sql.SparkSessionval spark = SparkSession.builder.master("local").appName("my-spark-app").getOrCreate()val df = spark.read.option("header",true).
..
我有一个数据框,我想在其上添加标题和第一列手动.这是数据框: import org.apache.spark.sql.SparkSessionval spark = SparkSession.builder.master("local").appName("my-spark-app").getOrCreate()val df = spark.read.option("header",true).
..
我们正在尝试使用 spark-csv 和 univocity 1.5.0 解析器读取一个 3 gb 文件,该文件的一个列中有多个换行符,但是该文件在某些行的多列中被拆分换行符.这种情况发生在大文件的情况下. 我们使用的是 spark 1.6.1 和 Scala 2.10 以下是我用来读取文件的代码: sqlContext.read.format("com.databricks.s
..
我在将代码从 Spark 2.0 迁移到 2.1 时偶然发现了与 Dataframe 保存相关的问题. 这是代码 import org.apache.spark.sql.types._导入 org.apache.spark.ml.linalg.VectorUDTval df = spark.createDataFrame(Seq(Tuple1(1))).toDF("values")val
..
我想动态生成一个包含报告标题记录的数据框,因此根据以下字符串的值创建一个数据框: val headerDescs : String = "Name,Age,Location"val headerSchema = StructType(headerDescs.split(",").map(fieldName => StructField(fieldName, StringType, true)))
..
我正在尝试使用新的 spark 2.1 csv 选项将 DataFrame 保存到 CSV 中 df.select(myColumns: _*).write.mode(SaveMode.Overwrite).option("header", "true").option("codec", "org.apache.hadoop.io.compress.GzipCodec").csv(绝对路径)
..
运行 spark-csv README 有示例 Java像这样的代码 import org.apache.spark.sql.SQLContext;导入 org.apache.spark.sql.types.*; SQLContext sqlContext = new SQLContext(sc);StructType customSchema = new StructType(new Stru
..
当 CSV 在 spark 中被读取为数据框时,所有列都被读取为字符串.有没有办法获得列的实际类型? 我有以下 csv 文件 姓名,部门,years_of_experience,DOB山姆,软件,5,1990-10-10Alex,数据分析,3,1992-10-10 我已使用以下代码阅读了 CSV val df = sqlContext.读.格式(“com.databricks.spar
..
我有一个 CSV 文件,其中最后一列在括号内,值用逗号分隔.最后一列中值的数量是可变的.当我将它们作为带有一些列名的 Dataframe 读取时,如下所示,我在线程“main"java.lang.IllegalArgumentException 中得到 Exception: 要求失败:列数不匹配.我的 CSV 文件看起来像这样 a1,b1,true,2017-05-16T07:00:41.000
..
Spark 版本:spark-2.0.1-bin-hadoop2.7斯卡拉:2.11.8 我正在将原始 csv 加载到 DataFrame 中.在 csv 中,虽然该列支持日期格式,但它们被写为 20161025 而不是 2016-10-25.参数date_format包含需要转换为yyyy-mm-dd格式的列名字符串. 在下面的代码中,我首先通过schema将Date列的csv加载为
..
我有一个数据框,我正在用 |^| 替换默认分隔符 ,.它工作正常,除了在记录中找到 , 之外,我也得到了预期的结果.例如我有一个像下面这样的记录 4295859078|^|914|^|INC|^|平衡项目-非营业收入/(费用),净额|^||^||^|IIII|^|假|^||^||^||^||^|假|^||^||^||^||^|505096|^|505074|^|505074|^|505096|^
..