spark-csv相关内容

如何用spark-csv解析使用^A(即\001)作为分隔符的csv?

对于 spark、hive、大数据和 Scala 以及所有的东西来说都是非常新的.我正在尝试编写一个简单的函数,它接受一个 sqlContext,从 s3 加载一个 csv 文件并返回一个 DataFrame.问题是这个特定的 csv 使用 ^A(即 \001)字符作为分隔符,并且数据集很大,所以我不能只对它做一个“s/\001/,/g".此外,这些字段可能包含逗号或其他我可能用作分隔符的字符. ..
发布时间:2021-12-28 23:36:56 其他开发

Spark CSV 阅读器:乱码的日语文本和处理多行

在我的 Spark 作业 (spark 2.4.1) 中,我正在 S3 上读取 CSV 文件.这些文件包含日语字符.此外,它们可以包含 ^M 字符 (u000D),因此我需要将它们解析为多行. 首先我使用以下代码读取 CSV 文件: 隐式类 DataFrameReadImplicits (dataFrameReader: DataFrameReader) {def readTeradat ..

使用 spark csv 包读取非常大的文件时出错

我们正在尝试使用 spark-csv 和 univocity 1.5.0 解析器读取一个 3 gb 文件,该文件的一个列中有多个换行符,但是该文件在某些​​行的多列中被拆分换行符.这种情况发生在大文件的情况下. 我们使用的是 spark 1.6.1 和 Scala 2.10 以下是我用来读取文件的代码: sqlContext.read.format("com.databricks.s ..
发布时间:2021-11-14 23:04:46 其他开发

spark-csv 包中的 inferSchema

当 CSV 在 spark 中被读取为数据框时,所有列都被读取为字符串.有没有办法获得列的实际类型? 我有以下 csv 文件 姓名,部门,years_of_experience,DOB山姆,软件,5,1990-10-10Alex,数据分析,3,1992-10-10 我已使用以下代码阅读了 CSV val df = sqlContext.读.格式(“com.databricks.spar ..
发布时间:2021-11-14 22:19:30 其他开发

在 Spark 中读取最后一列作为值数组(并且值在括号内并用逗号分隔)的 CSV

我有一个 CSV 文件,其中最后一列在括号内,值用逗号分隔.最后一列中值的数量是可变的.当我将它们作为带有一些列名的 Dataframe 读取时,如下所示,我在线程“main"java.lang.IllegalArgumentException 中得到 Exception: 要求失败:列数不匹配.我的 CSV 文件看起来像这样 a1,b1,true,2017-05-16T07:00:41.000 ..
发布时间:2021-11-14 22:06:11 其他开发

Scala:Spark SQL to_date(unix_timestamp) 返回 NULL

Spark 版本:spark-2.0.1-bin-hadoop2.7斯卡拉:2.11.8 我正在将原始 csv 加载到 DataFrame 中.在 csv 中,虽然该列支持日期格式,但它们被写为 20161025 而不是 2016-10-25.参数date_format包含需要转换为yyyy-mm-dd格式的列名字符串. 在下面的代码中,我首先通过schema将Date列的csv加载为 ..

添加自定义分隔符会在最终的 spark 数据框 CSV 输出中添加双引号

我有一个数据框,我正在用 |^| 替换默认分隔符 ,.它工作正常,除了在记录中找到 , 之外,我也得到了预期的结果.例如我有一个像下面这样的记录 4295859078|^|914|^|INC|^|平衡项目-非营业收入/(费用),净额|^||^||^|IIII|^|假|^||^||^||^||^|假|^||^||^||^||^|505096|^|505074|^|505074|^|505096|^ ..
发布时间:2021-11-14 21:49:26 其他开发