spark-csv - IT屋-程序员软件开发技术分享社区

如何用spark-csv解析使用^A(即\001)作为分隔符的csv?

对于 spark、hive、大数据和 Scala 以及所有的东西来说都是非常新的.我正在尝试编写一个简单的函数，它接受一个 sqlContext，从 s3 加载一个 csv 文件并返回一个 DataFrame.问题是这个特定的 csv 使用 ^A(即 \001)字符作为分隔符，并且数据集很大，所以我不能只对它做一个“s/\001/,/g".此外，这些字段可能包含逗号或其他我可能用作分隔符的字符. ..

发布时间：2021-12-28 23:36:56 scala apache-spark hive delimiter spark-csv 其他开发

DataFrame 对象未显示任何数据

我试图使用 spark csv lib 在 hdfs 文件上创建数据帧对象，如图在本教程中. 但是当我尝试获取 DataFrame 对象的计数时，它显示为 0 这是我的文件， employee.csv: empid,empname1000,汤姆2000，杰瑞我加载了上面的文件， val empDf = sqlContext.read.format("com.databr ..

发布时间：2021-11-14 23:31:22 hadoop apache-spark apache-spark-sql spark-dataframe spark-csv 其他开发

如何使用另一个数据帧标题更改数据帧的标题?

我有一个看起来像这样的数据集 LineItem.organizationId|^|LineItem.lineItemId|^|StatementTypeCode|^|LineItemName|^|LocalLanguageLabel|^|FinancialConceptLocal|^|FinancialConceptGlobal|^|IsDimensional|^|InstrumentId|^| ..

发布时间：2021-11-14 23:29:47 scala apache-spark spark-dataframe spark-csv 其他开发

Spark 不读取第一行中具有空值的列

以下是我的 csv 文件中的内容: A1,B1,C1A2,B2,C2,D1A3,B3,C3,D2,E1A4,B4,C4,D3A5,B5,C5,,E2 所以，有 5 列，但第一行只有 3 个值. 我使用以下命令阅读它: val csvDF : DataFrame = spark.read.option("header", "false").option("分隔符", ",").optio ..

发布时间：2021-11-14 23:27:19 apache-spark apache-spark-sql apache-spark-2.0 spark-csv 其他开发

如何使用另一个数据帧标题更改数据帧的标题?

我有一个看起来像这样的数据集 LineItem.organizationId|^|LineItem.lineItemId|^|StatementTypeCode|^|LineItemName|^|LocalLanguageLabel|^|FinancialConceptLocal|^|FinancialConceptGlobal|^|IsDimensional|^|InstrumentId|^| ..

发布时间：2021-11-14 23:27:16 scala apache-spark spark-dataframe spark-csv 其他开发

DataFrame 对象未显示任何数据

我试图使用 spark csv lib 在 hdfs 文件上创建数据帧对象，如图在本教程中. 但是当我尝试获取 DataFrame 对象的计数时，它显示为 0 这是我的文件， employee.csv: empid,empname1000,汤姆2000，杰瑞我加载了上面的文件， val empDf = sqlContext.read.format("com.databr ..

发布时间：2021-11-14 23:25:37 hadoop apache-spark apache-spark-sql spark-dataframe spark-csv 其他开发

spark-csv 中的自定义模式在 spark 1.4.1 中抛出错误

我尝试在 spark 1.4.1 中的 spark-shell 中使用 spark -csv 包处理 CSV 文件. scala>导入 org.apache.spark.sql.hive.HiveContext导入 org.apache.spark.sql.hive.HiveContext标度>导入 org.apache.spark.sql.hive.orc._导入 org.apache.spa ..

发布时间：2021-11-14 23:18:35 apache-spark spark-dataframe spark-csv 其他开发

spark-csv 中的自定义模式在 spark 1.4.1 中抛出错误

我尝试在 spark 1.4.1 中的 spark-shell 中使用 spark -csv 包处理 CSV 文件. scala>导入 org.apache.spark.sql.hive.HiveContext导入 org.apache.spark.sql.hive.HiveContext标度>导入 org.apache.spark.sql.hive.orc._导入 org.apache.spa ..

发布时间：2021-11-14 23:14:52 apache-spark spark-dataframe spark-csv 其他开发

Spark CSV 阅读器:乱码的日语文本和处理多行

在我的 Spark 作业 (spark 2.4.1) 中，我正在 S3 上读取 CSV 文件.这些文件包含日语字符.此外，它们可以包含 ^M 字符 (u000D)，因此我需要将它们解析为多行. 首先我使用以下代码读取 CSV 文件: 隐式类 DataFrameReadImplicits (dataFrameReader: DataFrameReader) {def readTeradat ..

发布时间：2021-11-14 23:12:44 scala apache-spark character-encoding apache-spark-sql spark-csv 其他开发

如何将标题和列添加到数据框火花?

我有一个数据框，我想在其上添加标题和第一列手动.这是数据框: import org.apache.spark.sql.SparkSessionval spark = SparkSession.builder.master("local").appName("my-spark-app").getOrCreate()val df = spark.read.option("header",true). ..

发布时间：2021-11-14 23:07:12 scala apache-spark-sql spark-csv 其他开发

如何将标题和列添加到数据框火花?

我有一个数据框，我想在其上添加标题和第一列手动.这是数据框: import org.apache.spark.sql.SparkSessionval spark = SparkSession.builder.master("local").appName("my-spark-app").getOrCreate()val df = spark.read.option("header",true). ..

发布时间：2021-11-14 23:05:20 scala apache-spark-sql spark-csv 其他开发

使用 spark csv 包读取非常大的文件时出错

我们正在尝试使用 spark-csv 和 univocity 1.5.0 解析器读取一个 3 gb 文件，该文件的一个列中有多个换行符，但是该文件在某些行的多列中被拆分换行符.这种情况发生在大文件的情况下. 我们使用的是 spark 1.6.1 和 Scala 2.10 以下是我用来读取文件的代码: sqlContext.read.format("com.databricks.s ..

发布时间：2021-11-14 23:04:46 scala apache-spark spark-dataframe spark-csv univocity 其他开发

Spark 2.1 无法在 CSV 上写入 Vector 字段

我在将代码从 Spark 2.0 迁移到 2.1 时偶然发现了与 Dataframe 保存相关的问题. 这是代码 import org.apache.spark.sql.types._导入 org.apache.spark.ml.linalg.VectorUDTval df = spark.createDataFrame(Seq(Tuple1(1))).toDF("values")val ..

发布时间：2021-11-14 23:01:30 csv apache-spark apache-spark-sql spark-csv 其他开发

以编程方式为 Apache Spark 中的数据帧生成架构和数据

我想动态生成一个包含报告标题记录的数据框，因此根据以下字符串的值创建一个数据框: val headerDescs : String = "Name,Age,Location"val headerSchema = StructType(headerDescs.split(",").map(fieldName => StructField(fieldName, StringType, true))) ..

发布时间：2021-11-14 22:45:06 apache-spark dataframe spark-dataframe rdd spark-csv 其他开发

Spark CSV 2.1 文件名

我正在尝试使用新的 spark 2.1 csv 选项将 DataFrame 保存到 CSV 中 df.select(myColumns: _*).write.mode(SaveMode.Overwrite).option("header", "true").option("codec", "org.apache.hadoop.io.compress.GzipCodec").csv(绝对路径) ..

发布时间：2021-11-14 22:32:12 apache-spark spark-dataframe spark-csv 其他开发

使用带有数据帧的 spark-csv 获取 NullPointerException

运行 spark-csv README 有示例 Java像这样的代码 import org.apache.spark.sql.SQLContext;导入 org.apache.spark.sql.types.*; SQLContext sqlContext = new SQLContext(sc);StructType customSchema = new StructType(new Stru ..

发布时间：2021-11-14 22:24:46 apache-spark spark-dataframe spark-csv 其他开发

spark-csv 包中的 inferSchema

当 CSV 在 spark 中被读取为数据框时，所有列都被读取为字符串.有没有办法获得列的实际类型? 我有以下 csv 文件姓名,部门,years_of_experience,DOB山姆，软件，5，1990-10-10Alex，数据分析，3,1992-10-10 我已使用以下代码阅读了 CSV val df = sqlContext.读.格式(“com.databricks.spar ..

发布时间：2021-11-14 22:19:30 scala apache-spark apache-spark-sql spark-csv 其他开发

在 Spark 中读取最后一列作为值数组(并且值在括号内并用逗号分隔)的 CSV

我有一个 CSV 文件，其中最后一列在括号内，值用逗号分隔.最后一列中值的数量是可变的.当我将它们作为带有一些列名的 Dataframe 读取时，如下所示，我在线程“main"java.lang.IllegalArgumentException 中得到 Exception: 要求失败:列数不匹配.我的 CSV 文件看起来像这样 a1,b1,true,2017-05-16T07:00:41.000 ..

发布时间：2021-11-14 22:06:11 scala apache-spark apache-spark-sql spark-csv 其他开发

Scala:Spark SQL to_date(unix_timestamp) 返回 NULL

Spark 版本:spark-2.0.1-bin-hadoop2.7斯卡拉:2.11.8 我正在将原始 csv 加载到 DataFrame 中.在 csv 中，虽然该列支持日期格式，但它们被写为 20161025 而不是 2016-10-25.参数date_format包含需要转换为yyyy-mm-dd格式的列名字符串. 在下面的代码中，我首先通过schema将Date列的csv加载为 ..

发布时间：2021-11-14 21:57:21 scala apache-spark apache-spark-sql spark-dataframe spark-csv 其他开发

添加自定义分隔符会在最终的 spark 数据框 CSV 输出中添加双引号

我有一个数据框，我正在用 |^| 替换默认分隔符 ,.它工作正常，除了在记录中找到 , 之外，我也得到了预期的结果.例如我有一个像下面这样的记录 4295859078|^|914|^|INC|^|平衡项目-非营业收入/(费用)，净额|^||^||^|IIII|^|假|^||^||^||^||^|假|^||^||^||^||^|505096|^|505074|^|505074|^|505096|^ ..

发布时间：2021-11-14 21:49:26 apache-spark spark-dataframe spark-csv 其他开发

spark-csv相关内容