如何防止pyspark将以JSON对象作为其值的csv字段中的逗号解释为定界符 [英] How do I prevent pyspark from interpreting commas as a delimiter in a csv field having JSON object as its value

查看：40 发布时间：2021/4/27 19:44:06 python csv pyspark

本文介绍了如何防止pyspark将以JSON对象作为其值的csv字段中的逗号解释为定界符的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我正在尝试使用pyspark版本2.4.5和Databrick的spark-csv模块读取以逗号分隔的csv文件.csv文件中的字段之一以json对象作为其值.csv的内容如下

I am trying to read a comma delimited csv file using pyspark version 2.4.5 and Databrick's spark-csv module. One of the field in the csv file has a json object as its value. The contents of the csv are as below

header_col_1, header_col_2, header_col_3
one, two, three
one, {"key1":"value1","key2":"value2","key3":"value3","key4":"value4"}, three

我发现的其他解决方案已读取了定义为转义":" 和定界符":，" 的选项.这似乎不起作用，因为相关字段中的逗号未用双引号引起来.下面是我用来读取csv文件的源代码

Other solutions that I found had read options defined as "escape": '"', and 'delimiter': ",". This seems not to be working as the commas in the field in question are not enclosed in double quotes. Below is the source code that I am using to read the csv file

from pyspark.sql import SparkSession
import findspark

findspark.init()

spark = SparkSession.builder.appName('test').getOrCreate()

read_options = {
    'header': 'true',
    "escape": '"',
    'delimiter': ",",
    'inferSchema': 'false',
}

spark_df = spark.read.format('com.databricks.spark.csv').options(**read_options).load('test.csv')

print(spark_df.show())

上述程序的输出如下所示

Output of the above program is as shown below

+------------+-----------------+---------------+
|header_col_1|     header_col_2|   header_col_3|
+------------+-----------------+---------------+
|         one|              two|          three|
|         one| {"key1":"value1"|"key2":"value2"|
+------------+-----------------+---------------+

如何防止pyspark将以JSON对象作为其值的csv字段中的逗号解释为定界符 [英] How do I prevent pyspark from interpreting commas as a delimiter in a csv field having JSON object as its value

问题描述

推荐答案

相关文章

Python最新文章

热门教程

热门工具

登录关闭

如何防止pyspark将以JSON对象作为其值的csv字段中的逗号解释为定界符 [英] How do I prevent pyspark from interpreting commas as a delimiter in a csv field having JSON object as its value

问题描述

推荐答案

相关文章

Python最新文章

热门教程

热门工具

登录 关闭

登录关闭