如何将pyspark中的表数据帧导出到csv? [英] how to export a table dataframe in pyspark to csv?
问题描述
我正在使用spark-1.3.1(pyspark),并且我已经使用SQL查询生成了一个表。我现在有一个对象是一个DataFrame。我想导出这个DataFrame对象(我称之为表)到一个csv文件,所以我可以操纵它并绘制列。如何将DataFrametable导出到csv文件?
I am using spark-1.3.1 (pyspark) and I have generated a table using a SQL query. I now have an object that is a DataFrame. I want to export this DataFrame object (I have called it "table") to a csv file so I can manipulate it and plot the columns. How do I export the DataFrame "table" to a csv file?
谢谢!
推荐答案
如果数据帧适合于驱动程序内存,并且要保存到本地文件系统,则可以转换 Spark DataFrame 到本地 Pandas DataFrame 使用 toPandas
方法,然后只需使用 to_csv
:
If data frame fits in a driver memory and you want to save to local files system you can convert Spark DataFrame to local Pandas DataFrame using toPandas
method and then simply use to_csv
:
df.toPandas().to_csv('mycsv.csv')
否则,您可以使用 spark-csv :
-
Spark 1.3
Spark 1.3
df.save('mycsv.csv', 'com.databricks.spark.csv')
Spark 1.4+
Spark 1.4+
df.write.format('com.databricks.spark.csv').save('mycsv.csv')
在Spark 2.0+中,您可以使用 csv
数据源直接:
In Spark 2.0+ you can use csv
data source directly:
df.write.csv('mycsv.csv')
这篇关于如何将pyspark中的表数据帧导出到csv?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!