如何从数据框中获取1000条记录并使用PySpark写入文件? [英] How to get 1000 records from dataframe and write into a file using PySpark?
本文介绍了如何从数据框中获取1000条记录并使用PySpark写入文件?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我在数据框中有100,000多个记录.我想动态创建一个文件,并每个文件推送1000条记录.有人可以帮我解决这个问题,谢谢.
I am having 100,000+ of records in dataframe. I want to create a file dynamically and push 1000 records per file. Can anyone help me to solve this, thanks in advance.
推荐答案
您可以使用写入 dataframe
时 maxRecordsPerFile
选项.
- 如果需要整个数据帧在每个文件中写入1000条记录,请使用
repartition(1)
(或)
为每个分区使用.coalesce(1)
- If you need whole dataframe to write 1000 records in each file then use
repartition(1)
(or)
write 1000 records for each partition use.coalesce(1)
示例:
Example:
# 1000 records written per file in each partition
df.coalesce(1).write.option("maxRecordsPerFile", 1000).mode("overwrite").parquet(<path>)
# 1000 records written per file for dataframe 100 files created for 100,000
df.repartition(1).write.option("maxRecordsPerFile", 1000).mode("overwrite").parquet(<path>)
#or by set config on spark session
spark.conf.set("spark.sql.files.maxRecordsPerFile", 1000)
#or
spark.sql("set spark.sql.files.maxRecordsPerFile=1000").show()
df.coalesce(1).write.mode("overwrite").parquet(<path>)
df.repartition(1).write.mode("overwrite").parquet(<path>)
方法2:
Method-2:
计算分区数量,然后重新分区数据框:
Caluculating number of partitions then repartition the dataframe:
df = spark.range(10000)
#caluculate partitions
no_partitions=df.count()/1000
from pyspark.sql.functions import *
#repartition and check number of records on each partition
df.repartition(no_partitions).\
withColumn("partition_id",spark_partition_id()).\
groupBy(col("partition_id")).\
agg(count("*")).\
show()
#+-----------+--------+
#|partiton_id|count(1)|
#+-----------+--------+
#| 1| 1001|
#| 6| 1000|
#| 3| 999|
#| 5| 1000|
#| 9| 1000|
#| 4| 999|
#| 8| 1000|
#| 7| 1000|
#| 2| 1001|
#| 0| 1000|
#+-----------+--------+
df.repartition(no_partitions).write.mode("overwrite").parquet(<path>)
这篇关于如何从数据框中获取1000条记录并使用PySpark写入文件?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文