Pyspark:以表格格式显示火花数据框 [英] Pyspark: display a spark data frame in a table format

查看:34
本文介绍了Pyspark:以表格格式显示火花数据框的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在使用 pyspark 读取如下所示的镶木地板文件:

I am using pyspark to read a parquet file like below:

my_df = sqlContext.read.parquet('hdfs://myPath/myDB.db/myTable/**')

然后当我执行 my_df.take(5) 时,它会显示 [Row(...)],而不是像我们使用熊猫数据框.

Then when I do my_df.take(5), it will show [Row(...)], instead of a table format like when we use the pandas data frame.

是否可以像pandas数据框那样以表格格式显示数据框?谢谢!

Is it possible to display the data frame in a table format like pandas data frame? Thanks!

推荐答案

show 方法可以满足您的需求.

The show method does what you're looking for.

例如,给定以下 3 行数据框,我可以像这样只打印前两行:

For example, given the following dataframe of 3 rows, I can print just the first two rows like this:

df = sqlContext.createDataFrame([("foo", 1), ("bar", 2), ("baz", 3)], ('k', 'v'))
df.show(n=2)

产生:

+---+---+
|  k|  v|
+---+---+
|foo|  1|
|bar|  2|
+---+---+
only showing top 2 rows

这篇关于Pyspark:以表格格式显示火花数据框的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆