DataFrame接口允许不同的DataSource在Spark SQL上运行.它是一个临时表,可以作为普通的RDD操作.将DataFrame注册为表允许您对其数据运行SQL查询.
在本章中,我们将介绍使用不同Spark DataSource加载和保存数据的一般方法.此后,我们将详细讨论可用于内置数据源的特定选项.
SparkSQL中有不同类型的数据源,其中一些列在下面和下面. ;
Sr.否 | 数据来源 |
---|---|
1 | JSON数据集 Spark SQL可以自动捕获JSON数据集的架构并将其作为DataFrame加载. |
2 | Hive Tables Hive与Spark库捆绑在一起作为HiveContext,它继承自SQLContext. |
3 | 镶木地板文件 Parquet是一种柱状格式,受许多数据处理系统支持. |