Spark SQL - 数据源

DataFrame接口允许不同的DataSource在Spark SQL上运行.它是一个临时表,可以作为普通的RDD操作.将DataFrame注册为表允许您对其数据运行SQL查询.

在本章中,我们将介绍使用不同Spark DataSource加载和保存数据的一般方法.此后,我们将详细讨论可用于内置数据源的特定选项.

SparkSQL中有不同类型的数据源,其中一些列在下面和下面. ;

Sr.否数据来源
1JSON数据集

Spark SQL可以自动捕获JSON数据集的架构并将其作为DataFrame加载.

2Hive Tables

Hive与Spark库捆绑在一起作为HiveContext,它继承自SQLContext.

3镶木地板文件

Parquet是一种柱状格式,受许多数据处理系统支持.