在本章中,我们将了解Apache Spark是什么以及PySpark是如何开发的.
Apache Spark是一个闪电般快速的实时处理框架.它进行内存计算以实时分析数据.由于 Apache Hadoop MapReduce 仅执行批处理并且缺少实时处理功能,因此它出现了.因此,引入了Apache Spark,因为它可以实时执行流处理,也可以处理批处理.
除了实时和批处理,Apache Spark支持交互式查询和迭代算法也. Apache Spark拥有自己的集群管理器,可以托管其应用程序.它利用Apache Hadoop进行存储和处理.它使用 HDFS (Hadoop分布式文件系统)进行存储,它也可以在 YARN 上运行Spark应用程序.
Apache Spark是用 Scala编程语言编写的.为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark.使用PySpark,您也可以使用Python编程语言中的 RDDs .正是由于一个名为 Py4j 的库,他们才能实现这一目标.
PySpark提供链接Python API的 PySpark Shell 到spark核心并初始化Spark上下文.今天,大多数数据科学家和分析专家都使用Python,因为它具有丰富的库集.将Python与Spark集成对他们来说是一个福音.