PySpark教程

PySpark - 简介

在本章中，我们将了解Apache Spark是什么以及PySpark是如何开发的.

Spark - 概述

Apache Spark是一个闪电般快速的实时处理框架.它进行内存计算以实时分析数据.由于 Apache Hadoop MapReduce 仅执行批处理并且缺少实时处理功能，因此它出现了.因此，引入了Apache Spark，因为它可以实时执行流处理，也可以处理批处理.

除了实时和批处理，Apache Spark支持交互式查询和迭代算法也. Apache Spark拥有自己的集群管理器，可以托管其应用程序.它利用Apache Hadoop进行存储和处理.它使用 HDFS (Hadoop分布式文件系统)进行存储，它也可以在 YARN 上运行Spark应用程序.