PySpark - 简介

在本章中,我们将了解Apache Spark是什么以及PySpark是如何开发的.

Spark  - 概述

Apache Spark是一个闪电般快速的实时处理框架.它进行内存计算以实时分析数据.由于 Apache Hadoop MapReduce 仅执行批处理并且缺少实时处理功能,因此它出现了.因此,引入了Apache Spark,因为它可以实时执行流处理,也可以处理批处理.

除了实时和批处理,Apache Spark支持交互式查询和迭代算法也. Apache Spark拥有自己的集群管理器,可以托管其应用程序.它利用Apache Hadoop进行存储和处理.它使用 HDFS (Hadoop分布式文件系统)进行存储,它也可以在 YARN 上运行Spark应用程序.

PySpark  - 概述

Apache Spark是用 Scala编程语言编写的.为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark.使用PySpark,您也可以使用Python编程语言中的 RDDs .正是由于一个名为 Py4j 的库,他们才能实现这一目标.

PySpark提供链接Python API的 PySpark Shell 到spark核心并初始化Spark上下文.今天,大多数数据科学家和分析专家都使用Python,因为它具有丰富的库集.将Python与Spark集成对他们来说是一个福音.