PySpark教程

PySpark Tutorial

Apache Spark是用Scala编程语言编写的.为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark.使用PySpark,您也可以使用Python编程语言处理RDD.正是由于一个名为Py4j的库,他们才能实现这一目标.这是一个介绍性教程,涵盖了数据驱动文档的基础知识,并解释了如何处理其各种组件和子组件.

受众

本教程是为那些有志于从事编程语言和实时处理框架的专业人士准备的.本教程旨在让读者熟悉PySpark及其各种模块和子模块.

先决条件

在继续各种模块和子模块之前在本教程中给出的概念,假设读者已经知道编程语言和框架是什么.除此之外,如果读者熟悉Apache Spark,Apache Hadoop,Scala编程语言,Hadoop分布式文件系统(HDFS)和Python,将会非常有用.