敏捷数据科学 - SparkML

机器学习库也称为"SparkML"或"MLLib",由常用的学习算法组成,包括分类,回归,聚类和协同过滤.

为什么要学习SparkML for Agile?

Spark正在成为构建机器学习算法和应用程序的事实上的平台.开发人员使用Spark在Spark框架中以可扩展和简洁的方式实现机器算法.我们将通过该框架学习机器学习,其实用程序和算法的概念. Agile总是选择一个框架,它可以提供简短快速的结果.

ML算法

ML算法包括常见的学习算法,如分类,回归,聚类和协同过滤.

功能

它包括特征提取,转换,降维和选择.

管道

管道提供构建,评估和调整机器学习管道的工具.

热门算法

以下是一些流行的算法 :

  • 基本统计

  • 回归

  • 分类

  • 推荐系统

  • 聚类

  • 维度降低

  • 特征提取

  • 优化

推荐系统

推荐系统是子类o f信息过滤系统,用于预测用户对给定项目建议的"评级"和"偏好".

推荐系统包括各种过滤系统,使用如下<

协作过滤

它包括根据过去的行为建立模型以及其他用户做出的类似决策.此特定过滤模型用于预测用户有兴趣接受的项目.

基于内容的过滤

它包括过滤离散特征项目的推荐和添加具有相似属性的新项目.

在接下来的章节中,我们将重点介绍如何使用推荐系统解决特定问题并提高预测性能从敏捷方法论的角度来看.