Mahout - 机器学习

Apache Mahout是一个高度可扩展的机器学习库,可让开发人员使用优化算法
. Mahout实现了流行的机器学习技术,例如推荐,分类和聚类.因此,在我们进一步行动之前,有一个关于机器学习的简短部分是明智的.

什么是机器学习?

机器学习是一个分支以这样一种方式处理系统编程的科学,它们可以通过经验自动学习和改进.在这里,学习意味着识别和理解输入数据并根据提供的数据做出明智的决定.

很难根据所有可能的输入来满足所有决策.为了解决这个问题,开发了算法.这些算法利用统计学,概率论,逻辑,组合优化,搜索,强化学习和控制理论等原理,从特定数据和过去的经验中构建知识.

开发的算法构成了基础各种应用程序,例如:

  • 视觉处理

  • 语言处理

  • 预测(例如股票市场趋势)

  • 模式识别

  • 游戏

  • 数据挖掘

  • 专家系统

  • 机器人技术

机器学习是一个巨大的区域,它完全超出了本教程的范围,涵盖了它的所有功能.有几种方法可以实现机器学习技术,但最常用的方法是监督无监督学习.

监督学习

监督学习涉及从可用的训练数据中学习功能.
监督学习算法分析训练数据并产生推断函数,该函数可用于映射新示例.监督学习的常见示例包括:

  • 将电子邮件归类为垃圾邮件,

  • 标记网页根据他们的内容和

  • 语音识别.

有许多监督学习算法,如神经网络,支持向量机(SVM)和朴素贝叶斯分类器. Mahout实现朴素贝叶斯分类器.

无监督学习

无监督学习可以理解未标记的数据而无需任何预定义的数据集进行训练.无监督学习是分析可用数据和查找模式和趋势的极其强大的工具.它最常用于将类似输入聚类到逻辑组中.无监督学习的常用方法包括:

  • k-means

  • 自组织地图,以及

  • 层次聚类

推荐

推荐是一种流行的技术,根据用户信息(例如之前的购买,点击次数和评分)提供密切推荐.

  • 亚马逊使用此技术显示您可能感兴趣的推荐项目列表,从您过去的操作中提取信息.亚马逊背后有推荐引擎可以捕获用户行为并根据您之前的操作推荐所选项目.

  • Facebook使用推荐技术识别并推荐"你可能知道列表的人".

推荐

分类

分类,也称为分类,是一种机器学习技术,它使用已知数据来确定新数据的方式应该分为一组现有的类别.分类是一种监督学习形式.

  • 邮件服务提供商,如Yahoo!和Gmail使用此技术来决定是否应将新邮件归类为垃圾邮件.分类算法通过分析将某些邮件标记为垃圾邮件的用户习惯来训练自己.在此基础上,分类器决定是否应将未来邮件存放在收件箱或垃圾邮件文件夹中.

  • iTunes应用程序使用分类来准备播放列表.

分类

聚类

聚类用于根据共同特征形成类似数据的组或聚类.聚类是一种无监督学习的形式.

  • 搜索引擎,如谷歌和雅虎!

  • 新闻组使用群集技术根据相关主题对各种文章进行分组.

集群引擎完全通过输入数据,根据数据的特征,它将决定应该在哪个集群下进行分组.看一下下面的例子.

Clustering

我们的库教程包含各种主题的主题.当我们在TutorialsPoint上收到一个新教程时,它将由一个集群引擎处理,该集群引擎根据其内容决定应该将其分组的位置.