Mahout - 介绍

我们生活在一个充满信息的日子里.信息过载已达到这样的高度,有时候管理我们的小邮箱变得困难!想象一下大量的数据和记录一些流行的网站(像Facebook,Twitter和Youtube这样的网站)必须每天收集和管理.即使对于鲜为人知的网站来说,批量接收大量信息也是不常见的.

通常我们会依靠数据挖掘算法来分析批量数据以识别趋势
并绘制结论.但是,除非计算任务在分布在云上的多台机器上运行,否则任何数据挖掘算法都不足以有效处理非常大的数据集并快速提供结果.

我们现在有了允许我们将计算任务分解为多个段并在不同的机器上运行每个段的新框架. Mahout 是一种数据挖掘框架,通常与Hadoop基础架构在其后台运行,以管理大量数据.

什么是Apache Mahout?

mahout 是以大象为主人的人.该名称来自与Apache Hadoop的密切关联,后者使用大象作为其徽标.

Hadoop 是一个来自Apache的开源框架,允许存储和使用简单的编程模型在分布式环境中跨计算机集群处理大数据.

Apache Mahout 是一个开源项目,主要用于创建可扩展的机器学习算法.它实现了流行的机器学习技术,例如:

  • 推荐

  • 分类

  • 聚类

Apache Mahout于2008年作为Apache Lucene的子项目开始.2010年,Mahout成为了一个顶级项目. Apache.

Mahout的功能

下面列出了Apache Mahout的原始功能.

  • Mahout的算法是在Hadoop之上编写的,因此它在分布式环境中运行良好. Mahout使用Apache Hadoop库在云中有效扩展.

  • Mahout为编码器提供了一个即用型框架,用于在大型卷上执行数据挖掘任务数据.

  • Mahout让应用程序能够快速有效地分析大量数据.

  • 包括几个启用MapReduce的聚类实现,例如k-means,模糊k-means,Canopy,Dirichlet和Mean-Shift.

  • 支持分布式朴素贝叶斯和互补朴素贝叶斯分类实现.

  • 为进化编程提供分布式适应度函数.

  • 包括矩阵和向量库.

Mahout的应用

  • Adobe,Facebook,LinkedIn,Foursquare,Twitter和Yahoo等公司在内部使用Mahout.

  • Foursquare帮助您找到地方,食物和电子邮件特定区域的娱乐活动.它使用了Mahout的推荐引擎.

  • Twitter使用Mahout进行用户兴趣建模.

  • 雅虎!使用Mahout进行模式挖掘.