使用Python教程进行机器学习

Python的机器学习 - 技术

本章详细讨论机器学习中使用的每种技术.

回归

回归，程序预测连续输出或响应变量的值.回归问题的示例包括根据其描述预测新产品的销售额或工作的薪水.与分类类似，回归问题需要有监督的学习.在回归任务中，程序根据输入或解释变量预测连续输出或响应变量的值.

建议

建议是一个受欢迎的根据用户信息(如购买历史记录，点击次数和评分)提供密切推荐的方法. Google和亚马逊使用此方法根据其过去操作的信息显示其用户的推荐商品列表.有推荐引擎在后台工作以捕获用户行为并根据较早的用户操作推荐所选项目. Facebook还使用推荐方法来识别和推荐人并向其用户发送朋友建议.

推荐引擎是根据他过去的记录预测用户可能感兴趣的模型和行为.当这在电影的上下文中应用时，这成为电影推荐引擎.我们通过预测用户如何评价它们来过滤电影数据库中的项目.这有助于我们将用户与电影数据库中的正确内容相关联.这种技术在两个方面很有用:如果我们有一个庞大的电影数据库，用户可能会或可能不会找到与他的选择相关的内容.此外，通过推荐相关内容，我们可以增加消费并吸引更多用户.

Netflix，亚马逊Prime和类似的电影租赁公司严重依赖推荐引擎来保持用户参与.推荐引擎通常使用协同过滤或基于内容的过滤来生成推荐列表.两种类型之间的区别在于提取建议的方式.协同过滤根据当前用户的过去行为以及其他用户给出的评级构建模型.然后，此模型用于预测此用户可能感兴趣的内容.另一方面，基于内容的过滤使用项目本身的功能，以便向用户推荐更多项目.项目之间的相似性是这里的主要动机.协作过滤通常在这种推荐方法中使用得更多.

聚类

相关观察组称为聚类.常见的无监督学习任务是在训练数据中找到聚类.

我们还可以将聚类定义为基于某些类似特征将给定集合的项目组织成组的过程.例如，在线新闻发布者使用群集对其新闻文章进行分组.

群集应用

群集在许多领域中找到应用，例如市场研究，模式识别，数据分析和图像处理.这里讨论 :

帮助营销人员在客户基础上发现不同的群体根据购买模式描述其客户群体.
在生物学中，它可用于推导植物和动物分类，对具有相似功能的基因进行分类并深入了解人口固有的结构.
帮助识别地球观测数据库中类似土地利用的区域.
帮助对网络上的文档进行分类以便发现信息.
用于异常检测应用，例如检测信用卡欺诈.
Cluster Analysis用作数据挖掘函数工具，以深入了解数据的分布，以观察每个集群的特征.

任务，称为聚类或聚类分析，将观察结果分配给群体，使得群体内的观察结果基于某些相似性度量彼此更相似，而不是其他群体中的观察结果.

群集通常用于探索数据集.例如，给定一组电影评论，聚类算法可能会发现一组正面和负面评论.系统将无法将群集标记为"正面"或"负面";在没有监督的情况下，它只会知道分组观察结果在某种程度上彼此相似.群集的一个常见应用是发现产品市场中的客户群.通过了解特定客户群的共同属性，营销人员可以决定需要强调其广告系列的哪些方面.互联网无线电业务也使用集群;例如，给定一组歌曲，聚类算法可能能够根据它们的类型对歌曲进行分组.使用不同的相似性度量，相同的聚类算法可以通过它们的键或它们包含的乐器对歌曲进行分组.

无监督学习任务包括聚类，其中观察按照组合分组.一些类似的功能.聚类用于根据共同特征形成类似数据的组或聚类.

聚类是一种无监督学习的形式.搜索引擎，如Google，Bing和Yahoo!使用聚类技术对具有相似特征的数据进行分组.新闻组使用聚类技术根据相关主题对各种文章进行分组.

聚类引擎完全通过输入数据并根据数据的特征决定它应该在哪个群集下分组.在聚类和减号时可能会注意到以下几点;