使用Python教程进行机器学习

学习类型

机器学习(ML)是一种自动学习，几乎没有人为干预.它涉及编程计算机，以便他们从可用的输入中学习.机器学习的主要目的是探索和构建可以从先前数据中学习并对新输入数据进行预测的算法.

输入到学习算法是训练数据，代表经验，输出是任何专业知识，通常采用另一种可以执行任务的算法的形式.机器学习系统的输入数据可以是数字，文本，音频，视觉或多媒体.系统的相应输出数据可以是浮点数，例如火箭的速度，表示类别或类别的整数，例如来自图像识别的鸽子或向日葵.

在本章中，我们将了解我们的程序将访问的培训数据，以及如何自动学习过程以及如何评估此类机器学习算法的成功和性能.

学习概念

学习是将经验转化为专业知识或知识的过程.

学习可大致分为三类，如上所述以下是基于学习数据的性质以及学习者与环境之间的互动.

监督学习
无监督学习
半监督学习

同样，有四类机器学习算法如下图所示 :

监督学习算法
无监督学习算法
Semi -supervised学习算法
强化学习算法

然而，最常用的是监督和无监督学习.

监督学习

监督学习通常用于实际应用，例如面部和语音识别，产品或电影推荐以及销售预测.监督学习可以进一步分为两种类型 - 回归和分类.

回归列车和预测连续值响应，例如预测房地产价格.

分类试图找到合适的类别标签，例如分析正面/负面情绪，男性和女性，良性和恶性肿瘤，安全和不安全的贷款等.

在监督学习中，学习数据带有描述，标签，目标或期望的输出，目的是找到一般的将输入映射到输出的规则.这种学习数据称为标记数据.然后，学习的规则用于标记具有未知输出的新数据.

监督学习涉及构建基于标记样本的机器学习模型.例如，如果我们构建一个系统来根据各种特征(如大小，位置等)估算土地或房屋的价格，我们首先需要创建一个数据库并对其进行标记.我们需要教授算法哪些特征对应于什么价格.基于此数据，该算法将学习如何使用输入要素的值计算房地产价格.

监督学习处理从可用培训数据中学习功能.这里，学习算法分析训练数据并产生可用于映射新示例的派生函数.有许多监督学习算法，如Logistic回归，神经网络，支持向量机(SVM)和Naive Bayes分类器.

Common examples 监督学习包括将电子邮件分类为垃圾邮件和非垃圾邮件类别，根据网页内容标记网页和语音识别.

无监督学习

无监督学习用于检测异常，异常值，例如欺诈或有缺陷的设备，或用于对销售活动具有类似行为的客户进行分组.这与监督学习相反.这里没有标记数据.

当学习数据只包含一些没有任何描述或标签的指示时，编码器或算法可以找到底层数据的结构，发现隐藏的模式，或确定如何描述数据.这种学习数据称为未标记数据.

假设我们有许多数据点，我们希望将它们分为几组.我们可能不完全知道分类的标准是什么.因此，无监督学习算法试图以最佳方式将给定数据集分类为一定数量的组.

无监督学习算法是分析数据和识别模式和趋势的极其强大的工具. .它们最常用于将类似输入聚类到逻辑组中.无监督学习算法包括Kmeans，随机森林，分层聚类等.

半监督学习

如果某些学习样本被标记，但有些其他没有标注，那么它是半监督学习.它利用大量未标记数据进行培训和少量标记数据进行测试.半监督学习适用于获取完全标记的数据集昂贵而标记小子集更实用的情况.例如，通常需要熟练的专家来标记某些遥感图像，并且需要大量的现场实验来在特定位置定位石油，而获取未标记的数据相对容易.