用于数据分析的机器学习

机器学习是计算机科学的一个子领域,处理模式识别,计算机视觉,语音识别,文本分析等任务,并与统计学和数学优化有很强的联系.应用包括搜索引擎的开发,垃圾邮件过滤,光学字符识别(OCR)等.数据挖掘,模式识别和统计学习领域之间的界限尚不清楚,基本上都是指类似问题.

机器学习可分为两类任务和减号;

  • 监督学习

  • 无监督学习

监督学习

监督学习是指一种问题,其中输入数据定义为矩阵 X ,我们对预测感兴趣回复 y .其中 X = {x 1 ,x 2 ,...,x n } n 预测变量并且有两个值 y = {c 1 ,c 2 } .

示例应用程序将使用人口统计特征作为预测变量来预测网络用户点击广告的概率.通常会调用此方法来预测点击率(CTR).然后 y = {click,not  -  click} ,预测变量可以是使用的IP地址,他进入网站的那天,用户的城市,国家/地区以及其他可用的功能.

无监督学习

无监督学习处理的问题是在没有课程学习的情况下找到彼此相似的小组.学习从预测变量到寻找在每个群体中共享相似实例的群体并且彼此不同的任务的方法有几种.

无监督学习的示例应用是客户细分.例如,在电信行业中,常见的任务是根据用户给电话的使用情况对用户进行分段.这将允许营销部门使用不同的产品定位每个组.