大数据分析 - 数据生命周期

传统数据挖掘生命周期

为了提供一个框架来组织组织所需的工作并从大数据中提供清晰的见解,将其视为一个循环是有用的有不同的阶段.它绝不是线性的,意味着所有阶段都是相互关联的.这个周期与 CRISP方法中描述的更传统的数据挖掘周期具有肤浅的相似性.

CRISP-DM方法论

CRISP-DM方法代表跨行业标准数据挖掘流程,是一个循环,描述了数据挖掘专家用来解决传统BI数据挖掘问题的常用方法.它仍然在传统的BI数据挖掘团队中使用.

请看下图.它显示了CRISP-DM方法描述的周期的主要阶段以及它们是如何相互关联的.

生命周期

CRISP-DM于1996年构思,第二年,它作为ESPRIT资助计划下的欧盟项目开始实施.该项目由五家公司领导:SPSS,Teradata,Daimler AG,NCR Corporation和OHRA(一家保险公司).该项目最终纳入了SPSS.该方法非常详细地介绍了如何指定数据挖掘项目.

现在让我们对CRISP-DM生命周期中涉及的每个阶段进行更多的了解并减去;

  • 业务理解 : 初始阶段的重点是从业务角度理解项目目标和需求,然后将此知识转换为数据挖掘问题定义.初步计划旨在实现目标.可以使用决策模型,尤其是使用决策模型和符号标准构建的决策模型.

  • 数据理解 : 数据理解阶段从初始数据收集开始,然后继续进行活动,以便熟悉数据,识别数据质量问题,发现数据的第一个见解,或检测有趣的子集以形成隐藏信息的假设./p>

  • 数据准备 : 数据准备阶段涵盖了从初始原始数据构建最终数据集(将被提供给建模工具的数据)的所有活动.数据准备任务可能会多次执行,而不是按照任何规定的顺序执行.任务包括表格,记录和属性选择以及建模工具数据的转换和清理.

  • 建模 : 在此阶段,选择并应用各种建模技术,并将它们的参数校准到最佳值.通常,存在用于相同数据挖掘问题类型的若干技术.某些技术对数据形式有特定要求.因此,通常需要回到数据准备阶段.

  • 评估 : 在项目的这个阶段,您从数据分析的角度构建了一个看似具有高质量的模型(或多个模型).在继续进行模型的最终部署之前,重要的是要彻底评估模型并检查为构建模型而执行的步骤,以确保它正确地实现业务目标.

    一键目标是确定是否存在一些尚未充分考虑的重要业务问题.在此阶段结束时,应该就使用数据挖掘结果做出决定.

  • 部署 : 创建模型通常不是项目的结束.即使模型的目的是增加对数据的了解,所获得的知识也需要以对客户有用的方式进行组织和呈现.

    取决于要求,部署阶段可以像生成报告一样简单,也可以像实现可重复的数据评分(例如分段分配)或数据挖掘过程那样复杂.

在许多情况下,执行部署步骤的将是客户,而不是数据分析师.即使分析师部署模型,客户也必须事先了解为了真正利用所创建的模型而需要执行的操作.

SEMMA Methodology

SEMMA是SAS为数据挖掘建模开发的另一种方法.它代表 S ample, E xplore, M odify, M odel和 A 的SSE.以下是其阶段和减号的简要说明;

  • 样本 : 该过程从数据采样开始,例如,选择用于建模的数据集.数据集应足够大,以包含足够的信息来检索,但又小到足以有效使用.此阶段还涉及数据分区.

  • 探索 : 这一阶段包括通过在数据可视化的帮助下发现变量之间的预期和未预料到的关系以及异常来理解数据.

  • 修改 : 修改阶段包含选择,创建和转换变量以准备数据建模的方法.

  • 模型 : 在模型阶段,重点是在准备好的变量上应用各种建模(数据挖掘)技术,以便创建可能提供所需结果的模型.

  • 评估 : 对建模结果的评估显示了所创建模型的可靠性和实用性.

CRISM-DM和SEMMA之间的主要区别在于SEMMA侧重于建模方面,而CRISP-DM在建模之前更加重视周期阶段,例如理解要解决的业务问题,理解和预处理要用作输入的数据,例如机器学习算法.

大数据生命周期

在今天的大数据环境中,先前的方法要么不完整要么不是最理想的.例如,SEMMA方法无视完全数据收集和不同数据源的预处理.这些阶段通常构成一个成功的大数据项目的大部分工作.

大数据分析周期可以通过以下阶段描述 :

  • 业务问题定义

  • 研究

  • 人力资源评估

  • 数据采集

  • Data Munging

  • 数据存储

  • 探索性数据分析

  • 建模和评估的数据准备

  • 建模

  • 实施

在本节中,我们将介绍大数据生命周期的每个阶段.

业务问题定义

这是传统BI和大数据分析生命周期中常见的一点.通常,大数据项目的一个重要阶段是定义问题并正确评估组织可能获得的潜在收益.似乎很明显这一点,但必须评估项目的预期收益和成本.

研究

分析其他什么公司在同样的情况下做了.这涉及寻找对贵公司而言合理的解决方案,即使它涉及使其他解决方案适应贵公司的资源和要求.在这个阶段,应该定义未来阶段的方法.

人力资源评估

一旦定义了问题,继续分析是合理的如果现有员工能够成功完成项目.传统的BI团队可能无法为所有阶段提供最佳解决方案,因此在开始项目之前应该考虑如果需要外包项目的一部分或雇用更多人员.

数据采集

此部分是大数据生命周期的关键;它定义了交付结果数据产品所需的配置文件类型.数据收集是这个过程的一个重要步骤;它通常涉及从不同来源收集非结构化数据.举一个例子,它可能涉及编写一个爬虫来检索网站的评论.这涉及处理文本,可能是通常需要大量时间才能完成的不同语言.

数据分析

检索数据后例如,从网络上,它需要以易于使用的格式存储.为了继续评论示例,我们假设从不同的站点检索数据,每个站点都有不同的数据显示.

假设一个数据源提供星级评级方面的评论,因此可以将其读作响应变量的映射 y∈ {1,2,3,4,5} .另一个数据源使用两个箭头系统给出评论,一个用于投票,另一个用于投票.这意味着形式 y∈的响应变量; {positive,negative} .

为了合并两个数据源,必须做出决定,以使这两个响应表示等效.这可能涉及将第一个数据源响应表示转换为第二个表单,将一个星形视为负数,将五个星形视为正数.此过程通常需要以高质量交付大量时间.

数据存储

处理完数据后,有时需要存储在数据库中.大数据技术在这一点上提供了许多替代方案.最常见的替代方法是使用Hadoop文件系统进行存储,为用户提供有限版本的SQL,称为HIVE查询语言.从用户的角度来看,这允许大多数分析任务以与传统BI数据仓库相似的方式完成.其他存储选项需要考虑的是MongoDB,Redis和SPARK.

这个阶段的周期与人力资源知识在实现不同架构方面的能力有关.传统数据仓库的修改版本仍在大规模应用程序中使用.例如,teradata和IBM提供可以处理数TB数据的SQL数据库;开源解决方案(如postgreSQL和MySQL)仍然用于大规模应用程序.

尽管不同存储在后台运行的方式存在差异,但从客户端来看,大多数解决方案提供SQL API.因此,对SQL有很好的理解仍然是大数据分析的关键技能.

这个阶段先验似乎是最重要的话题,在实践,这不是真的.它甚至不是一个必不可少的阶段.可以实现一个可以处理实时数据的大数据解决方案,因此在这种情况下,我们只需要收集数据来开发模型,然后实时实现.因此根本不需要正式存储数据.

探索性数据分析

一旦数据被清理并存储在可以从中检索见解的方式,数据探索阶段是强制性的.这个阶段的目标是理解数据,这通常用统计技术完成,也可以绘制数据.这是评估问题定义是否有意义或可行的良好阶段.

建模和评估的数据准备

此阶段涉及重塑清理先前检索到的数据,并使用统计预处理进行缺失值插补,异常值检测,归一化,特征提取和特征选择.

建模

前一阶段应该已经生成了几个用于训练和测试的数据集,例如,预测模型.这个阶段涉及尝试不同的模型,并期待解决手头的业务问题.在实践中,通常希望该模型能够对业务有所了解.最后,选择最佳模型或模型组合来评估其在剩余数据集上的表现.

实施

在此阶段,数据开发的产品在公司的数据管道中实施.这涉及在数据产品工作时设置验证方案,以便跟踪其性能.例如,在实施预测模型的情况下,此阶段将涉及将模型应用于新数据,并且一旦响应可用,就评估模型.