ETL测试 - 简介

数据仓库系统中的数据加载了ETL(提取,转换,加载)工具.顾名思义,它执行以下三个操作 :

  • 从事务系统中提取数据,这可能是一个Oracle,Microsoft或任何其他关系数据库,

  • 通过执行数据清理操作来转换数据,然后

  • 将数据加载到OLAP数据仓库中.

您还可以从电子表格等平面文件中提取数据.使用ETL工具的CSV文件,并将其加载到OLAP数据仓库中以进行数据分析和报告.让我们举一个例子来更好地理解它.

示例

让我们假设有一家制造公司有多个部门,如销售,人力资源,物料管理,EWM等.所有这些部门都有单独的数据库,用于维护信息他们的工作和每个数据库都有不同的技术,格局,表名,列等.现在,如果公司想要分析历史数据并生成报告,则应提取这些数据源中的所有数据并将其加载到数据仓库中保存它用于分析工作.

ETL工具从所有这些异构数据源中提取数据,转换数据(如应用计算,连接字段,键,删除不正确的数据字段等). ),并将其加载到数据仓库中.稍后,您可以使用各种商业智能(BI)工具使用此数据生成有意义的报告,仪表板和可视化.

ETL和BI工具之间的差异

ETL工具用于从不同数据源提取数据,转换数据并将其加载到DW系统中;然而,BI工具用于为最终用户生成交互式和临时报告,为高级管理层生成仪表板,为月度,季度和年度董事会会议提供数据可视化.

最常见ETL工具包括 :  SAP BO数据服务(BODS),Informatica  -  Power Center,Microsoft  -  SSIS,Oracle Data Integrator ODI,Talend Open Studio,Clover ETL开源等

一些流行的BI工具包括 : 去; SAP Business Objects,SAP Lumira,IBM Cognos,JasperSoft,Microsoft BI平台,Tableau,Oracle商业智能企业版等

ETL流程

现在让我们更详细地讨论ETL过程中涉及的关键步骤 :

提取数据

它涉及从中提取数据不同的异构数据源.从事务系统中提取数据会根据要求和使用的ETL工具而有所不同.通常通过在非工作时间运行预定作业来完成,例如在晚上或周末运行作业.

Extracting Data

转换数据

它涉及将数据转换为可以轻松加载到DW系统的合适格式.数据转换涉及应用计算,连接以及在数据上定义主键和外键.例如,如果您希望总收入的百分比不在数据库中,则将在转换中应用%formula并加载数据.同样,如果您在不同列中具有用户的名字和姓氏,则可以在加载数据之前应用连接操作.有些数据不需要任何转换;此类数据称为直接移动传递数据.

数据转换还涉及数据更正和清理数据,删除不正确数据,不完整的数据形成和修复数据错误.它还包括数据完整性和格式化不兼容的数据,然后将其加载到DW系统中.

将数据加载到DW系统

它涉及加载将数据导入DW系统以进行分析报告和信息.目标系统可以是简单的分隔平面文件或数据仓库.

ETL工具函数

典型的基于ETL工具的数据仓库使用分段区域,数据集成和访问层以执行其功能.它通常是一个3层架构.

  • 临时图层 : 登台层或登台数据库用于存储从不同源数据系统提取的数据.

  • 数据集成层 : 集成层转换来自暂存层的数据并将数据移动到数据库,数据库被安排到分层组中,通常称为维度,并进入事实汇总事实. DW系统中事实和维度表的组合称为架构.

  • 访问层  : 去;最终用户使用访问层来检索分析报告和信息的数据.

下图显示了三层的方式彼此互动.

ETL工具功能