OBIEE - 数据仓库

在当今竞争激烈的市场中,大多数成功的公司都会对市场变化和机遇做出快速反应.快速响应的要求是通过有效和高效地使用数据和信息. "数据仓库"是按类别组织的数据中央存储库,用于支持组织的决策者.一旦数据存储在数据仓库中,就可以访问它进行分析.

术语"数据仓库"最初由Bill Inmon于1990年发明.据他说,"数据仓库是面向主题,集成,时变和非易失性的数据集合,以支持管理层的决策过程."

Ralph Kimball根据其功能提供了数据仓库的定义.他说,"数据仓库是专门为查询和分析而构建的交易数据的副本."

数据仓库(DW或DWH)是一个用于分析数据和报告目的的系统.它们是保存来自一个或多个异构数据源的数据的存储库.它们存储当前和历史数据,并用于创建分析报告. DW可用于为高级管理层创建交互式仪表板.

例如,分析报告可包含季度比较数据或公司销售报告的年度比较数据.

DW中的数据来自多个运营系统,如销售,人力资源,营销,仓库管理等.它包含来自不同交易系统的历史数据,但也可以包含来自其他来源的数据. DW用于将数据处理和分析工作负载与事务工作负载分开,并能够合并来自多个数据源的数据.

数据仓库需求

例如 : 您有一个住房贷款机构,其中数据来自多个SAP/非SAP应用程序,如市场营销,销售,ERP,HRM等.这些数据被提取,转换并加载到DW中.如果您必须对产品进行季度/年度销售比较,则无法使用操作数据库,因为这会挂起交易系统.这就是需要使用DW的地方.

数据仓库的特征

DW的一些关键特征是 :

  • 它用于报告和数据分析.

  • 它提供了一个集中了一个数据的中央存储库或更多来源.

  • 它存储当前和历史数据.

数据仓库与交易系统

以下是数据仓库和操作数据库(交易系统)之间的一些差异 :

  • 事务系统是为已知的工作负载和事务而设计的,例如更新用户记录,搜索记录等.但是,DW事务更复杂,并且呈现一般数据形式.

  • 交易系统包含组织的当前数据,而DW通常包含历史数据.

  • 交易系统支持并行l处理多个交易.需要并发控制和恢复机制来维护数据库的一致性.

  • 操作数据库查询允许读取和修改操作(删除和更新),而OLAP查询只需要对存储数据进行只读访问(select语句).

  • DW涉及数据清理,数据集成和数据整合.

DW有三层架构 : 数据源层,集成层和表示层.下图显示了数据仓库系统的通用体系结构.

数据仓库架构

数据仓库系统的类型

以下是DW系统的类型 :

  • 数据集市

  • 在线分析处理(OLAP)

  • 在线交易处理(OLTP)

  • 预测分析

数据集市

数据集市是最简单的DW形式,它通常关注单一功能区域,如销售,财务或营销.因此,数据集市通常只从少数数据源获取数据.

源可以是内部交易系统,中央数据仓库或外部数据源应用程序.反规范化是该系统中数据建模技术的标准.

Data Mart

在线分析处理(OLAP)

OLAP系统包含较少数量的事务,但涉及复杂的计算,如使用Aggregations : 总和,计数,平均等

什么是聚合?

我们使用汇总数据保存表格,例如每年(1行),每季度(4)行),每月(12行),现在我们要比较数据,比如每年只会处理1行.但是,在未聚合的数据中,将处理所有行.

OLAP系统通常将数据存储在多维模式中,如Star Schema,Galaxy模式(使用Fact和Dimensional表加入逻辑方式).

在OLAP系统中,执行查询的响应时间是一种有效性度量.数据挖掘技术广泛使用OLAP应用程序从OLAP系统获取数据. OLAP数据库在多维模式中存储聚合的历史数据.与数据集市相比,OLAP系统的数据延迟时间为几小时,其中延迟通常接近几天.

在线事务处理(OLTP)

OLTP系统以插入,更新,删除等大量短期在线交易而闻名.OLTP系统提供快速查询处理,并且还负责在多访问环境中提供数据完整性.

对于OLTP系统,有效性是通过每秒处理的事务数来衡量的. OLTP系统通常仅包含当前数据.用于存储事务数据库的模式是实体模型.规范化用于OLTP系统中的数据建模技术.

OLTP与OLAP

下图显示了OLTP和OLAP系统之间的主要区别.

OLTP vs OLAP

索引 : 号;在OLTP系统中,只有很少的索引,而在OLAP系统中有许多性能优化的索引.

加入 : 在OLTP系统中,大量的连接和数据被标准化;但是,在OLAP系统中,联接较少且反规范化.

聚合 : 在OLTP系统中,不会聚合数据,而在OLAP数据库中会使用更多聚合.