数据仓库 - 概述

数据仓库由来自多个异构数据源的数据组成,用于分析报告和决策制定.数据仓库是从不同数据源和应用程序存储数据的中心位置.

数据仓库这个术语最初是由Bill Inmom于1990年发明的.数据仓库始终与数据仓库分开.操作数据库.

DW系统中的数据从操作事务系统加载,如 :

  • 销售

  • 营销

  • HR

  • SCM等.

它可以在加载到DW系统进行信息处理之前通过操作数据存储或其他转换.

数据仓库用于报告和分析信息并存储历史和当前数据. DW系统中的数据用于分析报告,后来由业务分析师,销售经理或知识工作者用于决策.

数据仓库

在上图中,您可以看到数据来自多个异构数据源到数据仓库.数据仓库的公共数据源包括 :

  • 运营数据库

  • SAP和非SAP应用程序

  • 平面文件(xls,csv,txt文件)

BI访问数据仓库中的数据(商业智能)用户,用于分析报告,数据挖掘和分析.这用于业务用户,销售经理,分析师决策以定义未来策略.

数据仓库的功能

这是一个核心数据存储库,其中数据存储在一个或多个异构数据源中. DW系统存储当前和历史数据.通常,DW系统存储5到10年的历史数据. DW系统始终与运营交易系统分开.

DW系统中的数据用于从季度到年度比较的不同类型的分析报告.

数据仓库与运营数据库

数据仓库和运营数据库之间的差异如下 :

  • 操作系统专为已知的工作负载和事务而设计,例如更新用户记录,搜索记录等.但是,数据仓库事务更复杂,提供一般数据形式.

  • 操作系统包含组织的当前数据,数据仓库通常包含历史数据.

  • 操作数据库支持并行处理多个事务.需要并发控制和恢复机制来维护数据库的一致性.

  • 操作数据库查询允许读取和修改操作(插入,删除和更新)OLAP查询只需要对存储数据进行只读访问(Select语句).

数据架构仓库

数据仓库涉及数据清理,数据集成和数据整合.数据仓库具有3层架构 :

数据源层

它定义了数据如何进入数据仓库.它涉及各种数据源和操作事务系统,平面文件,应用程序等.

集成层

它包含操作数据存储和暂存区域.暂存区域用于执行数据清理,数据转换以及将来自不同源的数据加载到数据仓库.由于多个数据源可用于在不同时区提取,因此暂存区域用于存储数据,稍后将对数据应用转换.

表示层

这用于最终用户执行BI报告. BI系统访问DW系统中的数据并用于报告和分析.

下图显示了数据仓库系统的通用架构.

数据仓库架构

数据仓库的特征

以下是数据仓库的主要特征 :

  • 主题导向 : 在DW系统中,数据由业务主体分类和存储,而不是通过股票计划,股票,贷款等应用程序进行分类和分类.

  • 综合 : 来自多个数据源的数据集成在数据仓库中.

  • 非易失性 : 数据仓库中的数据是非易失性的.这意味着在DW系统中加载数据时,它不会被更改.

  • 时间变量 : 与只包含当前数据的Transactional系统相比,DW系统包含历史数据.在数据仓库中,您可以查看3个月,6个月,1年,5年等数据.

OLTP与OLAP

首先,OLTP代表在线交易处理,而OLAP代表在线分析处理

在OLTP系统中,存在大量短的在线事务,例如INSERT,UPDATE和DELETE.

然而,在OLTP系统中,有效的度量是处理时间.短期交易并且非常少.它控制多访问环境中的数据完整性.对于OLTP系统,每秒的事务数量衡量有效性. OLTP数据仓库系统包含当前和详细数据,并在实体模型(3NF)的模式中维护.

例如 :

零售商店中的日常交易系统,每天插入,更新和删除客户记录.它提供更快的查询处理. OLTP数据库包含详细和当前数据.用于存储OLTP数据库的模式是实体模型.

在OLAP系统中,与事务系统相比,事务数量较少.执行的查询本质上是复杂的,涉及数据聚合.

什么是聚合?

我们使用聚合数据保存表格,例如每年(1行) ),每季度(4行),每月(12行)左右,如果有人必须进行年度比较,则只处理一行.但是,在未聚合的表中,它将比较所有行.这称为聚合.

可以在OLAP系统中使用各种聚合函数,如Sum,Avg,Max,Min等.

例如 :

SELECT Avg(salary)
FROM employee
WHERE title = 'Programmer';

主要差异

这些是OLAP和OLTP系统之间的主要区别.

  • Indexes :  OLTP系统只有很少的索引,而在OLAP系统中有许多性能优化的索引.

  • Joins : 在OLTP系统中,大量的连接和数据被标准化.但是,在OLAP系统中,连接数较少,并且已经非规范化.

  • Aggregation : 在OLTP系统中,数据不会聚合,而在OLAP数据库中会使用更多聚合.

  • Normalization :  OLTP系统包含规范化数据,但数据未在OLAP系统中规范化.

OLTP

数据集市与数据仓库

数据集市专注于单一功能区域,代表最简单的数据仓库形式.考虑一个包含销售,营销,人力资源和财务数据的数据仓库.数据集市专注于销售或营销等单一职能领域.

Data Mart与数据仓库

在上图中,您可以看到数据仓库和数据集市之间的区别.

事实与维度表

事实表表示执行分析的度量.它还包含维键的外键.

例如 : 每次销售都是事实.

Cust IdProd IdTime IdQty Sold
1110252125
1210284252

Dimension表表示维度的特征. Customer维度可以包含Customer_Name,Phone_No,Sex等.

Cust IdCust_NamePhoneSex
1110莎莉1113334444F
1210Adam2225556666M