data-warehouse相关内容

在Datawarehouse中处理null

我想问您有关与数据仓库和SSIS / SSAS有关的处理空或空数据值的最佳做法是什么。 我有几个事实和维度表,这些表在不同的行中包含空值。 特殊情况: 1)什么是处理空日期/时间值的最佳方法?我应该在时间或日期维度中打上“默认”行,并在找到空值时将SSIS指向默认行吗? 2)处理维数据中的空值/空值的最佳方法是什么。例如:“帐户”维度中有一些行,在“帐户名称”列中具有空值( ..
发布时间:2020-10-18 03:18:27 其他开发

Informatica将拒绝的行写入错误的文件,如何避免这种情况?

我已经开发了一个Informatica PowerDesigner 9.1 ETL作业,该作业使用查找和更新转换来检测目标表是否具有来自源的传入行。我已经为Update转换设置了条件 IIF(ISNULL(target_table_surrogate_id),DD_INSERT,DD_REJECT) 现在,当输入行已经在目标表中时,该行将被拒绝。 Informatica将这 ..

劳动节与感恩

我正在为仓库创建日历表。我将使用它作为所有日期字段的外键。 下面显示的代码创建并填充表格。我能够弄清楚如何找到阵亡将士纪念日(5月的最后一个星期一)和劳动节(9月的第一个星期一)。 在 DROP表上设置编号日历 GO 创建表dbo.Calendar ( CalendarId整数NOT NULL, DateValue日期NOT NULL, DayNumberOfWeek ..
发布时间:2020-10-18 03:18:16 数据库

如何创建历史事实表?

我的数据仓库中有一些实体: 人-具有personId属性, dateFrom,dateTo和其他可以更改的内容,例如姓氏,出生日期等-尺寸变化缓慢 文档-documentId,数字,类型 地址-地址ID,城市,街道,房屋,公寓 (人与文档)之间的关系是一对多,(人与地址)之间的关系是多对多。 我的目标是创建可以回答以下问题的历史事实表: 哪些人在定义的日期住在定 ..
发布时间:2020-10-18 03:18:13 其他开发

学习数据仓库的好地方?

我有兴趣了解有关数据仓库的更多信息。我看到诸如“维度”,“雪花模式”和“星型模式”之类的术语出现了。从哪里开始学习这些东西?是否有好书或互联网资源? ETL在这个空间太正确了吗? 解决方案 Wikipedia的数据仓库资源很好。 阅读 Ralph Kimball 的任何书籍,例如“ 数据仓库工具包:完整的维度建模指南“ 是的, ETL 在这个空间中。 您可能对面向列 ..
发布时间:2020-10-18 03:18:09 其他开发

数据仓库中的时间和日期维度

我正在建立一个数据仓库。每个事实都有其时间戳。我需要按天,月,季度但按小时创建报告。通过查看示例,我看到日期倾向于保存在维表中。 (来源: etl-tools.info ) 但是我认为,时间没有意义。尺寸表会越来越大。另一方面,具有日期维表的JOIN比在 SQL 中使用日期/时间函数更有效。 您有什么意见/解决方案? (我正在使用Infobright) 解决方案 我 ..
发布时间:2020-10-18 03:18:06 其他开发

NoSql和数据仓库

NoSql与数据仓库技术/理论之间有什么关系? 它们共享哪些概念? 它们之间的基本区别是什么? 您如何看待彼此之间的利益/共赢? 我认为您的想法对两种技术的未来都将有所帮助。 更新: 一些有用的链接: 在数据仓库中集成NoSQL NoSQL和数据仓库 您准备好使用大数据了吗? 第二次更新: MongoDB,BI和非关系数据库 解决方案 ..
发布时间:2020-10-18 03:18:02 其他开发

将SQL Server数据库数据移动到SAP BW

我已经阅读了几篇有关将数据移出SAP BW并移入SQL Server的文章。我找不到任何有关将数据从SQL Server移至SAP BW的文章,甚至有可能,如果可以的话,处理此问题的最佳方法是什么? 解决方案方案 在搜索了该主题之后,我发现了许多解决此问题的链接,在此答案中,我将尝试总结所有这些链接并提供所有可帮助您实现目标的链接。 em> 有很多方法可以将数据从SQL Server ..
发布时间:2020-10-18 03:16:59 数据库

具有多个事实表的数据仓库的设计

我是数据仓库的新手。首先,我要比将数据仓库工具包的副本精确到邮箱(蜗牛邮件:P)的方式要精确。但是我已经用我在网上找到的东西来研究所有这些东西。 但是,我在网上找不到的是当你在做什么在DW中似乎有多个事实。就我而言(保险),我会定期退款。一个客户三个月可以没有一个,然后在同一个月中可以有十个。另一方面,我有“订阅费”(不确定什么是正确的英语术语,但是您明白了),该费用每个月或每三个月发生一次 ..
发布时间:2020-10-18 03:15:57 其他开发

为什么在事实表中将NULL值映射为0?

在事实表(维度建模的数据仓库)的度量字段中,NULL值通常映射为0的原因是什么? 解决方案 尽管您已经接受了另一个答案,但出于一些原因,我想说使用NULL实际上是一个更好的选择。 第一个原因是当存在NULL时,聚合返回“正确”答案(即用户倾向于期望的答案),而当您使用零时,给出“错误”答案。在以下两个查询中考虑来自AVG()的结果: -值为零;给出1.5 选择SUM(度量), ..
发布时间:2020-10-18 03:15:54 数据库

数据仓库的日历表

对于我的数据仓库,我将创建一个日历表,如下所示: 在 $ b上设置编号$ b DROP表dbo.Calendar GO 创建表dbo.Calendar ( CalendarId整数NOT NULL, DateValue日期NOT NULL, DayNumberOfWeek整数NOT NULL, NameOfDay VarChar(10)NOT NULL, NameOfMo ..
发布时间:2020-10-18 03:15:50 数据库

如何为数据仓库中的流程和状态历史建模?

假设我们有 D_PROCESS , D_WORKER 和 D_STATUS 作为维度,以及事实 F_EVENT 将一个流程(什么)与一个工人(负责人)和“当前”状态联系起来。 过程状态随时间变化。我们应该在 F_EVENT 中存储每个流程/状态/工人一行,或每个流程/工人一行,“在其他地方”针对给定流程/状态更改每个状态一行工作人员? 我是Datawarehouse的新手,很难找到与数 ..
发布时间:2020-10-17 22:07:22 其他开发

为什么在维建模中事实表不需要(不是)主键?

我听过一些参考,事实表上不需要pk。我相信每个表格都应该有一个pk。 如果没有pk和10多个外键,一个人如何理解事实表中的一行。 解决方案 有主键 ...但强制执行 不需要级别的数据库中的主键约束。 如果考虑到这一点,从技术上讲,唯一键或主键是唯一定义每一行特征的键。它可以由该实体的多个属性组成。现在,在事实表的情况下,来自其他维表的外键一起已经充当了复合主键。这些外键组 ..

数据库和数据仓库之间有什么区别?

数据库和数据仓库之间有什么区别? 它们不是同一件事,还是至少是用同一件事写的(即Oracle) RDBMS)? 解决方案 查看此以获取更多信息。 来自上一个链接: 数据库 用于在线事务处理( OLTP ),但可以用于其他目的,例如数据仓库。这会记录用户的历史数据。 表和联接很复杂,因为它们已经标准化(对于 RDMS )。这样做是为了减少冗余数据并节省存储空间。 ..
发布时间:2020-10-15 23:08:32 其他开发

数据仓库中的一对一关系

一个简单的场景:我想创建一个数据仓库,其中包含有关“问题”的信息(费用,耗时等)。该问题的状态可能会随着时间而改变。因此,然后我创建了一个称为issueRealization的事实表来描述每个问题。 我的问题是:我是否应该创建“问题”维度,以便给我一个一对一的关系beetwen维度和事实表?还是我应该将“问题”维度划分为最小的维度,例如状态等? 解决方案 问题状态跟踪是使用累积快照事 ..
发布时间:2020-09-24 07:15:38 其他开发

在带有SSIS的SQL Server CDC中,应存储哪些数据用于开窗(LSN或日期)?

我在源事务表中使用标识列或日期时间列从事务系统加载数据仓库时实现了增量检测。当下次需要提取数据时,在提取查询的过滤器中使用上次提取的最大日期时间值来标识新记录或更改的记录。这足够好,除非在同一毫秒内有多个事务。 但是现在我们有了带有SQL Server 2008的Change Data Capture(CDC),它提供了一个新的称为LSN(日志序列号)的东西,它是长度为10的二进制文件。现在 ..
发布时间:2020-09-24 07:11:04 其他开发

创建实时数据仓库

我正在做一个个人项目,其中包括创建数据仓库(DWH)的完整体系结构。在这种情况下,我决定使用Pentaho作为ETL和BI分析工具。从允许轻松创建仪表板到完整的数据挖掘过程和OLAP多维数据集,它具有许多功能。 我已经读过一个数据仓库必须是一个关系数据库,并且理解这一点。我不了解如何实现近实时或全实时DWH。我已经阅读了有关推和拉策略的信息,但是我的结论如下: 选择DBMS对于创建实时 ..
发布时间:2020-09-24 07:05:31 其他开发

事实表是规范化形式还是非规范化形式?

无论事实表是规范化还是非规范化的,我都对事实表进行了一些研发。 我遇到了一些发现,这使我感到困惑。 根据 Kimball : 我也认为可以的另一个发现, fazalhp在GeekInterview上: DW的主要基础是对报告工具可以更快地访问...因此,如果您要构建DW ..90%,则必须对其进行归一化,当然,事实表也必须被归一化... 所以我的问题是事实表是规范化还是非 ..

数据仓库和数据仓库之间的实际区别是什么?大数据?

我知道什么是数据仓库&什么是大数据. 但是我对数据仓库与大数据感到困惑. 两者都具有相同的名称或不同的名称(在概念上和物理上). 解决方案 我知道这是一个较旧的主题,但在过去一年左右的时间里有了一些发展.将数据仓库与Hadoop进行比较就像将苹果与桔子进行比较.数据仓库是一个概念:高质量的干净,集成的数据.我认为对数据仓库的需求不会很快消失.另一方面,Hadoop是一项技术.它是用于处理大 ..
发布时间:2020-09-20 19:34:03 其他开发