data-warehouse相关内容

SSIS:模型设计问题导致重复-两个事实表可以连接吗?

对于一个大学小组项目,我们正在使用SQL Server和Visual Studio构建一个数据仓库。我们目前处于准备区域,希望用数据填充表。 但是,我们注意到,在事实销售表中,价格加运费值之和与Payment_Value不同,并且值与CSV文件也不同。这就是为什么我们试图在排序1中额外选中“删除具有重复排序值的行”框(参见文件)。如果不勾选这个选项,我们最终会得到 最后是117.216行,检查一下 ..
发布时间:2022-08-23 19:18:12 数据库

何时在BigQuery中使用分区

我希望利用您在BigQuery中的经验来决定我的数据的最佳结构, 我在关系数据库特别是Oracle DB方面有5年的经验,我熟悉在关系数据库中用来构建数据仓库的最佳实践,但在云解决方案方面,我仍然是新手 我的问题是关于BigQuery中的分区表, 据我所知,我们在BigQuery中只有一天有分区, 因此,我的很多数据每天的行数都很少(在1K到12K之间),但它们包含很长一段时间的数据,所以根据 ..
发布时间:2022-08-23 19:06:16 其他开发

雪花图与多对多关系

我有一张雪花图: Fact: id_movie id_user rating Dim Users: id_user ... Dim Movies: id_movie ... 在我的ERD中,我还有一个表Category,它与电影有多对多的关系: Dim_Category: id_category ... Map_Category_Movie: id_movie id_ca ..
发布时间:2022-08-23 18:58:31 数据库

用于从事务表生成定期快照的SQL

事后,我尝试从数据库的事务表创建定期快照视图。TRANSACTION表有以下字段: Account_id(外键) Event_id STATUS_DT STATUS_CD 每次帐户在应用程序中更改状态时,都会在TRANSACTION表中添加一个具有新状态的新行。我想生成一个按状态显示每个日期的帐户计数的视图;它应该有以下字段: SNAPSHOT_DT STATUS_CD ..
发布时间:2022-08-23 18:50:14 数据库

如何使用SQL编写基本的ETL,而不在每次ETL运行时截断/加载?

我有一个OLTP数据库,我正在使用SQL(ETL)将其加载到另一个数据库中。为此,在第二个数据库数据库中,我基于事实和维度创建了星型架构模型。 技术:MS-SQL 事实:销售额 维度:客户、客户、代理 注意:源系统中没有修改日期字段,可以在源系统中删除行。 我有一个代理作业,它每15分钟运行一次,以执行以下操作:对于每个表,我将数据从OLTP数据库加载到相应的临时表中(对 ..
发布时间:2022-03-31 12:19:34 数据库

如何在BigQuery中比较具有记录类型列的两个表

我有两个嵌套表,一个是源表,另一个是目标表。我想比较源表和目标表的嵌套列。我正在比较两个表,以检查源表中的天气数据是否正在更新。BigQuery中是否有SQL可以实现同样的功能? 以下是我以前比较具有嵌套记录的两个表的方法: 1.这是第一种方法: SELECT to_json_string(info) FROM database.nested_table_source excep ..

当您有可变数量的透视行时,如何使用 Informatica 透视数据?

根据我的早先的问题,我该如何透视数据当我的数据中有不同数量的地址时使用 Informatica PowerCenter Designer.我想从我的数据中旋转例如四个地址.这是源数据文件的结构: +---------+--------------+------+|ADDR_ID |姓名 |地址 |+---------+-------------+------------------+|1 |约翰 ..

200 亿行/月 - Hbase/Hive/Greenplum/什么?

我想利用您的智慧为数据仓库系统挑选合适的解决方案.这里有一些细节可以更好地理解问题: 数据以星型结构组织,具有一个 BIG 事实和约 15 个维度. 每月 20B 个事实行 10 个维度,百行(有点层次) 5 维数千行 2 维,约 200K 行 2 个大尺寸,50M-100M 行 针对该数据库运行两个典型查询 dimq 中的顶级成员: select top X dim ..
发布时间:2022-01-13 23:59:10 其他开发

NoSql 和数据仓库

NoSql 和 Data-Warehouse 技术/理论之间有什么关系? 他们共享什么概念? 它们之间的基本区别是什么? 您如何看待彼此之间的好处/丰富? 我认为您的想法应该对这两种技术的未来都有帮助. 更新: 一些有用的链接: 在数据仓库中集成 NoSQL NoSQL 和数据仓库 您准备好迎接大数据了吗? 第二次更新: MongoDB、B ..
发布时间:2022-01-13 13:57:16 其他开发

数据仓库原理和 NoSQL

使用 MongoDB、CouchDB 和相关技术,我们可以获得更快的查询,那么这仍然有效吗? “交易数据的副本,专门针对查询和分析进行了重组."(R. Kimball 数据仓库工具包,1996 年 我的意思是,我们真的需要将数据重组为 OLAP 方案以进行查询以进行分析吗?更具体地说,是否可以使用 NoSQL(不一定使用 OLAP 建模)来实现用于分析目的的钻取、切片和切块以及其他报告 ..

由 Azure 数据仓库提供支持的 Power BI 中基于时间的向下钻取

我设计了一个简单的 Azure 数据仓库,我想在其中定期跟踪我的产品库存.此外,我希望能够查看按月、周、日和小时分组的数据,并能够从上到下向下钻取.我定义了 3 个维度: DimDate昏暗时间昏暗产品 我还定义了一个事实表来跟踪产品库存: FactStocks- 日期键(20160510、20160511 等)- 时间键(0..23)- 产品密钥(产品 1、产品 2)- StockValu ..
发布时间:2022-01-10 16:38:55 其他开发

仓库:存储(并计算)非事实记录?

如何存储不包含任何事实的记录?例如,假设一家商店想要计算进入商店的人数(并且他们获取进入商店的每个人的信息).在仓库中,我猜会有不同属性的维度表“人",但事实表会是什么样子?它会只包含外键吗? 解决方案 正如你所描述的,那只是一个事实表.实际上,它有一个名字——factless 事实表;没有任何度量的事实表. 重新编码事件很常见.基本上任何记录:who, what, where,wh ..
发布时间:2021-12-30 16:01:29 其他开发

将数据从 SAP 传输到 SQL Server 的最佳方式是什么?

我们希望基于 SAP 表从头开始构建一个新的数据仓库.对于提取、转换和加载 (ETL) 过程,我们希望使用 Microsoft SQL Server 集成服务.市场上有许多供应商,如 Theobald、CData 等,它们提供了访问 SAP 数据的框架.但是,SAP 本身也提供了一个 SAP .NET Connector 3.0,用于通过 RFC 访问数据. 您对这些不同的解决方案有什么经验 ..
发布时间:2021-12-30 09:31:46 其他开发

将 SQL Server 数据库数据移动到 SAP BW

我读过几篇关于将数据从 SAP BW 移到 SQL Server 的文章.我找不到任何关于将数据从 SQL Server 移动到 SAP BW 的文章,是否有可能?如果有,最好的处理方法是什么? 解决方案 在搜索此主题后,我发现了许多解决此问题的链接,在此答案中,我将尝试对它们进行总结并提供所有链接可以帮助您实现目标. 有多种方法可以将数据从 SQL Server 导入 SAP BW ..
发布时间:2021-12-30 09:29:13 数据库

什么是临时表?

暂存表是否仅用于数据仓库项目或任何SSIS 项目?我想知道什么是临时表?谁能给我一些关于如何使用它以及在什么情况下实施它的例子?另外,我可以知道使用它时的最佳做法吗? 解决方案 临时表只是包含某种形式的业务数据的数据库表.暂存是准备业务数据的过程,通常取自某些业务应用程序.对于普通的 BI 系统,您必须在加载数据之前准备好数据.临时表本质上只是一个包含已修改和/或清理过的业务数据的临时表. ..
发布时间:2021-12-30 09:20:24 其他开发

为什么 NULL 值在事实表中映射为 0?

在事实表(维度建模的数据仓库)中的度量字段中,NULL 值通常映射为 0 的原因是什么? 解决方案 虽然您已经接受了另一个答案,但我想说使用 NULL 实际上是更好的选择,原因有几个. 第一个原因是,当存在 NULL 时,聚合返回“正确"答案(即用户倾向于期望的答案),但在使用零时给出“错误"答案.考虑这两个查询中 AVG() 的结果: -- 带零;给 1.5选择 SUM(meas ..
发布时间:2021-12-30 09:16:26 数据库

如何从 Google Analytics 中提取数据并从中构建数据仓库(webhouse)?

我在 Google Analytics(分析)中拥有点击流数据,例如引用 URL、顶部着陆页、顶部退出页面以及诸如页面浏览量、访问次数、跳出率等指标.目前还没有可以存储所有这些信息的数据库.我需要根据这些数据从头开始构建一个数据仓库(我认为这被称为 web-house).所以我需要从 Google Analytics 中提取数据并每天自动将其加载到仓库中.我的问题是:- 1) 有可能吗?数据 ..
发布时间:2021-12-29 21:22:01 其他开发

数据库设计:一张大表还是单独的表?

目前我正在设计一个供我们公司使用的数据库.我们使用的是 SQL Server 2008.该数据库将保存从多个客户那里收集的数据.该数据库的目标是获取多个客户的汇总基准数据. 最近,我特别担心一张桌子会变得非常大.每个客户大约有 20.000.000 行数据,数据库中很快就会有 30 个客户(如果不是更多的话).很多查询都会在这个表上完成.我已经注意到性能问题和用户被暂时锁定. 我的问题 ..