data-warehouse相关内容

在pentaho ..如何传递一个文本文件,其中包含作业中所有连接参数的定义?

我正在使用jdbc连接,并且正在使用示例$ {sample_db_connection}传递参数,并且该参数已在服务器中的文本文件中定义为sample_db_connection = localhost,并且我想在作业步骤中传递文本文件,以便无论何时作业运行后,它找到了此参数,它将自动采用文本文件中定义的值. 解决方案 您需要使用"属性输入"作为输入步骤,并使用"修改后的Java脚本“步骤 ..
发布时间:2020-04-25 11:46:40 其他开发

使用Solr查询HBase

我有一个数据仓库问题,需要通过大型数据集进行查询。为了这个例子,我们可以说一个典型的状态将会有三千万用户拥有每个用户的活动统计信息。理想情况下,我可以购买数据仓库工具(Vertica,Infobright等),但这并不是卡片或预算。 现在我正在考虑使用Solr来查询HBase。尽管我相信HBase可以满足需求,但我担心Solr。它作为搜索引擎进行了优化,即结果的第一页在最后一页返回,并且不支 ..
发布时间:2018-06-05 13:28:21 其他开发

如何从Google Analytics中提取数据并从中建立数据仓库(网站)?

我拥有点击流数据,例如引荐网址,顶部着陆页,顶部退出页面以及诸如网页浏览量,访问次数和跳出次数等指标。目前尚无数据库存储所有这些信息。我需要从这个数据开始从头开始构建数据仓库(我相信这个数据仓库被称为web-house)。因此,我需要从Google Analytics中提取数据,并以日常自动的方式将数据加载到仓库中。我的问题是: - 有可能吗?每天数据都会增加(有些是根据度量或度量来衡量的, ..
发布时间:2018-05-03 13:30:39 其他开发

将数据导出到Excel文件从Sql Server 2014使用SSIS 2012

我正在使用Windows 8.1,office 2013,Visual Studio 2013,SQL Server 2014和SSIS 12.0 我有一个数据流,它具有OLE DB源,数据转换和Excel目的地。 我的OLEDB来源 数据转换 我已经在(C:\XX)文件夹中创建一个Excel文件StudentInfo.xls并进行连接 一切都可以,但是当我执行它时,我给 ..
发布时间:2017-09-08 22:53:41 数据库

过滤器的时间长度

我需要计算上午8点到晚上10点之间的时间。其他时间我不需要。 ,现在我用excel做这个,我想做自动化的过程 我有下表,事件 start_date | end_date | duration_REAL | duration_08AM_a_10PM --------------------------------------------- -------------------- ..
发布时间:2017-04-15 14:51:22 PHP

AD日期的数据仓库

我们正在为世界历史数据库创建历史档案,我们需要一个引用AD中所有日期的日期查询表。如何创建这个表的值 - 从1AD到2011为YYYY / MM / DD?数据库是MySQL。 问题: 我正在使用Excel预先填充日期,然后导入MySQL为:YYYY / MM / DD,但Excel不能识别像0007,0008等的年份,所以我无法自动复制单元格以生成日期。我必须手动执行,这将需要几天的 ..
发布时间:2017-04-07 01:58:35 数据库

使用DATE字段作为MySQL的日期维度的主键

我想在MySQL数据仓库中处理日期维度。 (我在DW世界的新手) 我用google做了一些搜索,看到很多表结构(大部分)日期维度,主键是一个简单的 UNSIGNED INTEGER 。 为什么不使用 DATE 字段作为主键,因为MySQL是3字节VS 4字节 INTEGER ? Ex: CREATE TABLE dimDate id INTEGER UNSIGNED ..
发布时间:2017-04-06 23:27:45 数据库

不同更新时间表的事实表

我有两套具有相同等级的数据,例如发票编号。大多数数据需要每天更新,因为我们认识到以前发票的收入。然而,这些数据中的一些通过一个单独的成本计算系统每月进行一次,然后通过附加信息被馈送到数据仓库。我应该创建一个包含两组数据的事实表,然后在导入其他数据时每月一次对事实表运行一次更新,或者由于不同的更新计划,我应该创建两个事实表。数据是相关的,许多查询(〜35%)将需要来自两组数据的信息(当可用时)。该系 ..
发布时间:2017-03-22 03:41:49 其他数据库

什么dw模式是适当的,当没有措施?

所有的演示都在他们的例子中使用销售/订单模型作为衡量标准。但是我的数据库不是事务性的。这是一个以客户为中心的模型,其中有一个表连接到几个属性表。 由于不同的模型,这甚至不符合多维数据集建立的资格,还是有一些方法仍然可以构建立方体,尽管它不是事务性的? 我听说过无数的事实表,但还没有真正理解这个概念。这是你会使用哪一个? 解决方案 您要分析什么样的指标? 如果你想做的是聚合 ..
发布时间:2017-03-22 03:27:43 其他数据库

多对多尺寸模型

Folks, 我有一个称为DIM_FILE的维度表,其中包含我们从客户那里收到的文件的信息。每个文件都有详细记录,构成我的FACT表CUST_DETAIL。在主要过程中,文件经过几个阶段,每个阶段都会标记一个状态。在短暂的时间里,我有很多关系。关于星形图维度建模的任何想法。客户记录仅属于单个文件,文件可以具有多个状态。 FACT ---- CustID FileID ..
发布时间:2017-03-22 03:13:24 其他数据库

当所有尺寸值都具有100%重要性时,处理多对多尺寸

我至少会尽量保持简洁。 我们假设我们正在追踪账户余额。所以我们的事实表将有一些列如... 帐户余额资料表 ($) (FK)AccountID (FK)DateID ... 余额 ... 显然你有一个维度表和日期维度表。所以现在我们可以轻松地过滤帐户或日期(或日期范围等)。 但这里是踢球者...帐户可以属于组 - 任何数字在给定的日期。组是简单的逻辑抽象,除了 ..
发布时间:2017-03-22 02:31:15 其他数据库

数值属性的维度表中的空值

在文本列的情况下,写入“NA:Missing”是很容易的, “但是对于保留特定值很重要的数字列应该做些什么。注意:我不想使用带状值的解决方案(例如,“0-50”,“50-100”,“NA:Missing”)的文本列。 例如,客户维度可能具有年龄。如何处理失踪的出生年龄?把它留空添加任意数字作为占位符,如1900? 有时,可能很难找到占位符号。例如,如果销售到期日是非负数,但是可以为零, ..
发布时间:2017-03-22 02:17:53 其他数据库

用于增量“出口”的数据库设计到数据仓库

给定一个1 TB的关系数据库,目前在SQL Server中。数据仓库需要数据库主要部分的“复制”。仓库数据不得超过24小时。关系数据库的大小使得每天晚上完成全负荷是不切实际的。我应该如何设计关系数据库以支持仓库的增量负载? 数据库的一小部分( 维护关系数据库的性能是最关心的问题,其次不会浪费不必要的空间。 p> 解决方案 有多种方法来处理增量拉。有各种各样的方法和场景的卷,所以 ..
发布时间:2017-03-22 01:27:16 其他数据库

PostgreSQL中的日历表9

我正在建立一个分析数据库(我对数据和业务目标有着深刻的理解,只有基本到中等的数据库技能)。 我有遇到一些引用建立类似的仓库,实施“日历表”的概念。这是有道理的,很容易做到。但是,我看到的大多数例子是将范围限制为“天”的日历表。我的数据需要分析到小时。可能是几分钟。 我的问题:在空间效率和查询/排序速度方面,小时/分钟级粒度的日历表的执行是否有价值?如果是这样,你可以推荐一个表结构和种群 ..

如何按天统计数据并仍然依赖时区?

我们正在使用汇总表,以UTC时间的方式在小时内汇总用户的信息。我们遇到的问题是这张桌子变得太大了,我们的系统下降了很多。我们已经完成了对PostgreSQL推荐的所有调优技术,我们仍然经历缓慢。 我们的想法是以日期而不是小时开始聚合,但问题是我们允许我们的客户更改时区,重新计算当天的数据。 有没有人知道一种方式来存储每日摘要,但是在切换时区时仍然尊重数字和总计? 解决方案 使用 ..
发布时间:2017-03-22 00:25:22 其他数据库

在设计数据仓库时使用分段数据库的好处

我正在设计数据仓库架构。 在探索从生产中提取数据并进入数据仓库的各种选项时,我发现了许多文章,主要提出以下两种方法 - 生产DB ---->数据仓库(星型模式)----> OLAP Cube 生产DB ----> 分段数据库 ---->数据仓库(星型模式)----> OLAP Cube 我仍然不确定哪一个是在性能方面更好的方法,并减少生产数据库的处理负载。 您发现更好的方法设 ..
发布时间:2017-03-21 23:54:05 其他数据库

数据仓库,事实表和尺寸表的设计逻辑模型

嗨,我是Datawarehousing的新手,对于家庭作业,要求我意识到逻辑设计,物理和实现。你如何在数据仓库中建模: i希望设计数据仓库,提供有关棒球联赛的统计数据的答案 对于玩家 •有多少次击球手蝙蝠。 •如何许多运行得分是。 •有多少次命中,双打和三重命中。 •多少个人 •许多RBI。 •许多基于球的基础 在防守: ▪多少出局,双重 ..
发布时间:2017-03-21 23:38:27 其他数据库

数据仓库用户数据 - 设计Q

如何最好地存储用户数据与日期/时间维度? Usecase是我正在尝试每小时存储用户操作。如股数,喜欢,朋友等我有一个时间表和一个日期表。时间很简单 - 我每天的每个小时都有每行= user_id和colunms = 1到24。但问题是日期。如果我给每一天= 1 colunm,那么我将有一年365科隆。我无法归档数据方式,因为分析也需要过去的数据。其他策略是什么? 解决方案 dimDa ..
发布时间:2017-03-21 22:50:53 其他数据库

数据库设计:一个巨大的桌子还是分开的桌子?

目前我正在设计一个在我们公司使用的数据库。我们正在使用SQL Server 2008.数据库将保存从多个客户收集的数据。数据库的目标是获取几个客户的总体基准数据。 最近,我一直担心一个表格会变得非常大。每个客户都有大约20000000行数据,数据库中即将有30个客户(如果不是更多)。在这个表上会做很多的查询。我已经注意到性能问题,用户被暂时锁定。 我的问题是,我们将来可以处理这个表,还 ..