data-lake相关内容

DynamoDB 是否适合作为 S3 元数据索引?

我想存储和查询大量的原始事件数据.我想使用的架构是“数据湖"架构,其中 S3 保存实际事件数据,而 DynamoDB 用于索引它并提供元数据.这是一个在很多地方都被谈论和推荐的架构: https://aws.amazon.com/blogs/big-data/building-and-maintaining-an-amazon-s3-metadata-index-without-server ..
发布时间:2022-01-15 17:44:28 其他开发

Databricks、Synapse 和 ADLS gen2 的数据治理解决方案

我是数据治理的新手,如果问题缺少一些信息,请见谅. 目标 我们正在构建数据湖 &Azure 平台上的中型电信公司从头开始的企业数据仓库.我们将 ADLS gen2、Databricks 和 Synapse 用于我们的 ETL 处理、数据科学、ML &质量检查活动. 我们已经有大约一百个输入表和 25 TB/年.未来我们期待更多. 企业有强烈的需求,倾向于采用与云无关的解决方 ..

AWS Glue Spark作业无法支持带双引号的大写列名

问题陈述/根本原因:我们正在使用AWS Glue将数据从生产PostGress数据库加载到AWS DataLake中.胶水在内部使用Spark作业来移动数据.但是,我们的ETL过程失败了,因为Spark只支持小写的表列名,不幸的是,我们所有的源PostGress表列名都在CamelCase中并用双引号引起来. 例如:PostGress数据库中我们的源表列名称为"CreatedDate".Sp ..
发布时间:2021-04-13 18:34:30 其他开发

适用于Databrick,Synapse和ADLS gen2的数据治理解决方案

我是数据治理的新手,如果问题缺少一些信息,请原谅我. 客观 我们正在建设数据湖&从零开始为Azure平台上的中型电信公司提供企业数据仓库.我们正在将ADLS Gen2,Databricks和Synapse用于我们的ETL处理,数据科学,ML&质量检查活动. 我们已经有大约每年25 TB的输入表.将来我们会期望更多. 企业对云不可知的解决方案有强烈的要求.由于Databric ..

DynamoDB是否适合作为S3元数据索引?

我想存储和查询大量原始事件数据。我要使用的架构是“数据湖”架构,其中S3保存实际的事件数据,而DynamoDB用于对其进行索引并提供元数据。在许多地方都讨论并推荐了这种体系结构: ”> https://aws.amazon.com/blogs/big-data / building-and-maintaining-an-amazon-s3-metadata-index-without-ser ..
发布时间:2020-06-04 00:25:24 其他开发

Data Lake Store的备份

我正在为Data Lake Store(DLS)制定备份策略。我的计划是创建两个DLS帐户并在它们之间复制数据。我已经评估了几种实现这一点的方法,但是它们都不符合保留POSIX ACL的要求(使用DLS说法的权限)。 PowerShell cmdlet要求将数据从主DLS下载到VM并重新上载到辅助DLS。 AdlCopy工具仅适用于Windows 10,不保留权限,也不支持跨区域复制数据(并非这是 ..