amazon-kinesis-firehose相关内容

AWS DynamoDB 流式传输到 Redshift

我们希望将数据从 DynamoDB NoSQL 连续作为流移动到 Redshift 数据库中.我很难理解 AWS 中的所有新术语/技术.有 1) DynamoDB 流 2) AWS Lambda 3) AWS Kinesis Firehose 谁能提供每个的简短摘要.什么是 DynamoDB 流?这与 AmazonKinesis 有何不同?阅读完所有资源后,这是我的假设理解 ..

按负载将 AWS Kinesis Firehose 数据分区到 s3

我正在使用 AWS-Kinesis-Firehose 将数据注入 S3,然后使用 Athena 使用它. 我正在尝试分析来自不同游戏的事件,以避免 Athena 探索大量数据我想使用每个游戏的标识符对 s3 数据进行分区,到目前为止我没有找到解决方案,因为 Firehose 接收来自不同游戏的数据. 有人知道怎么做吗? 谢谢,哈维. 解决方案 您可以使用 Amazon K ..

在交付到 S3 之前,我可以在 Kinesis Firehose 中自定义分区吗?

我有一个 Firehose 流,旨在从不同来源和不同事件类型中摄取数百万个事件.流应将所有数据传送到一个 S3 存储桶,作为原始\未更改数据的存储. 我想根据嵌入在事件消息中的元数据(如事件源、事件类型和事件日期)在 S3 中对这些数据进行分区. 但是,Firehose 遵循其基于记录到达时间的默认分区.是否可以自定义此分区行为以满足我的需要? 更新:已接受的答案更新为新答案表明 ..
发布时间:2021-12-15 20:02:15 其他开发

将数据附加到 S3 对象

假设我有一台机器,我希望能够写入存储在 S3 存储桶上的某个日志文件. 因此,机器需要具有写入该存储桶的能力,但是,我不希望它能够覆盖或删除该存储桶中的任何文件(包括我希望它写入的文件). 所以基本上,我希望我的机器能够只将数据附加到该日志文件中,而不会覆盖它或下载它. 有没有办法将我的 S3 配置为这样工作?也许我可以附加一些 IAM 政策,以便它可以像我想要的那样工作? ..

AWS DynamoDB 流到 Redshift

我们希望将数据从 DynamoDB NoSQL 以流的形式连续移动到 Redshift 数据库中.我很难理解 AWS 中的所有新术语/技术.有 1) DynamoDB 流 2) AWS Lambda 3) AWS Kinesis Firehose 谁能提供每个的简短摘要.什么是 DynamoDB 流?这与 AmazonKinesis 有何不同?看完所有资源,这是我的假设理解 ..

使用 AWS Kinesis Firehose 写入 S3 存储桶中的特定文件夹

我希望能够根据数据中的内容将数据发送到 kinesis firehose.例如,如果我发送此 JSON 数据: {"name": "约翰",“身份证":345} 我想根据 id 过滤数据并将其发送到我的 s3 存储桶的子文件夹,例如:S3://myS3Bucket/345_2018_03_05.使用 Kinesis Firehose 或 AWS Lambda 是否可以做到这一点? 我现在 ..

将 Firehose 传输的文件存储在 S3 中的自定义目录名称下

我们主要通过 Kinesis Firehose 服务批量传输传入的点击流数据.我们的系统是一个多租户SaaS平台.传入的点击流数据通过 Firehose 存储在 S3 中.默认情况下,所有文件都存储在按给定日期格式命名的目录下.我想通过API指定Firehose平面\中数据文件的目录路径,以便隔离客户数据. 例如,我希望在 S3 中为客户 A、B 和 C 提供的目录结构: /A/201 ..
发布时间:2021-11-27 10:21:34 其他开发

Kinesis Firehose 在没有分隔符逗号的情况下将 JSON 对象放入 S3

在发送数据之前,我使用 JSON.stringify 来处理数据,它看起来像这样 {"data": [{"key1": value1, "key2": value2}, {"key1": value1, "key2": value2}]} 但是一旦它通过 AWS API Gateway 并且 Kinesis Firehose 将其放入 S3,它看起来像这样 {“key1":值1,“键2": ..

将数据从 Amazon Aurora 同步到 Redshift

我正在尝试在 AWS Aurora 和 Redshift 之间设置同步.实现这种同步的最佳方法是什么? 可能的同步方式是:- 查询表以查找表中的更改(因为我只执行插入操作,更新无关紧要),将这些更改导出到 S3 存储桶中的平面文件并使用 Redshift 复制命令插入到 Redshift 中. 使用 python 发布者 和 Boto3 将更改发布到 Kinesis 流中然后在 ..

使用 pyarrow/parquet-cpp 重新分区 parquet-mr 生成的镶木地板会使文件大小增加 x30?

使用 AWS Firehose,我将传入的记录转换为镶木地板.在一个例子中,我有 150k 条相同的记录进入 firehose,一个 30kb 的镶木地板被写入 s3.由于 firehose 对数据进行分区的方式,我们有一个辅助进程(由 s3 put 事件触发的 lambda)在 parquet 中读取并根据事件本身中的日期对其进行重新分区.经过这个重新分区过程,30kb 的文件大小跃升至 900 ..
发布时间:2021-06-14 19:24:26 Python